成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Kimi-Audio開源橫掃全場景,1300萬+小時數(shù)據(jù)煉成語音世界“大一統(tǒng)”

人工智能
昨天,kim發(fā)布了一款“萬能型”音頻大模型—?Kimi-Audio,支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、語音情感識別(SER)、聲音事件/場景分類(SEC/ASC)、文本到語音(TTS)、語音轉換(VC)和端到端語音對話。

昨天,kim發(fā)布了一款“萬能型”音頻大模型— Kimi-Audio,支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、語音情感識別(SER)、聲音事件/場景分類(SEC/ASC)、文本到語音(TTS)、語音轉換(VC)和端到端語音對話。

換句話說,它可以聽、可以說、可以理解、可以對話,支持實時語音會話,多輪交流。

圖片圖片

一套架構,橫掃音頻全場景,開源可用。

從學術和工業(yè)角度,我認為有兩點貢獻:

  • 模型架構和預訓練規(guī)模空前——13萬小時級別的音頻數(shù)據(jù)+大語言模型初始化,音頻和文本信號雙線處理,架構極其“融合”。
  • 全鏈路開放+評測工具包——所有代碼、模型參數(shù)、評測工具全部開源,直接對社區(qū)開放,標準化評測徹底解決“無法復現(xiàn)”的老大難問題。

1.模型架構:語音世界的“大一統(tǒng)”

圖注:Kimi-Audio技術架構圖注:Kimi-Audio技術架構

Kimi-Audio的核心架構其實就三大塊:音頻分詞器(Tokenizer)、音頻大模型(Audio LLM)以及音頻反分詞器(Detokenizer)。就像把一句話切成一個個字,音頻分詞器把聲音變成一串“音頻詞”。Kimi用的是12.5Hz采樣率(就是每秒拆12.5個“詞”),既有“離散語義詞”(理解內容),又有“連續(xù)聲學特征”(保留音色、情感等細節(jié))。說白了,就是既能知道你說了啥,還能盡量還原你怎么說的。

音頻大模型的核心是一個“多模態(tài)大腦”,一邊能處理“音頻詞”,一邊能處理文本詞;底層結構和流行的大模型(transformer那一套)一樣,但上面分兩頭:一頭專門“寫字”輸出文本,一頭專門“說話”輸出音頻。這個模型底子其實是個現(xiàn)成的文本大模型(Qwen2.5 7B),直接“嫁接”了音頻輸入輸出的能力,兼容性強,省了很多訓練資源。

音頻反分詞器就是把模型輸出的“音頻詞”重新拼成聲音。“分塊+流式”方案,就是把長音頻切成一小塊一小塊,每塊單獨快速合成,然后拼起來,減少延遲,體驗更絲滑。還做了“l(fā)ook-ahead”機制,就是每塊合成時偷偷看一點后面的內容,讓拼接更自然,不斷句。

2.數(shù)據(jù)管線:1300萬+小時音頻,流水線級別的數(shù)據(jù)清洗

圖注:數(shù)據(jù)處理流程圖圖注:數(shù)據(jù)處理流程圖

Kimi-Audio這波,采用的預訓練音頻數(shù)據(jù)高達1300萬+小時,涵蓋語音、音樂、環(huán)境聲,各種應用場景全覆蓋。

那這么多音頻怎么處理?報告中說,Kimi團隊搞了個自動化大流水線,從原始音頻到高質量“帶標注”的數(shù)據(jù),大致分幾步:

  • 語音增強:先用AI降噪,把環(huán)境雜音、回聲處理掉。但為了不丟失真實世界的多樣性,訓練時一半用原聲,一半用降噪后的。
  • 說話人分割(Diarization):用PyAnnote工具給每段音頻“數(shù)人頭”,誰說了哪段切清楚。還專門寫了合并/細分/優(yōu)化的后處理流程,確保每個說話段準確且長度合理。
  • 轉寫+打標:用Whisper大模型自動識別英文,用FunASR的Paraformer-Zh識別中文,還根據(jù)時間戳智能加標點,保證后續(xù)訓練能用。

據(jù)說,除了公開數(shù)據(jù),還加了自家ASR數(shù)據(jù),音頻理解/問答數(shù)據(jù)。

圖片圖片

3.訓練方式:任務多、策略細,兼容音頻和文本智能

Kimi-Audio的訓練分兩步:萬能預訓練→精細指令微調。

萬能預訓練采用音頻+文本混合學,一邊學“純文本”(用MoonLight數(shù)據(jù)),一邊學“純音頻”,再加上“音頻對文本”“文本對音頻”的互轉任務,最后還有“音頻-文本交錯混合”的難度提升;

精細指令微調中任務全靠“自然語言指令”分流,不用人為切換,直接靠“你說什么任務,我就做什么”,且每種任務都生成多種隨機指令,訓練時反復調換,模型抗干擾強。

4.各項指標“遙遙領先”

Kimi-Audio與以往音頻語言模型在各類基準測試上的表現(xiàn)對比Kimi-Audio與以往音頻語言模型在各類基準測試上的表現(xiàn)對比

語音識別方面,LibriSpeech英文測試集,Kimi-Audio的錯誤率(WER)只有1.28%,比Qwen2.5-Omni的2.37%還低一截。AISHELL-1中文:WER 0.60%,比上一代模型低一半。此外多場景、多語種、多環(huán)境,Kimi-Audio基本都是榜首。

音頻理解方面,Kimi-Audio在MMAU、MELD、VocalSound、TUT2017等公開集上,分數(shù)都是最高。比如MMAU的“聲音理解”類,Kimi-Audio得分73.27,超過其它競品。

音頻對話&音頻聊天方面,VoiceBench的多項任務,Kimi-Audio都是第一,平均得分76.93。

語音對話表達方面,采用人類主觀打分,在速度控制、情感表達、同理心等多個維度,Kimi-Audio都能做到接近GPT-4o的效果,平均得分3.9(滿分5分)。

Kimi-Audio中用于實時語音到語音對話的生產部署工作流程

5.one more thing

官方也坦誠地提到,當前Kimi-Audio音頻大模型還存在三大挑戰(zhàn):

  • “轉錄”信息有限,描述性理解還需加強,現(xiàn)在模型對音頻的理解,大多還停留在“你說了什么”(轉寫),但很多聲音里“怎么說、什么情緒、什么場景”更重要。
  • 音頻“語義+細節(jié)”融合的表示還不夠完美:純語義Token容易丟細節(jié),純聲學Token又缺理解,如何把“內容”和“感覺”都融在一套表達里,是下一個技術突破點。
  • 無法擺脫ASR/TTS依賴:目前大部分音頻大模型,底層還是靠ASR(語音識別)和TTS(語音合成)撐著,實際上就是在拼裝已有的技術。

論文地址:github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf

模型地址:huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

repo地址:github.com/MoonshotAI/Kimi-Audio

責任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關推薦

2025-06-09 09:50:00

VeactReact

2017-12-15 17:14:10

云端

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2015-05-06 13:52:52

微軟外媒

2023-03-13 13:40:20

機器學習AI

2014-07-29 13:25:43

WWDC 2014 S

2023-07-17 08:03:03

Shell腳本SQL

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-04-23 13:38:00

AI數(shù)據(jù)

2023-05-10 14:58:06

開源模型

2024-03-04 00:45:00

視頻訓練

2024-09-10 10:07:19

2024-03-20 09:29:41

2025-03-13 10:18:42

2025-04-16 02:55:00

2024-01-24 09:24:19

自動駕駛算法

2025-03-18 09:29:54

2023-09-14 09:44:29

2017-06-27 10:49:48

Intel 300Wi-Fi芯片
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久免费 | 国产亚洲一区二区在线观看 | 国产精品久久久久久久久污网站 | h视频网站在线观看 | 日韩在线欧美 | www.99re5.com| 日韩1区2区 | 日韩av在线一区二区 | 国产婷婷综合 | 亚洲精品久久久久中文字幕二区 | 成人亚洲精品 | 精品久久久久久18免费网站 | 午夜男人天堂 | 欧美成人一级视频 | 黄色综合 | 一区二区三区四区国产 | 亚洲日日夜夜 | 日韩欧美三级在线 | 日韩视频一区二区 | 日韩av看片 | 在线视频 亚洲 | 欧美日韩国产一区二区 | 国产视频精品免费 | 99热视 | 天天看天天摸天天操 | 美女福利视频网站 | 亚洲视频中文字幕 | www.亚洲成人网 | 国产成人综合在线 | 久久麻豆精品 | 精品国产一区二区三区久久狼黑人 | h视频在线观看免费 | 日日躁狠狠躁aaaaxxxx | 蜜臀久久99精品久久久久野外 | 中文字幕 欧美 日韩 | 欧美日韩一区二区三区不卡视频 | 亚洲欧美在线免费观看 | 日韩精品亚洲专区在线观看 | 国产精品视频久久久 | 日韩一区中文字幕 | 亚洲欧美综合精品久久成人 |