Kimi-Audio開源橫掃全場景，1300萬+小時數(shù)據(jù)煉成語音世界“大一統(tǒng)”

2025-04-28 14:10:22

昨天，kim發(fā)布了一款“萬能型”音頻大模型—?Kimi-Audio，支持語音識別（ASR）、音頻問答（AQA）、音頻字幕（AAC）、語音情感識別（SER）、聲音事件/場景分類（SEC/ASC）、文本到語音（TTS）、語音轉換（VC）和端到端語音對話。

昨天，kim發(fā)布了一款“萬能型”音頻大模型— Kimi-Audio，支持語音識別（ASR）、音頻問答（AQA）、音頻字幕（AAC）、語音情感識別（SER）、聲音事件/場景分類（SEC/ASC）、文本到語音（TTS）、語音轉換（VC）和端到端語音對話。

換句話說，它可以聽、可以說、可以理解、可以對話，支持實時語音會話，多輪交流。

圖片

一套架構，橫掃音頻全場景，開源可用。

從學術和工業(yè)角度，我認為有兩點貢獻：

模型架構和預訓練規(guī)模空前——13萬小時級別的音頻數(shù)據(jù)+大語言模型初始化，音頻和文本信號雙線處理，架構極其“融合”。
全鏈路開放+評測工具包——所有代碼、模型參數(shù)、評測工具全部開源，直接對社區(qū)開放，標準化評測徹底解決“無法復現(xiàn)”的老大難問題。

1.模型架構：語音世界的“大一統(tǒng)”

圖注：Kimi-Audio技術架構

Kimi-Audio的核心架構其實就三大塊：音頻分詞器（Tokenizer）、音頻大模型（Audio LLM）以及音頻反分詞器（Detokenizer）。就像把一句話切成一個個字，音頻分詞器把聲音變成一串“音頻詞”。Kimi用的是12.5Hz采樣率（就是每秒拆12.5個“詞”），既有“離散語義詞”（理解內容），又有“連續(xù)聲學特征”（保留音色、情感等細節(jié)）。說白了，就是既能知道你說了啥，還能盡量還原你怎么說的。

音頻大模型的核心是一個“多模態(tài)大腦”，一邊能處理“音頻詞”，一邊能處理文本詞；底層結構和流行的大模型（transformer那一套）一樣，但上面分兩頭：一頭專門“寫字”輸出文本，一頭專門“說話”輸出音頻。這個模型底子其實是個現(xiàn)成的文本大模型（Qwen2.5 7B），直接“嫁接”了音頻輸入輸出的能力，兼容性強，省了很多訓練資源。

音頻反分詞器就是把模型輸出的“音頻詞”重新拼成聲音。“分塊+流式”方案，就是把長音頻切成一小塊一小塊，每塊單獨快速合成，然后拼起來，減少延遲，體驗更絲滑。還做了“l(fā)ook-ahead”機制，就是每塊合成時偷偷看一點后面的內容，讓拼接更自然，不斷句。

2.數(shù)據(jù)管線：1300萬+小時音頻，流水線級別的數(shù)據(jù)清洗

圖注：數(shù)據(jù)處理流程圖

Kimi-Audio這波，采用的預訓練音頻數(shù)據(jù)高達1300萬+小時，涵蓋語音、音樂、環(huán)境聲，各種應用場景全覆蓋。

那這么多音頻怎么處理？報告中說，Kimi團隊搞了個自動化大流水線，從原始音頻到高質量“帶標注”的數(shù)據(jù)，大致分幾步：

語音增強：先用AI降噪，把環(huán)境雜音、回聲處理掉。但為了不丟失真實世界的多樣性，訓練時一半用原聲，一半用降噪后的。
說話人分割（Diarization）：用PyAnnote工具給每段音頻“數(shù)人頭”，誰說了哪段切清楚。還專門寫了合并/細分/優(yōu)化的后處理流程，確保每個說話段準確且長度合理。
轉寫+打標：用Whisper大模型自動識別英文，用FunASR的Paraformer-Zh識別中文，還根據(jù)時間戳智能加標點，保證后續(xù)訓練能用。

據(jù)說，除了公開數(shù)據(jù)，還加了自家ASR數(shù)據(jù)，音頻理解/問答數(shù)據(jù)。

圖片

3.訓練方式：任務多、策略細，兼容音頻和文本智能

Kimi-Audio的訓練分兩步：萬能預訓練→精細指令微調。

萬能預訓練采用音頻+文本混合學，一邊學“純文本”（用MoonLight數(shù)據(jù)），一邊學“純音頻”，再加上“音頻對文本”“文本對音頻”的互轉任務，最后還有“音頻-文本交錯混合”的難度提升；

精細指令微調中任務全靠“自然語言指令”分流，不用人為切換，直接靠“你說什么任務，我就做什么”，且每種任務都生成多種隨機指令，訓練時反復調換，模型抗干擾強。

4.各項指標“遙遙領先”

Kimi-Audio與以往音頻語言模型在各類基準測試上的表現(xiàn)對比

語音識別方面，LibriSpeech英文測試集，Kimi-Audio的錯誤率（WER）只有1.28%，比Qwen2.5-Omni的2.37%還低一截。AISHELL-1中文：WER 0.60%，比上一代模型低一半。此外多場景、多語種、多環(huán)境，Kimi-Audio基本都是榜首。

音頻理解方面，Kimi-Audio在MMAU、MELD、VocalSound、TUT2017等公開集上，分數(shù)都是最高。比如MMAU的“聲音理解”類，Kimi-Audio得分73.27，超過其它競品。

音頻對話&音頻聊天方面，VoiceBench的多項任務，Kimi-Audio都是第一，平均得分76.93。

語音對話表達方面，采用人類主觀打分，在速度控制、情感表達、同理心等多個維度，Kimi-Audio都能做到接近GPT-4o的效果，平均得分3.9（滿分5分）。

Kimi-Audio中用于實時語音到語音對話的生產部署工作流程

5.one more thing

官方也坦誠地提到，當前Kimi-Audio音頻大模型還存在三大挑戰(zhàn)：

“轉錄”信息有限，描述性理解還需加強，現(xiàn)在模型對音頻的理解，大多還停留在“你說了什么”（轉寫），但很多聲音里“怎么說、什么情緒、什么場景”更重要。
音頻“語義+細節(jié)”融合的表示還不夠完美：純語義Token容易丟細節(jié)，純聲學Token又缺理解，如何把“內容”和“感覺”都融在一套表達里，是下一個技術突破點。
無法擺脫ASR/TTS依賴：目前大部分音頻大模型，底層還是靠ASR（語音識別）和TTS（語音合成）撐著，實際上就是在拼裝已有的技術。

論文地址：github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf

模型地址：huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

repo地址：github.com/MoonshotAI/Kimi-Audio

責任編輯：武曉燕來源：大數(shù)據(jù)文摘

開源數(shù)據(jù)萬能型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看