Voxtral:Mistral開源的語音識別模型! 原創
Voxtral在語音轉錄方面超越了Whisper large-v3。它在所有任務中都優于GPT-4o mini和和Gemini 2.5 Flash轉錄功能,并在英語短文本和Mozilla Common Voice上取得了最先進的成果,超越了ElevenLabs Scribe,展現出強大的多語言處理能力。
Voxtral 3B和Voxtral 24B模型不僅能夠轉錄,還具備以下功能:
- 長文本上下文處理:32k token的上下文長度,可處理長達30分鐘的音頻轉錄,或40分鐘的音頻理解
- 內置問答和摘要功能:支持直接對音頻內容提問或生成結構化摘要,無需鏈接獨立的ASR和語言模型
- 原生多語言支持:自動語言檢測,在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中實現最先進的性能,幫助團隊通過單一系統服務全球用戶
- 語音直接調用功能:基于語音用戶意圖直接觸發后端函數、工作流或API調用,將語音交互轉化為可操作的系統命令,無需中間解析步驟
- 強大的文本處理能力:保留其語言模型骨干網絡Mistral Small 3.1的文本理解能力
語音是人類最初的交互界面——遠在書寫或打字之前,它就讓我們能夠分享想法、協調工作、建立關系。隨著數字系統變得更加強大,語音正在回歸,成為我們最自然的人機交互形式。
然而,當今的系統仍然有限——不可靠、專有且過于脆弱,無法滿足現實世界的使用需求。彌合這一差距需要具備卓越轉錄能力、深度理解、多語言流利度以及開放、靈活部署的工具。
要在生產環境中獲得真正可用的語音智能,意味著要在兩種權衡之間做出選擇:
- 開源ASR系統,但詞錯誤率高,語義理解有限
- 封閉的專有API,雖然結合了強大的轉錄和語言理解能力,但成本顯著更高,對部署的控制力較小
Voxtral填補了這一空白。它以開放的方式提供最先進的準確性和原生語義理解,成本不到同類API的一半。這使得高質量的語音智能變得可訪問且可大規??刂?。
兩種Voxtral模型都超越了轉錄功能,具備以下能力:
- 長文本上下文處理:32k token的上下文長度,可處理長達30分鐘的音頻轉錄,或40分鐘的音頻理解
- 內置問答和摘要功能:支持直接對音頻內容提問或生成結構化摘要,無需鏈接獨立的ASR和語言模型
- 原生多語言支持:自動語言檢測,在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中實現最先進的性能,幫助團隊通過單一系統服務全球用戶
- 語音直接調用功能:基于語音用戶意圖直接觸發后端函數、工作流或API調用,將語音交互轉化為可操作的系統命令,無需中間解析步驟
- 強大的文本處理能力:保留其語言模型骨干網絡Mistral Small 3.1的文本理解能力
這些功能使Voxtral模型非常適合現實世界的交互和下游操作,如摘要、答案、分析和洞察。對于成本敏感的用例,Voxtral Mini轉錄功能以不到一半的價格超越了OpenAI Whisper。對于高端用例,Voxtral small匹配ElevenLabs Scribe的性能,同樣以不到一半的價格。
語音轉錄
為了評估Voxtral的轉錄能力,我們在一系列英語和多語言基準測試中進行了評估。對于每個任務,我們報告各語言的宏平均詞錯誤率(越低越好)。對于英語,我們報告短文本(<30秒)和長文本(>30秒)的平均值。
Voxtral全面超越了Whisper large-v3(當前領先的開源語音轉錄模型)。它在所有任務中都優于GPT-4o mini轉錄功能和Gemini 2.5 Flash,并在英語短文本和Mozilla Common Voice上取得了最先進的成果,超越了ElevenLabs Scribe,展現出強大的多語言處理能力。
在FLEURS的跨語言評估中,Voxtral Small在每個任務上都優于Whisper,在多種歐洲語言中實現了最先進的性能。
宏平均詳情:
- 英語短文本:LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
- 英語長文本:Earnings-21 10-m、Earnings-22 10-m
- Mozilla Common Voice 15.1:英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語
- FLEURS:英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語、阿拉伯語
音頻理解
Voxtral Small和Mini能夠直接從語音中回答問題,或通過提供音頻和基于文本的提示。為了評估音頻理解能力,我們創建了三個常見文本理解任務的語音合成版本。我們還在內部音頻理解(AU)基準測試中評估了模型,該模型需要在40個長文本音頻示例中回答具有挑戰性的問題。最后,我們在FLEURS-Translation基準測試中評估了語音翻譯能力。
Voxtral Small在所有任務中都與GPT-4o-mini和Gemini 2.5 Flash競爭激烈,在語音翻譯方面達到了最先進的性能。
文本處理
Voxtral保留了其語言模型骨干網絡的文本處理能力,使其可以作為Ministral和Mistral Small 3.1的直接替代品。
blog:??https://mistral.ai/news/voxtral??
Model:???https://huggingface.co/mistralai??
本文轉載自??AI帝國??,作者:無影寺
