成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Voxtral:Mistral開源的語音識別模型! 原創

發布于 2025-7-17 06:29
瀏覽
0收藏

Voxtral在語音轉錄方面超越了Whisper large-v3。它在所有任務中都優于GPT-4o mini和和Gemini 2.5 Flash轉錄功能,并在英語短文本和Mozilla Common Voice上取得了最先進的成果,超越了ElevenLabs Scribe,展現出強大的多語言處理能力。

Voxtral:Mistral開源的語音識別模型!-AI.x社區

Voxtral 3B和Voxtral 24B模型不僅能夠轉錄,還具備以下功能:

  • 長文本上下文處理:32k token的上下文長度,可處理長達30分鐘的音頻轉錄,或40分鐘的音頻理解
  • 內置問答和摘要功能:支持直接對音頻內容提問或生成結構化摘要,無需鏈接獨立的ASR和語言模型
  • 原生多語言支持:自動語言檢測,在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中實現最先進的性能,幫助團隊通過單一系統服務全球用戶
  • 語音直接調用功能:基于語音用戶意圖直接觸發后端函數、工作流或API調用,將語音交互轉化為可操作的系統命令,無需中間解析步驟
  • 強大的文本處理能力:保留其語言模型骨干網絡Mistral Small 3.1的文本理解能力

語音是人類最初的交互界面——遠在書寫或打字之前,它就讓我們能夠分享想法、協調工作、建立關系。隨著數字系統變得更加強大,語音正在回歸,成為我們最自然的人機交互形式。

然而,當今的系統仍然有限——不可靠、專有且過于脆弱,無法滿足現實世界的使用需求。彌合這一差距需要具備卓越轉錄能力、深度理解、多語言流利度以及開放、靈活部署的工具。

要在生產環境中獲得真正可用的語音智能,意味著要在兩種權衡之間做出選擇:

  1. 開源ASR系統,但詞錯誤率高,語義理解有限
  2. 封閉的專有API,雖然結合了強大的轉錄和語言理解能力,但成本顯著更高,對部署的控制力較小

Voxtral填補了這一空白。它以開放的方式提供最先進的準確性和原生語義理解,成本不到同類API的一半。這使得高質量的語音智能變得可訪問且可大規??刂?。

兩種Voxtral模型都超越了轉錄功能,具備以下能力:

  • 長文本上下文處理:32k token的上下文長度,可處理長達30分鐘的音頻轉錄,或40分鐘的音頻理解
  • 內置問答和摘要功能:支持直接對音頻內容提問或生成結構化摘要,無需鏈接獨立的ASR和語言模型
  • 原生多語言支持:自動語言檢測,在全球最廣泛使用的語言(英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等)中實現最先進的性能,幫助團隊通過單一系統服務全球用戶
  • 語音直接調用功能:基于語音用戶意圖直接觸發后端函數、工作流或API調用,將語音交互轉化為可操作的系統命令,無需中間解析步驟
  • 強大的文本處理能力:保留其語言模型骨干網絡Mistral Small 3.1的文本理解能力

這些功能使Voxtral模型非常適合現實世界的交互和下游操作,如摘要、答案、分析和洞察。對于成本敏感的用例,Voxtral Mini轉錄功能以不到一半的價格超越了OpenAI Whisper。對于高端用例,Voxtral small匹配ElevenLabs Scribe的性能,同樣以不到一半的價格。

語音轉錄

為了評估Voxtral的轉錄能力,我們在一系列英語和多語言基準測試中進行了評估。對于每個任務,我們報告各語言的宏平均詞錯誤率(越低越好)。對于英語,我們報告短文本(<30秒)和長文本(>30秒)的平均值。

Voxtral全面超越了Whisper large-v3(當前領先的開源語音轉錄模型)。它在所有任務中都優于GPT-4o mini轉錄功能和Gemini 2.5 Flash,并在英語短文本和Mozilla Common Voice上取得了最先進的成果,超越了ElevenLabs Scribe,展現出強大的多語言處理能力。

Voxtral:Mistral開源的語音識別模型!-AI.x社區

在FLEURS的跨語言評估中,Voxtral Small在每個任務上都優于Whisper,在多種歐洲語言中實現了最先進的性能。

Voxtral:Mistral開源的語音識別模型!-AI.x社區

宏平均詳情:

  • 英語短文本:LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
  • 英語長文本:Earnings-21 10-m、Earnings-22 10-m
  • Mozilla Common Voice 15.1:英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語
  • FLEURS:英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語、阿拉伯語

音頻理解

Voxtral Small和Mini能夠直接從語音中回答問題,或通過提供音頻和基于文本的提示。為了評估音頻理解能力,我們創建了三個常見文本理解任務的語音合成版本。我們還在內部音頻理解(AU)基準測試中評估了模型,該模型需要在40個長文本音頻示例中回答具有挑戰性的問題。最后,我們在FLEURS-Translation基準測試中評估了語音翻譯能力。

Voxtral Small在所有任務中都與GPT-4o-mini和Gemini 2.5 Flash競爭激烈,在語音翻譯方面達到了最先進的性能。

Voxtral:Mistral開源的語音識別模型!-AI.x社區

文本處理

Voxtral保留了其語言模型骨干網絡的文本處理能力,使其可以作為Ministral和Mistral Small 3.1的直接替代品。

Voxtral:Mistral開源的語音識別模型!-AI.x社區

blog:??https://mistral.ai/news/voxtral??

Model:???https://huggingface.co/mistralai??


本文轉載自??AI帝國??,作者:無影寺

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-7-17 09:33:22修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: a在线v| 国产精品一区二区三区在线 | 精品1区 | 在线三级电影 | 亚洲精品在线看 | 欧美日韩一区二区三区四区五区 | 亚洲一区 | 成人在线精品视频 | 色综合色综合色综合 | 91视频网| 中文字幕一区二区三区精彩视频 | 欧美精品久久久久 | 亚洲精品福利视频 | 国产一区二区久久 | 91久久| 日日操操 | 久久久亚洲 | www.色综合 | 精品国产乱码久久久久久老虎 | 日韩在线中文字幕 | 国产精品久久欧美久久一区 | 国产7777| 亚洲综合在| 久久久久国产 | 放个毛片看看 | 国产日韩欧美 | 日韩精品在线看 | 国产999精品久久久久久绿帽 | 国产欧美在线播放 | 国产成人精品视频 | 国产色 | 最新国产在线 | 中文字幕一区二区三区在线观看 | 国产一级一片免费播放 | 日韩午夜在线播放 | 密色视频 | 欧美日韩高清一区二区三区 | 亚洲精品乱码久久久久久黑人 | av喷水| 成人在线播放网址 | 欧美黄色一区 |