成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<font id="iuxfb"></font>

<code id="iuxfb"><optgroup id="iuxfb"></optgroup></code>

<tfoot id="iuxfb"></tfoot>

<tfoot id="iuxfb"><tr id="iuxfb"></tr></tfoot>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Voxtral：Mistral開源的語音識別模型！原創

發布于 2025-7-17 06:29

瀏覽

0收藏

Voxtral在語音轉錄方面超越了Whisper large-v3。它在所有任務中都優于GPT-4o mini和和Gemini 2.5 Flash轉錄功能，并在英語短文本和Mozilla Common Voice上取得了最先進的成果，超越了ElevenLabs Scribe，展現出強大的多語言處理能力。

Voxtral：Mistral開源的語音識別模型！-AI.x社區

Voxtral 3B和Voxtral 24B模型不僅能夠轉錄，還具備以下功能：

長文本上下文處理：32k token的上下文長度，可處理長達30分鐘的音頻轉錄，或40分鐘的音頻理解
內置問答和摘要功能：支持直接對音頻內容提問或生成結構化摘要，無需鏈接獨立的ASR和語言模型
原生多語言支持：自動語言檢測，在全球最廣泛使用的語言（英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等）中實現最先進的性能，幫助團隊通過單一系統服務全球用戶
語音直接調用功能：基于語音用戶意圖直接觸發后端函數、工作流或API調用，將語音交互轉化為可操作的系統命令，無需中間解析步驟
強大的文本處理能力：保留其語言模型骨干網絡Mistral Small 3.1的文本理解能力

語音是人類最初的交互界面——遠在書寫或打字之前，它就讓我們能夠分享想法、協調工作、建立關系。隨著數字系統變得更加強大，語音正在回歸，成為我們最自然的人機交互形式。

然而，當今的系統仍然有限——不可靠、專有且過于脆弱，無法滿足現實世界的使用需求。彌合這一差距需要具備卓越轉錄能力、深度理解、多語言流利度以及開放、靈活部署的工具。

要在生產環境中獲得真正可用的語音智能，意味著要在兩種權衡之間做出選擇：

開源ASR系統，但詞錯誤率高，語義理解有限
封閉的專有API，雖然結合了強大的轉錄和語言理解能力，但成本顯著更高，對部署的控制力較小

Voxtral填補了這一空白。它以開放的方式提供最先進的準確性和原生語義理解，成本不到同類API的一半。這使得高質量的語音智能變得可訪問且可大規?？刂?。

兩種Voxtral模型都超越了轉錄功能，具備以下能力：

長文本上下文處理：32k token的上下文長度，可處理長達30分鐘的音頻轉錄，或40分鐘的音頻理解
內置問答和摘要功能：支持直接對音頻內容提問或生成結構化摘要，無需鏈接獨立的ASR和語言模型
原生多語言支持：自動語言檢測，在全球最廣泛使用的語言（英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語、意大利語等）中實現最先進的性能，幫助團隊通過單一系統服務全球用戶
語音直接調用功能：基于語音用戶意圖直接觸發后端函數、工作流或API調用，將語音交互轉化為可操作的系統命令，無需中間解析步驟
強大的文本處理能力：保留其語言模型骨干網絡Mistral Small 3.1的文本理解能力

這些功能使Voxtral模型非常適合現實世界的交互和下游操作，如摘要、答案、分析和洞察。對于成本敏感的用例，Voxtral Mini轉錄功能以不到一半的價格超越了OpenAI Whisper。對于高端用例，Voxtral small匹配ElevenLabs Scribe的性能，同樣以不到一半的價格。

語音轉錄

為了評估Voxtral的轉錄能力，我們在一系列英語和多語言基準測試中進行了評估。對于每個任務，我們報告各語言的宏平均詞錯誤率（越低越好）。對于英語，我們報告短文本（<30秒）和長文本（>30秒）的平均值。

Voxtral全面超越了Whisper large-v3（當前領先的開源語音轉錄模型）。它在所有任務中都優于GPT-4o mini轉錄功能和Gemini 2.5 Flash，并在英語短文本和Mozilla Common Voice上取得了最先進的成果，超越了ElevenLabs Scribe，展現出強大的多語言處理能力。

Voxtral：Mistral開源的語音識別模型！-AI.x社區

在FLEURS的跨語言評估中，Voxtral Small在每個任務上都優于Whisper，在多種歐洲語言中實現了最先進的性能。

Voxtral：Mistral開源的語音識別模型！-AI.x社區

宏平均詳情：

英語短文本：LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
英語長文本：Earnings-21 10-m、Earnings-22 10-m
Mozilla Common Voice 15.1：英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語
FLEURS：英語、法語、德語、西班牙語、意大利語、葡萄牙語、荷蘭語、印地語、阿拉伯語

音頻理解

Voxtral Small和Mini能夠直接從語音中回答問題，或通過提供音頻和基于文本的提示。為了評估音頻理解能力，我們創建了三個常見文本理解任務的語音合成版本。我們還在內部音頻理解（AU）基準測試中評估了模型，該模型需要在40個長文本音頻示例中回答具有挑戰性的問題。最后，我們在FLEURS-Translation基準測試中評估了語音翻譯能力。

Voxtral Small在所有任務中都與GPT-4o-mini和Gemini 2.5 Flash競爭激烈，在語音翻譯方面達到了最先進的性能。

Voxtral：Mistral開源的語音識別模型！-AI.x社區

文本處理

Voxtral保留了其語言模型骨干網絡的文本處理能力，使其可以作為Ministral和Mistral Small 3.1的直接替代品。

Voxtral：Mistral開源的語音識別模型！-AI.x社區

blog:??https://mistral.ai/news/voxtral??

Model:???https://huggingface.co/mistralai??

本文轉載自??AI帝國??，作者：無影寺

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

語音識別模型

已于2025-7-17 09:33:22修改

贊

收藏

回復

舉報

回復

相關推薦

Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負谷歌

輕薄滴假象 ? 2859瀏覽 ? 0回復
Mistral 不相信AGI，開源大模型CEO發出警告，科技帶不來“新造的人”

51CTO技術棧 ? 2830瀏覽 ? 0回復
Mistral開源首個22B代碼模型破記錄，支持80+編程語言

duhorse ? 3762瀏覽 ? 0回復
Mistral 開源代碼模型奪得王座！Codestral瘋狂訓練超80種語言，國內通義開發者請求出戰！

51CTO技術棧 ? 3438瀏覽 ? 0回復
比OpenAI的Whisper快50%，最新開源語音模型

Aceryt ? 3319瀏覽 ? 0回復
揭開神秘面紗：深入了解語音識別算法

51CTO內容精選 ? 2711瀏覽 ? 0回復
Mistral開源首個多模態大模型—Pixtral 12B

Aceryt ? 3106瀏覽 ? 0回復
Moonshine 語音模型：資源受限設備的語音識別超強 “芯” 動力！

穿越時空111 ? 2783瀏覽 ? 0回復
手勢圖像識別實戰(LeNet模型)

一起AI技術 ? 2683瀏覽 ? 0回復
阿里巴巴語音實驗室發布開源語音處理框架ClearerVoice-Studio，支持語音增強、分離、目標說話人提取

Halo咯咯 ? 3808瀏覽 ? 0回復
人臉識別和MTCNN模型

一起AI技術 ? 2541瀏覽 ? 0回復
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 2190瀏覽 ? 0回復
基于 LlamaFactory 微調大模型的實體識別的評估實現

AI悠閑區 ? 2866瀏覽 ? 0回復
Mistral發布最強多模態文檔理解模型Mistral OCR！可免費試用！

51CTO技術棧 ? 2730瀏覽 ? 0回復
在 Hugging Face 上部署語音轉語音模型

mb67d4200f74d5e ? 1699瀏覽 ? 0回復
Mistral殺回來了！Small 3.1開源發布，性能完勝Gemma 3，RTX 4090就能跑

老蛀蟲 ? 2910瀏覽 ? 0回復
OpenAI凌晨發布三款語音模型，語音AI Agent時代即將到來？

AI博物院 ? 1846瀏覽 ? 0回復
公式識別：利用分層且聚焦細節的網絡提升復雜公式識別能力

大模型自然語言處理 ? 1551瀏覽 ? 0回復
IBM Granite 3.3：語音識別、推理增強與RAG的完美融合

Halo咯咯 ? 1853瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Google發布MoR架構：兩倍推理速度，節省50%內存 3天前發布
MemOS：讓大模型告別遺忘、擁有操作系統級記憶管理 5天前發布

熱門推薦

RAG：7個檢索增強生成技術的解析（含實現代碼） 0回復

重磅！英偉達宣布H20芯片即將恢復對華銷售，并計劃推出全新GPU 0回復

RAG+大模型怎么玩？這八個項目2025年最火！ 0回復

我把DeepSeek微調參數扒光了，顯存和性能優化的秘密都在這 0回復

文檔太長模型“吃不下”？試試這15種Chunking策略，輕松搞定RAG！ 0回復

上一篇： MemOS：讓大模型告別遺忘、擁有操作系統級記憶管理

下一篇： Google發布MoR架構：兩倍推理速度，節省50%內存

社區精華內容

目錄

主站蜘蛛池模板： a在线v| 国产精品一区二区三区在线 | 精品1区 | 在线三级电影 | 亚洲精品在线看 | 欧美日韩一区二区三区四区五区 | 亚洲一区 | 成人在线精品视频 | 色综合色综合色综合 | 91视频网| 中文字幕一区二区三区精彩视频 | 欧美精品久久久久 | 亚洲精品福利视频 | 国产一区二区久久 | 91久久| 日日操操 | 久久久亚洲 | www.色综合 | 精品国产乱码久久久久久老虎 | 日韩在线中文字幕 | 国产精品久久欧美久久一区 | 国产7777| 亚洲综合在| 久久久久国产 | 放个毛片看看 | 国产日韩欧美 | 日韩精品在线看 | 国产999精品久久久久久绿帽 | 国产欧美在线播放 | 国产成人精品视频 | 国产色 | 最新国产在线 | 中文字幕一区二区三区在线观看 | 国产一级一片免费播放 | 日韩午夜在线播放 | 密色视频 | 欧美日韩高清一区二区三区 | 亚洲精品乱码久久久久久黑人 | av喷水| 成人在线播放网址 | 欧美黄色一区 |

<style id="ojoiy"></style>

<dl id="ojoiy"></dl>

<samp id="ojoiy"><del id="ojoiy"></del></samp>

<table id="ojoiy"><cite id="ojoiy"></cite></table>

<code id="ojoiy"><center id="ojoiy"></center></code>