登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步原創

51CTO技術棧

發布于 2024-7-19 14:06

瀏覽

0收藏

SOTA水準的Qwen2家族又迎來了新成員！

阿里云發布并開源語音模型Qwen2-Audio。

GitHub：

??https://github.com/QwenLM/Qwen2-Audio??

論文：

??https://arxiv.org/pdf/2407.10759??

作為大規模的音頻-語言模型，Qwen2-Audio能夠接受各種音頻信號輸入，并執行音頻分析或根據語音指令直接進行文字響應。

很妙的是，在Qwen2-Audio支持的語音聊天（但沒有音頻輸出）和音頻分析這兩種交互模式之間，模型可以自主判斷，并在這兩種模式之間智能地切換，無需系統提示。

同樣讓人驚喜的是，Qwen2-Audio模型具備分析音頻情緒的能力。當用戶對模型說，自己馬上就要考試，總是睡不著覺的時候。Qwen2-Audio會識別用戶的焦慮情緒，并給予可行的建議。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步-AI.x社區圖片

1.Qwen2-Audio的兩種模式：音頻分析和語音聊天

Qwen2-Audio支持兩種截然不同的模式：音頻分析和語音聊天。

這兩種模式通過其功能區分，但模型會自動判斷，用戶無需感知和進行提示。

在音頻分析模式中，用戶可以利用Qwen2-Audio分析各種類型的音頻，包括語音、聲音、音樂或各種混合音頻形式。命令可以通過音頻或文本發出，Qwen2-Audio將自動識別音頻中的命令部分。

如下圖所示，Qwen2-Audio相應用戶語音發出的翻譯命令，通過文字相應完成了該任務。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步-AI.x社區圖片

而在語音聊天模式中，用戶可以與Qwen2-Audio進行交互，就像它是一個會話代理一樣，進行不受限制的對話。

音頻交互是可用的，用戶可以隨時選擇切換到文本交互。例如，如果用戶輸入一個音頻片段，其中初始部分是敲擊鍵盤的聲音，隨后用戶用口語問“這是什么聲音？”，Qwen2-Audio預計將直接回應“這是鍵盤的聲音。”

即使在較為嘈雜的環境，例如用戶一邊聽歌，一邊發出指令，讓模型提取出歌詞內容。Qwen2-Audio也能有較好的表現。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步-AI.x社區圖片

從論文中看，Qwen2-Audio在沒有特定任務微調的情況下，超越了之前的大型音頻-語言模型（LALMs），涵蓋了多種任務。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步-AI.x社區圖片

2.Qwen2-Audio是如何煉成的？

與Qwen-Audio不同的是，Qwen2-Audio的音頻編碼器基于Whisperlarge-v3模型初始化，負責將音頻信號轉換為模型可以理解的表示。

Qwen2-Audio使用了Qwen-7B作為其基礎組件，模型總參數量為82億。

在訓練素材上，Qwen2-Audio使用了多個數據集。

在對音頻數據進行預處理的階段，音頻被重新采樣到16 kHz的頻率，使用25ms的窗口大小和10ms的跳躍大小將原始波形轉換為128通道的mel-頻譜圖。

此外，還加入了一個步幅為2的池化層，以減少音頻表示的長度。最終，編碼器輸出的每一幀近似對應于原始音頻信號的40 ms段。

整個Qwen2-Audio分為三個階段：

第一階段：多任務預訓練，使用自然語言提示和大規模數據集進行預訓練。
第二階段：監督微調，通過高質量的SFT數據集進行微調，提高模型對人類指令的理解和響應能力。
第三階段：直接偏好優化，通過DPO進一步優化模型，使其輸出更符合人類的偏好。

3.寫在最后

Qwen2-Audio雖然很優秀，但遺憾在沒有涉及語音輸出。而無論是語音助手、情感陪伴還是更遠的具身智能，都迫切需要點亮這棵技能樹。

登頂新SOTA！阿里新開源語音模型Qwen2-Audio ，實測優于 Gemini-1.5-pro，網友：離GPT-4o只差一步-AI.x社區圖片

Sora的橫空出世，已經肉眼可見地催熟了文生視頻的模型技術。

下一個值得關注的模態，似乎正瞄準了GPT-4o，瞄準了語音交互。

根據專家預測，AI語音交互技術將在今年年底發展到基本成熟。

快手憑借可靈獲得了一片叫好，那么，語音界令我們驚艷的國產模型，又將花落誰家？

本文轉載自??51CTO技術棧??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

GPT-4o

模態

語音

贊

回復

舉報

回復

相關推薦

GPT-4o再秀神操作，“復現”OpenAI總裁講課，網友當真了

Crystalcxt ? 2955瀏覽 ? 0回復
重大新聞（lmsys.org）：Gemini 1.5 Flash/Advanced逼近GPT-4o，排名第二！

PaperAgent ? 4075瀏覽 ? 0回復
GPT-4o背后可能的語音技術

魚蟲子 ? 3509瀏覽 ? 0回復
GPT-4o攻破ARC-AGI無法被挑戰的神話！71%準確率成新SOTA

angel ? 2538瀏覽 ? 0回復
超越GPT-4o，Claude 3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

duhorse ? 4498瀏覽 ? 0回復
開源模型王座一夜易主，GPT-4o被超越

duhorse ? 2364瀏覽 ? 0回復
終于來了，OpenAI測試GPT-4o高級語音模式！

Aceryt ? 2662瀏覽 ? 0回復
87.8%準確率趕超GPT-4o登頂！谷歌DeepMind發布自動評估模型FLAMe

duhorse ? 2423瀏覽 ? 0回復
阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！

Aceryt ? 3464瀏覽 ? 0回復
阿里史上最大規模開源發布，超GPT-4o 、Llama-3.1！

Aceryt ? 2471瀏覽 ? 0回復
Qwen2-VL全面解讀！阿里開源多模態視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 1.1w瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型！！（擊敗 Claude 和 GPT-4o）

老蛀蟲 ? 4936瀏覽 ? 0回復
超Gemini-1.5-pro 9.5%！字節&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 2863瀏覽 ? 0回復
谷歌AI發布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 6288瀏覽 ? 0回復
微軟開源最強小模型Phi-4，超GPT-4o、可商用

Aceryt ? 2457瀏覽 ? 0回復
視覺文本語音強強聯合！南大&騰訊優圖發布GPT-4o級別的實時視覺語音交互——VITA1.5

angel ? 2747瀏覽 ? 0回復
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.2w瀏覽 ? 0回復
谷歌三款新模型齊發，Gemini-2.0-Pro免費、跑分超o1登頂第一，適合編碼、處理復雜提示！

老蛀蟲 ? 2753瀏覽 ? 0回復
阿里版“Her”上線即開源！7B模型太全能了，全面擊敗Gemini-1.5-pro！所有用戶都能試玩！

51CTO技術棧 ? 1507瀏覽 ? 0回復

51CTO技術棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂