阿里全模態Qwen2.5-Omni技術報告萬字解讀!
Qwen 團隊最近發布了一款統一多模態大模型 Qwen2.5-Omni,開放了 7B 版本的權重。能夠同時處理文本、圖像、音頻和視頻輸入,并以流式方式生成文本和語音響應。下面來詳細看下:
開源地址:
- 論文地址:https://arxiv.org/abs/2503.20215
- 博客地址:https://qwenlm.github.io/zh/blog/qwen2.5-omni/
- GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
- Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
- ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
體驗地址:
研究動機:在日常生活中,人類能夠同時感知視覺和聽覺信息,并通過大腦處理這些信息后,以書寫、說話或使用工具等方式進行反饋,從而與世界上的各種生物進行信息交流并展現智能。現有大模型多為單模態(如 LLM)或雙模態(如 LVLM),缺乏統一的多模態實時交互能力,將聽覺、視覺等不同模態與語言模型高效地統一起來,并以類似人類交流的方式(如同時提供文本和語音流式響應)進行輸出,仍然是一個重大挑戰。
開發統一且智能的全能模型(omni-model)需要仔細考慮幾個關鍵因素。首先,必須設計一種系統性的方法,聯合訓練文本、圖像、視頻和音頻等多種模態,以促進它們之間的相互增強。這種對齊對于視頻內容尤為重要,因為需要同步音頻和視覺信號的時間特征。其次,必須管理不同模態輸出之間的潛在干擾,確保文本和語音標記等輸出的訓練過程不會相互干擾。最后,需要探索支持實時理解多模態信息并實現高效音頻流輸出的架構設計,從而降低初始延遲。
對于上述問題,阿里提出Qwen2.5-Omni,一個統一的多模態模型,能夠同時處理文本、圖像、音頻和視頻等多種模態,并以流式的方式同時生成文本和自然語音響應。
核心創新:
- 創新的時序對齊多模態RoPE(TMRoPE):提出了一種新穎的位置嵌入算法,通過將音頻和視頻幀以交錯的方式組織,并顯式地引入時間信息,實現了音頻和視頻的時序對齊,增強了多模態信息的融合。
- Thinker-Talker架構:設計了一種用于實時理解和語音生成的架構。其中,Thinker負責文本生成,Talker則利用Thinker的高級表示直接生成語音流,兩者在訓練和推理過程中均以端到端的方式聯合進行,有效避免了不同模態輸出之間的干擾。
- 流式處理與低延遲設計:通過采用塊狀處理方法對音頻和視覺編碼器進行改進,并引入滑動窗口的DiT模型,實現了音頻和視頻信息的流式處理,減少了初始包延遲,支持實時的多模態理解和語音生成。
下面來詳細看下:
1、方法介紹
Thinker-Talker架構
Omni模型采用Thinker-Talker架構,這種架構的設計靈感來源于人類大腦和嘴巴的功能分工:Thinker(類似大腦)是一個Transformer解碼器,配備了用于信息提取的音頻和圖像編碼器,負責處理和理解來自文本、音頻和視頻模態的輸入,并生成高層表征及相應的文本;而Talker(類似嘴巴)是一個雙軌自回歸Transformer解碼器,其設計靈感來源于Mini-Omni,則負責將Thinker生成的高層表征和文本轉化為語音輸出。兩者在訓練和推理過程中均以端到端的方式聯合進行,有效避免了不同模態輸出之間的干擾。
感知(模態理解)
文本處理
使用Qwen分詞器(基于字節級字節對編碼,BPE),詞匯表包含151,643個常規標記。文本被轉換為一系列隱藏表征,用于后續的處理和生成。
音頻處理
音頻輸入被重采樣至16kHz,并轉換為128通道的梅爾頻譜圖,窗口大小為25毫秒,跳躍長度為10毫秒。使用Qwen2-Audio的音頻編碼器,每幀音頻表征對應原始音頻信號中40毫秒的片段。下面是對這一過程的詳細解讀:
- 重采樣至16kHz:音頻輸入被重采樣至16kHz,采樣率決定了音頻信號在數字形式下的時間分辨率,16kHz是一個常見的采樣率,能夠較好地平衡計算效率和音頻質量。通過重采樣,可以確保不同來源的音頻數據具有一致的時間分辨率,便于后續處理。
- 轉換為128通道的梅爾頻譜圖:梅爾頻譜圖是一種將音頻信號的頻譜信息以梅爾頻率尺度表示的特征圖。梅爾頻率尺度更接近人類聽覺系統的感知方式,能夠更好地反映音頻信號中的重要頻率信息。128通道意味著將音頻信號的頻譜劃分為128個頻帶,每個頻帶對應一個通道,從而能夠更細致地捕捉音頻的頻率特征。這種轉換過程通常包括短時傅里葉變換(STFT)等步驟,將時域信號轉換為頻域信號,并在梅爾頻率尺度上進行量化。
- 窗口大小為25毫秒,跳躍長度為10毫秒:在進行短時傅里葉變換時,窗口大小決定了每次分析音頻信號的時間范圍,而跳躍長度決定了相鄰窗口之間的重疊程度。窗口大小為25毫秒意味著每次分析25毫秒內的音頻信號,而跳躍長度為10毫秒則表示相鄰窗口之間有15毫秒的重疊。這種設置能夠在一定程度上平衡時間分辨率和頻率分辨率,使得模型能夠捕捉到音頻信號中的短時變化和頻率信息。
- 使用Qwen2-Audio的音頻編碼器:該編碼器對轉換后的梅爾頻譜圖進行進一步處理,提取音頻的高級特征表示。每幀音頻表征對應原始音頻信號中40毫秒的片段,這意味著編碼器將每40毫秒的音頻信息壓縮為一個特征向量。這種壓縮過程能夠保留音頻的關鍵信息,同時減少數據量,便于模型進行高效的處理和理解。
圖像和視頻處理
使用Qwen2.5-VL的視覺編碼器,基于Vision Transformer(ViT)模型,參數量約為6.75億。視覺編碼器采用混合訓練策略,結合了圖像和視頻數據,確保其在圖像理解和視頻理解方面的熟練度。視頻采用動態幀率采樣,以適應音頻采樣率并盡可能完整地保留視頻信息。
- 混合訓練策略:視覺編碼器采用混合訓練策略,結合了圖像和視頻數據。這意味著編碼器在訓練過程中同時接觸到靜態圖像和動態視頻,從而能夠學習到圖像和視頻中的共同特征和差異特征。這種混合訓練策略有助于提高模型在圖像理解和視頻理解方面的熟練度,使其能夠更好地處理多種視覺任務。
- 視頻采用動態幀率采樣:為了適應音頻采樣率(40毫秒每幀)并盡可能完整地保留視頻信息,視頻采用動態幀率采樣。動態幀率采樣意味著根據視頻內容的實際時間長度和重要性,靈活調整視頻的幀率。這樣可以在保證音頻和視頻時間對齊的同時,避免因固定幀率導致的信息丟失或冗余。例如,在視頻內容變化較快的部分,可以適當提高幀率以保留更多細節;而在內容變化較慢的部分,則可以降低幀率以減少冗余信息。
時間對齊多模態旋轉位置嵌入(TMRoPE)
在多模態模型中,處理視頻和音頻輸入時,需要考慮以下關鍵問題:
- 時間對齊:視頻中的視覺信息和音頻信息在時間上是同步的,因此需要一種方法來確保模型能夠理解這種時間上的對齊關系。
- 位置信息:不同模態(文本、圖像、音頻)的位置信息需要被有效地編碼,以便模型能夠區分不同模態的輸入并理解它們之間的關系。
- 動態幀率:視頻的幀率可能不固定,因此需要一種靈活的方法來處理不同幀率的視頻。
為了解決這些問題,本文提出了TMRoPE,這是一種結合了絕對時間位置的多模態旋轉位置嵌入(M-RoPE)方法。
TMRoPE的核心思想是將多模態輸入的3維位置信息(時間、高度、寬度)進行編碼,并引入絕對時間位置信息。具體實現如下:
位置信息的分解
TMRoPE將原始的旋轉位置嵌入(RoPE)分解為三個維度:時間維度:用于表示時間信息;高度維度:用于表示圖像或視頻幀中的垂直位置;寬度維度:用于表示圖像或視頻幀中的水平位置。
不同模態的位置編碼
- 文本輸入:時間、高度和寬度三個部分使用相同的位置ID,因此TMRoPE在功能上等同于一維旋轉位置嵌入(1D-RoPE)。
- 音頻輸入:時間維度使用相同的位置ID,并引入絕對時間位置編碼,每個時間ID對應40毫秒。
- 圖像輸入:時間ID保持不變,而高度和寬度部分根據標記在圖像中的位置分配不同的ID。
- 視頻輸入:視頻被視為一系列圖像,每幀的時間ID遞增,高度和寬度部分的ID分配方式與圖像相同。由于視頻的幀率不固定,作者根據每幀對應的實際時間動態調整幀間的時間ID,確保一個時間ID對應40毫秒。
多模態輸入的位置編號
當模型輸入包含多種模態時,每種模態的位置編號從前一種模態的最大位置ID加1開始初始化。這種初始化方式確保了不同模態的位置信息不會相互沖突,同時保留了它們之間的相對順序。
時間交錯方法
為了使模型能夠同時接收視覺和聽覺信息,作者提出了一種特殊設計,稱為時間交錯方法。具體步驟如下:
- 按時間分割:將視頻中的表征按實際時間每2秒分割為一個塊。
- 交錯排列:在每個2秒的時間塊內,將視覺表征放在前面,音頻表征放在后面,從而實現視頻和音頻表征的交錯排列。
這種設計使得模型能夠在處理視頻和音頻輸入時,更好地理解它們之間的時間對齊關系,同時保留了視覺和聽覺信息的完整性。
生成
文本生成
文本生成由Thinker負責,其生成邏輯與廣泛使用的大型語言模型(LLMs)基本相同。具體來說:
- 基于詞匯表的概率分布:Thinker通過自回歸采樣生成文本。這意味著在生成每個詞時,模型會基于之前生成的詞序列來計算下一個詞的概率分布。例如,假設已經生成了詞序列“今天天氣很”,模型會計算下一個詞的概率分布,如“好”、“熱”、“冷”等,并從中選擇一個詞繼續生成。
- 重復懲罰(Repetition Penalty):為了避免生成重復的內容,模型可以使用重復懲罰技術。如果某個詞在生成過程中已經出現過多次,模型會降低其再次出現的概率。例如,如果模型已經生成了“今天天氣很好,今天天氣很好”,重復懲罰會使得“今天”和“天氣”等詞的生成概率降低,從而減少重復。
- Top-p采樣:為了增加生成文本的多樣性,模型可以使用Top-p采樣技術。這種方法不是直接選擇概率最高的詞,而是從概率最高的前p%的詞中隨機選擇一個詞。例如,假設模型計算出下一個詞的概率分布后,選擇概率最高的前10%的詞(如“好”、“熱”、“冷”等),然后從這10%的詞中隨機選擇一個詞繼續生成。這可以避免模型總是生成相同的詞,增加生成文本的多樣性。
語音生成
語音生成由Talker負責,Talker接收來自Thinker的高層表征以及采樣的文本標記嵌入。具體過程如下:
- 高維表征和離散采樣標記的整合:Talker接收來自Thinker的高維表征,這些表征隱式地傳遞了文本的語義信息,包括語調和態度等。此外,Thinker的表征主要表達語義空間的相似性,而非語音相似性。由于語音信號的復雜性,即使語義相似的文本也可能對應多種不同的語音特征。離散采樣標記通過提供明確的文本標記,幫助模型在生成語音時消除這種不確定性。
- 高效的語音編解碼器:為了高效表示語音的關鍵信息,本文設計了一種名為quent-tts-tokenizer的編解碼器。該編解碼器能夠高效表示語音的關鍵信息,并可通過因果音頻解碼器流式解碼為語音。在接收信息后,Talker開始自回歸生成音頻標記和文本標記。語音生成不需要與文本在單詞級別或時間戳級別對齊,這顯著簡化了訓練數據和推理過程的要求。
關于離散采樣標記的解讀
離散采樣標記(Discrete Sampling Tokens)的作用是提供明確的文本標記,幫助模型在生成語音時消除不確定性。以下是對這句話的詳細解讀:
1. 不確定性來源
在語音生成任務中,一個主要的挑戰是文本內容和語音特征之間的映射關系并不是一一對應的。具體來說:
- 語義相似性:不同的單詞或短語可能具有相似的語義,但它們的語音特征可能完全不同。例如,“cat”和“kitten”在語義上都與“貓”有關,但它們的發音差異很大。
- 語音多樣性:即使是相同的文本內容,也可以用不同的語音特征來表達,例如不同的語調、語速、情感等。例如,“今天天氣很好”這句話可以用歡快的語調說,也可以用平淡的語調說。
這種映射關系的多樣性導致了生成語音時的不確定性。如果模型只依賴于語義信息(如高維表征),它可能無法準確地確定應該生成哪種語音特征。
2. 離散采樣標記的作用
離散采樣標記通過提供明確的文本標記,幫助模型在生成語音時消除這種不確定性。具體來說:
- 明確的文本標記:離散采樣標記是將文本內容轉換為一系列離散的符號(tokens),這些符號直接對應于文本中的單詞或子詞。例如,句子“今天天氣很好”可以被標記化為
[今天, 天氣, 很, 好]
。 - 消除不確定性:這些離散的標記為模型提供了明確的指導,告訴模型在生成語音時應該對應哪些具體的單詞或短語。通過這種方式,模型可以更準確地選擇與這些標記對應的語音特征,從而減少生成語音時的不確定性。
3. 明確的文本標記如何幫助模型
- 語義到語音的映射:離散采樣標記幫助模型將語義信息(高維表征)與具體的語音特征聯系起來。例如,如果模型知道當前生成的標記是“今天”,它可以根據這個標記選擇與“今天”對應的語音特征。
- 減少歧義:離散采樣標記減少了語音生成中的歧義。例如,如果模型只知道當前的語義是“貓”,它可能無法確定是生成“cat”還是“kitten”的語音。但如果它知道具體的標記是“cat”,它就可以準確地生成“cat”的語音。
- 支持流式生成:離散采樣標記使得語音生成能夠以流式的方式進行。模型可以根據當前生成的標記逐步生成語音信號,而不需要等待整個文本生成完成。這使得語音生成更加高效,能夠實時響應用戶的輸入。
4. 具體例子
假設模型需要生成句子“今天天氣很好”的語音。以下是離散采樣標記如何幫助模型生成語音的過程:
- 文本標記化:輸入文本:“今天天氣很好”,標記化結果:
[今天, 天氣, 很, 好]
- 生成離散采樣標記:Thinker生成的高維表征隱式地傳遞了語義信息,例如“今天”表示的是今天的日期,“天氣”表示的是氣象條件等。離散采樣標記
[今天, 天氣, 很, 好]
為模型提供了明確的文本信息。 - 語音生成:Talker接收高維表征和離散采樣標記。對于每個標記,Talker根據高維表征和標記信息生成對應的語音特征。例如:
- “今天”對應語音特征
[語音特征1]
- “天氣”對應語音特征
[語音特征2]
- “很”對應語音特征
[語音特征3]
- “好”對應語音特征
[語音特征4]
- 流式解碼:Talker使用流式解碼器逐步生成語音信號。每個語音特征被轉換為音頻信號,最終生成完整的語音。
流式設計
在流式音頻和視頻交互的場景中,初始數據包延遲是衡量系統性能的關鍵指標。延遲可能由以下因素導致:
- 多模態信息輸入處理導致的延遲:處理多種模態(文本、音頻、圖像、視頻)的輸入需要時間和計算資源。
- 從接收到第一個文本輸入到輸出第一個語音標記之間的延遲:模型需要時間來處理輸入并生成第一個語音標記。
- 將第一段語音轉換為音頻的延遲:生成的語音標記需要進一步處理才能轉換為可播放的音頻信號。
- 架構本身的固有延遲:模型的規模、計算量(FLOPs)等因素也會影響延遲。
為了降低這些延遲,Qwen2.5-Omni在算法和架構上進行了多項改進。
- 支持預填充
分塊預填充(Chunked-prefills)是現代推理框架中廣泛采用的機制,用于提高處理效率。Qwen2.5-Omni通過以下方式支持這一機制:
- 音頻編碼器的分塊注意力:傳統的音頻編碼器通常對整個音頻進行全局注意力處理,這在處理長音頻時會導致較高的延遲。Qwen2.5-Omni將音頻編碼器的全局注意力改為每2秒為一個塊的分塊注意力。這樣可以減少每次處理的數據量,從而降低延遲,減少處理時間。
- 視覺編碼器的優化:視覺編碼器使用Flash Attention實現高效訓練和推理,并通過簡單的MLP層將相鄰的2×2標記合并為單個標記。補丁大小設置為14,這使得不同分辨率的圖像可以打包為一個序列。這種合并操作減少了標記的數量,從而減少了計算量。
- 流式編解碼生成
為了實現音頻的流式生成,尤其是長序列的流式生成,Qwen2.5-Omni提出了一種滑動窗口塊注意力機制,限制當前標記僅能訪問有限的上下文。具體實現如下: - 滑動窗口塊注意力機制:將DiT(Diffusion-based Inverse Text-to-Speech)模型的感受野限制為4個塊,包括2個回溯塊和1個前瞻塊。這種限制使得模型在生成當前標記時,只能訪問有限的上下文信息,從而減少了計算量和延遲。
- 分塊生成:在解碼過程中,將輸入編碼分組為塊,輸入編碼通過Flow-Matching轉換為梅爾頻譜圖,隨后通過改進的BigVGAN將生成的梅爾頻譜圖重建為波形。
2、預訓練
Qwen2.5-Omni的預訓練目標是:
- 增強語義理解:通過多模態數據的訓練,使模型能夠更好地理解文本、音頻、圖像和視頻中的語義信息。
- 提高泛化能力:通過多樣化的數據和任務,使模型能夠適應不同的應用場景和任務。
- 支持復雜長序列數據:通過長序列數據的訓練,使模型能夠處理復雜的多模態交互任務。
第一階段:凍結LLM參數,訓練視覺和音頻編碼器
目標:專注于訓練視覺編碼器和音頻編碼器,增強LLM內部的語義理解能力。
數據:使用大量音頻-文本和圖像-文本對數據。
方法:這一階段,LLM的參數保持不變,只訓練視覺和音頻編碼器。視覺編碼器基于Qwen2.5-VL初始化,音頻編碼器基于Whisper-large-v3初始化。訓練時,兩個編碼器在凍結的LLM上分別訓練,都先訓練各自的適配器,再訓練編碼器本身。這一基礎訓練對建立視覺-文本和音頻-文本的核心關聯與對齊至關重要。
第二階段:解凍所有參數,全面訓練
目標:通過更廣泛的多模態數據進行更全面的訓練,增強模型的多模態理解能力。
數據:
- 圖像和視頻相關數據:增加8000億token。
- 音頻相關數據:增加3000億token。
- 視頻-音頻相關數據:增加1000億token。
方法:在這一階段,LLM、視覺編碼器和音頻編碼器的所有參數都參與訓練。引入更多混合多模態數據和多樣化任務,增強聽覺、視覺和文本信息之間的交互與深度理解。
第三階段:長序列數據訓練
目標:增強模型對復雜長序列數據的理解能力。
數據:使用32k序列長度的數據。
方法:在前兩個階段,最大token長度限制為8192,以提高訓練效率。在這一階段,引入長音頻和長視頻數據,將原始文本、音頻、圖像和視頻數據擴展到32,768 token進行訓練。通過長序列數據的訓練,模型能夠更好地處理復雜的多模態交互任務,如長視頻理解和長音頻生成。
3、后訓練
- <|im_start|> 和 <|im_end|>:表示一個對話輪次的開始和結束。
- <|vision_start|> 和 <|vision_end|>:表示視頻或圖像輸入的開始和結束,括號內是視頻或圖像的描述。
- user 和 assistant:分別表示用戶和助手的角色,用戶提出問題,助手提供回答。
Thinker
在后訓練階段,Thinker使用ChatML格式的指令跟隨數據進行指令微調。具體來說:
- 數據集:包含純文本對話數據、視覺模態對話數據、音頻模態對話數據和混合模態對話數據。
- 目標:通過指令微調,使Thinker能夠更好地理解和執行自然語言指令,生成準確的文本響應。
Talker
第一階段:上下文延續訓練
目標:訓練Talker學習上下文延續,即根據上下文生成自然流暢的語音。
方法:使用下一個token預測任務,利用包含多模態上下文和語音響應的大規模對話數據集進行訓練。Talker學習建立從語義表示到語音的單調映射,同時學習根據上下文表達具有多樣化屬性的語音,如韻律、情感和口音。
音色解耦技術:防止模型將特定聲音與不常見的文本模式關聯,提高語音生成的多樣性和適應性。
第二階段:強化學習(DPO)
目標:提高語音生成的穩定性,減少模型幻覺。
方法:使用DPO(Direct Preference Optimization)技術,通過強化學習優化語音生成。具體來說,對于每個帶有參考語音的請求和響應文本對,構建一個包含三元組數據的數據集D,根據詞錯誤率(WER)和標點停頓錯誤率對樣本進行排序,選擇獎勵分數高的樣本進行訓練。
第三階段:說話人微調
目標:使Talker能夠采用特定聲音并提高語音響應的自然度。
方法:在基礎模型上進行說話人微調,使模型能夠生成特定說話人的語音,提高語音的自然度和可控性。
4、X→文本評估
這一部分評估了Qwen2.5-Omni在理解各種多模態輸入(文本、音頻、圖像和視頻)并生成文本響應的能力。
文本→文本
評估集中在通用評估、數學與科學能力以及編程能力三個方面,使用了以下基準:
- 通用評估:MMLU-Pro、MMLU-redux、Livebench0803
- 數學與科學:GPQA、GSM8K、MATH
- 編程能力:HumanEval、MBPP、MultiPL-E、LiveCodeBench
結果:Qwen2.5-Omni在大多數基準測試中優于Qwen2-7B,展現了卓越的文本生成能力。
音頻→文本
評估包括音頻理解、音頻推理和語音聊天三個方面,處理音頻輸入并生成文本響應的能力,使用了以下基準:
- 自動語音識別(ASR):Fleurs_zh、CommonVoice_en、CommonVoice_zh、CoVoST2_en-de、CoVoST2_zh-en
- 語音到文本翻譯(S2TT):同上
- 語音實體識別(SER):Meld
- 人聲分類(VSC):VocalSound
- 音樂理解:MusicCaps
- 音頻推理:MMAU
- 語音聊天:VoiceBench
結果:Qwen2.5-Omni在音頻理解任務上達到或超越了其他最先進方法的性能。此外,在VoiceBench上,Qwen2.5-Omni取得了74.12的平均分,顯著超越了其他同類規模的音頻語言模型和Omni模型。
圖像→文本
評估關注大學級問題、數學、通用視覺問答和OCR相關任務,使用了以下基準:
- 大學級問題:MMMU、MMMU-Pro
- 數學:MathVista、MathVision
- 通用視覺問答:MMBench-V1.1、MMVet、MMStar、MME、MuirBench、CRPE、RealWorldQA、MMERealWorld、MM-MT-Bench
- OCR相關任務:AI2D、TextVQA、DocVQA、ChartQA、OCRBench_v2
結果:Qwen2.5-Omni的表現與Qwen2.5-VL-7B相當,在多個基準測試中優于其他開源omni模型。
視頻→文本
評估Qwen2.5-Omni在處理視頻輸入并生成文本響應的能力,使用了以下基準:Video-MME、MVBench、EgoSchema
結果:Qwen2.5-Omni在所有最先進的開源omni模型和GPT-4o-Mini上都表現優異,與Qwen2.5-VL-7B相比也取得了相當或更好的結果。
多模態→文本
評估Qwen2.5-Omni在處理多模態輸入(結合文本、音頻、圖像和視頻)并生成文本響應的能力,使用OmniBench基準,結果顯示,Qwen2.5-Omni在OmniBench上取得了最先進的性能,大幅領先其他Omni模型。
5、X→語音評估
由于缺乏相關的標準評估方法,X→語音評估主要關注了兩個方面:零樣本語音生成(Zero-shot Speech Generation)和單說話人語音生成(Single-Speaker Speech Generation)。
零樣本語音生成(Zero-shot Speech Generation)
零樣本語音生成是指在沒有針對特定說話人進行微調的情況下,模型能夠生成語音的能力。這一部分的評估主要關注兩個指標:
- 內容一致性(Content Consistency):通過詞錯誤率(WER)來衡量生成語音與目標文本的一致性。
- 說話人相似度(Speaker Similarity):衡量生成語音與目標說話人的相似度。
評估方法:使用SEED數據集進行評估。將Qwen2.5-Omni與最先進的零樣本TTS系統進行比較,包括Seed-TTSICL、Seed-TTSRL、MaskGCT、E2 TTS、F5-TTS、CosyVoice 2等。
結果顯示,Qwen2.5-Omni在零樣本語音生成任務上表現出色,通過上下文學習(ICL)和強化學習(RL)優化,顯著提高了生成語音的內容一致性和說話人相似度。
單說話人語音生成(Single-Speaker Speech Generation)
單說話人語音生成是指在對特定說話人進行微調后,模型能夠生成高質量語音的能力。這一部分的評估主要關注:
- 內容一致性(Content Consistency):通過詞錯誤率(WER)來衡量生成語音與目標文本的一致性。
- 自然度(Naturalness):通過主觀評估(如MOS評分)來衡量生成語音的自然度。
評估方法:使用SEED數據集進行評估。比較說話人微調前后的Qwen2.5-Omni模型以及人類錄音。
結果顯示,經過說話人微調的Qwen2.5-Omni在單說話人語音生成任務上表現出色,不僅在內容一致性上接近人類水平,而且在自然度上也達到了接近人類水平的性能。
6、總結
Qwen2.5-Omni的突破性進展標志著AI向"全能選手"時代邁出了關鍵一步,其技術實現和設計理念深刻反映了多模態大模型的三大發展趨勢:
- 模態融合的深度突破
通過Thinker-Talker架構的創新分工(Thinker專注語義理解,Talker專精語音生成),配合TMRoPE位置編碼技術,模型實現了跨模態信息的毫秒級同步。這種"分工明確+一體化訓練"的策略,使模型在同時處理視頻幀(40ms/幀)和音頻流時仍能保持時序一致性,解決了傳統多模態模型"各自為政"的核心痛點。 - 交互范式的革命性升級
模型在VoiceBench 74.12分的表現和1.42%的中文WER,證明了其實時語音交互已達實用水平。特別是32K長序列支持能力,使其可處理30分鐘連續對話(如醫療問診場景),配合滑動窗口DiT技術將端到端延遲降低40%,為"邊說邊想"的自然交互提供了技術基礎。 - 技術落地的臨界點突破
從預訓練階段的漸進式解凍策略(先單模態適配器后全參數訓練),到后訓練階段的三階段語音優化(DPO強化學習使WER再降15%),形成了一套可復用的多模態訓練范式。在OmniBench 56.13%的跨模態理解準確率,以及超越專業TTS系統的語音生成質量(NMOS 4.51/5),標志著技術成熟度已達到商業化門檻。
這種技術演進正在重塑人機交互邊界:當設備能同步理解用戶展示的CT影像(MMBench 81.8%準確率)、實時翻譯會議視頻(CoVoST2 en-zh BLEU 30.2)、并給出帶情感語調的分析報告(SEED相似度0.754),傳統的"單一模態+分步處理"模式將被徹底顛覆。值得注意的是,該模型在保持7B參數規模下的高效表現,讓我們對下一代AI產品充滿了無限想象。