語音合成突破:F5R-TTS首次實現非自回歸模型的GRPO優化,零樣本克隆性能顯著提升
在人工智能技術日新月異的今天,語音合成(TTS)領域正經歷著一場前所未有的技術革命。最新一代文本轉語音系統不僅能夠生成媲美真人音質的高保真語音,更實現了「只聽一次」就能完美復刻目標音色的零樣本克隆能力。這一突破性進展的背后,是大規模語音數據的積累和大模型技術的快速發展。
同時在技術前沿,DeepSeek 系列憑借其 GRPO 算法(群體相對策略優化),正以強化學習引領大語言模型(LLM)研究的新趨勢。目前,強化學習已擴展至自回歸 TTS 系統。然而,由于非自回歸架構與大型語言模型(LLMs)存在根本性的結構差異,此前非自回歸 TTS 系統尚未出現成功的強化學習集成案例,這一技術難題仍有待可行的研究解決方案。
近日,騰訊PCG社交線的研究團隊針對這一挑戰提出了 F5R-TTS 系統,首創性地通過將模型輸出轉化為概率表征,打通了非自回歸 TTS 模型強化學習的「任督二脈」。
- 論文標題:F5R-TTS: Improving Flow-Matching based Text-to-Speech with Group Relative Policy Optimization
- 論文鏈接:https://arxiv.org/abs/2504.02407
- 項目主頁:https://frontierlabs.github.io/F5R/
F5R-TTS 的創新架構
F5R-TTS 通過模型架構創新,有效融合了強化學習。這項研究的主要貢獻體現在三個方面:
- 概率化輸出轉換:研究團隊創新性地將 flow-matching 的 TTS 模型輸出轉化為概率表征。這一轉換使得強化學習在非自回歸模型中的應用成為可能,為后續的優化奠定了基礎。
- GRPO 優化方法:首次成功將 GRPO 方法應用于非自回歸 TTS 模型,采用詞錯誤率(WER)和說話人相似度(SIM)作為獎勵信號,有效引導模型優化方向。
- 零樣本語音克隆驗證:在零樣本語音克隆場景中,F5R-TTS 模型展現出顯著優勢。相較于傳統非自回歸 TTS 基線模型,在可懂度(WER 相對降低 29.5%)和說話人一致性(SIM 相對提升 4.6%)兩方面均實現顯著提升。
F5R-TTS 的訓練流程分為兩個關鍵階段:第一階段基于 flow-matching 損失函數進行預訓練;第二階段采用 GRPO 算法對模型進行精細優化。這種兩階段訓練策略既保證了模型的初始性能,又通過強化學習實現了針對性優化。
概率化改造:強化學習的基礎
我們選用了當前效果領先的非自回歸 TTS——F5-TTS 作為骨架。為了使非自回歸模型適配 GRPO 框架,F5R-TTS 進行了關鍵的概率化改造。具體而言,模型被設計為預測每一步輸出時的分布概率,而非直接預測確定性的輸出值。這一改造使得模型輸出具有了概率分布特性,為強化學習中的策略梯度計算提供了必要條件。
在第一階段預訓練中,目標函數仍采用 flow-matching 的形式,其核心思想是將標準正態分布 x0 的概率路徑匹配到近似真實數據 x1 的分布上。模型在最后一層預測高斯分布的均值與方差,并通過優化參數以最大化 x1 ?x0 的對數似然函數。這一過程可以形式化為以下目標函數:
簡化后,模型使用下式作為預訓練的目標函數
GRPO 強化
在 GRPO 階段,預訓練模型作為策略模型進行微調,同時以預訓練參數初始化參考模型。
具體實現上,策略模型的前向運算需要執行類似推理過程的采樣操作 —— 從標準高斯分布初始輸入開始,逐步計算每一步的輸出概率分布,并進行采樣。采樣結果既用于計算獎勵信號,也需要與參考模型輸出比較以計算 KL 散度損失,確保優化過程的穩定性。
獎勵函數的設計是 GRPO 階段的核心。研究團隊選擇了詞錯誤率(WER)和說話人相似度(SIM)作為主要獎勵指標,分別對應語音克隆任務中最關鍵的兩個方面:語義準確性和音色保真度。
最終,GRPO 階段的目標函數定義如下:
實驗
研究團隊設計了全面的實驗來驗證 F5R-TTS 的有效性。實驗設置包括:
- 預訓練階段:采用 7226 小時開源數據集 WenetSpeech4TTS Basic
- GRPO 微調:隨機選取 100 小時高質量語音數據
- 評估體系:基于 Seed-TTS 測試標準,構建包含 2560 個測試樣本(含 400 個高難度樣本、140 個帶噪樣本)的評估集,計算 WER 和 SIM
研究團隊首先采用 t-SNE 技術對說話人相似度進行二維空間可視化。結果如圖 4 顯示,對比其他方法,F5R-TTS 模型的合成結果能夠更準確地按照目標說話人實現聚類。這一可視化結果直觀地證明了 F5R-TTS 模型在說話人相似度方面的優越表現。
其次,采用全局方差(Global Variance, GV)指標進行頻譜分析。如圖 5 所示,F5R 模型的曲線與真實語音的曲線吻合度最高,再次驗證 F5-R 模型的合成語音在頻譜特性上與真實語音具有更高的相似性。
客觀測評指標表明,采用 WER 和 SIM 作為獎勵信號的 GRPO 方法,使 F5R-TTS 相較于基線在語義準確性和說話人相似度兩個維度均獲得提升。在說話人相關獎勵的引導下,F5R 能夠通過上下文學習更精準地克隆目標說話人的聲學特征。
值得注意的是,在困難測試集上,F5R 在 WER 指標上的相對優勢更為顯著 —— 這得益于 WER 相關獎勵組件有效增強了模型的語義保持能力。另外,為驗證所提方法的泛化能力,實驗還用在內部數據集上進行了重復驗證,結果表明 GRPO 方法在不同數據集上都能持續提升模型性能。
同時,三個模型在困難測試集上的性能均出現下降,這表明文本復雜度的增加通常會導致模型穩定性降低。該現象將成為后續優化研究的重要切入點。
未來展望
F5R-TTS 首次成功將 GRPO 整合到非自回歸 TTS 系統中,突破了非自回歸模型難以應用強化學習的技術瓶頸。實驗證明該方法能同時提升語義準確性和音色保真度,為零樣本語音克隆提供了更優解決方案。文章提出的概率化輸出轉換策略為其他生成模型的強化學習優化提供了可借鑒的思路。這項研究不僅推動了語音合成技術本身的發展,也為其他生成式 AI 模型的優化提供了新思路。
展望未來,研究團隊計劃從三個方向繼續深入探索:
- 強化學習算法擴展:探索將 PPO、DDPO 等其他強化學習算法整合到非自回歸語音合成系統的可行性,尋求更高效的優化路徑。
- 獎勵函數優化:設計更精細、多層次的獎勵函數,進一步提升模型在自然、個性化和表現力等方面的效果。
- 大規模數據驗證:在更大規模、更多樣化的訓練數據上驗證方法的擴展性,探索數據規模與模型性能的量化關系。
隨著技術的不斷成熟,期待未來出現更加自然、個性化和富有表現力的語音合成系統,為智能交互、內容創作、輔助技術等領域帶來全新可能。