老北京、上海話、四川腔全都會!通義千問 TTS 重大升級:300萬小時訓(xùn)練,支持七種中英雙語音色
近日,Qwen 團(tuán)隊對旗下語音合成模型 Qwen-TTS 進(jìn)行了重大升級。
此次更新的版本為“qwen-tts-latest”或“qwen-tts-2025-05-22”,通過 Qwen API 即可訪問和使用。
圖片
最引人注目的改動,是Qwen-TTS首次支持生成三種中文方言:北京話、上海話以及四川話。
這意味著,AI生成的語音不僅可以說普通話,還能自然地模仿出老北京的胡同腔、上海弄堂的吳語味,乃至川蜀鄉(xiāng)音中的抑揚頓挫。
這一能力背后,是Qwen-TTS使用了超過300萬小時的超大規(guī)模語料庫進(jìn)行訓(xùn)練。
不僅如此,Qwen-TTS還能自動根據(jù)文本內(nèi)容,調(diào)整語音的韻律、節(jié)奏與情緒變化。
這一點尤為關(guān)鍵。它讓AI的聲音不再是單調(diào)死板的“機器合成”,而是能做到抑揚頓挫、聲情并茂。
目前,Qwen-TTS 支持七種中英雙語音色,涵蓋不同語言風(fēng)格和性格特征。
包括 Cherry、Ethan、Chelsie、Serena 這幾位通用中英文配音角色,以及 Dylan(北京話)、Jada(上海話)和 Sunny(四川話)這三位方言專屬音色。
每一種音色都可以生成中英文混合語句,語調(diào)自然、語速流暢,令人難以分辨其非人類發(fā)聲。
圖源“通義千問Qwen”官方微信號
據(jù)悉,Qwen-TTS在 SeedTTS-Eval 評測集上的表現(xiàn)已達(dá)到人類平均水平。
無論從流暢性、情感傳達(dá)、語速掌控還是音質(zhì)自然度上看,均展現(xiàn)出業(yè)內(nèi)領(lǐng)先的綜合能力。
而從開發(fā)者角度來看,Qwen-TTS 的使用門檻也被大幅降低。
用戶僅需通過 Qwen API,并設(shè)置必要的模型名(如“qwen-tts-latest”)與目標(biāo)音色(如“Dylan”),即可快速合成高質(zhì)量語音。
官方還提供了完整的Python調(diào)用示例。代碼邏輯清晰、接口穩(wěn)定,只需數(shù)行,即可將文本轉(zhuǎn)為語音,并自動下載音頻文件。
圖片
調(diào)用方式靈活,支持本地部署與云端調(diào)用,適合各類開發(fā)者與企業(yè)級應(yīng)用場景。
例如,只需一段簡單的文本:“喲,您猜怎么著?今兒個我看NBA,庫里投籃跟鬧著玩似的”,就能快速生成帶有北京味兒的語音內(nèi)容。
這項能力,在短視頻配音、虛擬主播、播客制作、語音小說等領(lǐng)域具有巨大潛力。
更重要的是,Qwen-TTS 的可擴展性極強。
據(jù)官方透露,未來還將增加更多語言與語音風(fēng)格,覆蓋更多方言與多語環(huán)境。
當(dāng)然,這也為少數(shù)語言保護(hù)、多語種翻譯、跨境產(chǎn)品本地化等問題提供了新的解決思路。