OpenAI 推出語音引擎，只需15秒樣本，即能重建任何人的聲音

pangguiyu

發布于 2024-4-3 08:32

瀏覽

0收藏

OpenAI 又帶來了一項超酷的進展！周五推出了一項名為 Voice Engine 的語音引擎，僅憑一段15秒的聲音樣本，便能夠精準模仿出那個人的聲音。

OpenAI 推出語音引擎，只需15秒樣本，即能重建任何人的聲音-AI.x社區

Voice Engine 的獨特之處在于，它能通過簡單的文本輸入和短短音頻樣本，創造出非常接近原始說話者的自然聲音。這意味著無論你讓它讀什么語言的文字，都能以那個人獨有的聲音風格朗讀，效果既逼真又充滿感情。

總而言之，OpenAI 通過這項新技術展示了人工智能復制人聲的驚人可能性，接下來讓我們一起看下吧～

Voice Engine 兩年前已開始研發

事實上，OpenAI 早在 2022 年末便啟動了 Voice Engine 的開發，并已利用此技術為其文本到語音 API、ChatGPT Voice 以及朗讀功能裝配了預設聲音。

在技術成功開發后，OpenAI 并未立即向市場全面推廣，而是選擇與一小群早期測試者“小心翼翼”地合作，共同探索其應用可能性和潛在風險。

在與 TechCrunch 的采訪中，OpenAI 產品團隊成員 Jeff Harris 透露，該模型是在“已獲授權和公開可用數據的結合”上進行訓練的。該技術將僅限于大約 10 名開發者使用，獲準訪問的組織包括教育技術企業 Age of Learning、視覺敘事平臺 HeyGen、前沿健康軟件制造商 Dimagi、AI 通信應用開發者 Livox 以及醫療健康系統 Lifespan。

OpenAI在官網展示出了一些已經開始應用的例子：

1. 生成更自然、富有情感的聲音

通過自然、富有情感的聲音，比預設的聲音更能代表更廣泛的說話者，為非讀者和兒童提供閱讀幫助，致力于兒童學業的教育技術公司Age of Learning使用這其生成預先編寫好的配音內容。此外，語音引擎和GPT-4創建實時、個性化的響應來與學生互動。

原預設錄音：

1
夕小瑤科技說
15秒

生成的自然語音：

2
夕小瑤科技說
16秒

2. 翻譯視頻和播客等內容

為了讓創作者和企業以其獨有的聲音接觸到全球更多的聽眾，HeyGen，— 一家專注于AI視覺敘事的平臺，成為了此技術的早期采用者。他們為從產品營銷到銷售展示的廣泛內容制作定制化、仿真的頭像。借助Voice Engine技術將視頻內容翻譯成多種語言，以此拓寬其全球受眾的范圍。這項技術的一大特色是在翻譯過程中能夠保留演講者原有的口音特征，例如，使用一位法國演講者的聲音樣本進行英語翻譯時，生成的語音將保留有法國口音，為翻譯增添了更多的真實感和個性化色彩。

原錄音：

3
夕小瑤科技說
16秒

翻譯的語音：

4
夕小瑤科技說
21秒

3. 改善偏遠地區的基本服務

OpenAI 強調自身的存在是希望為全球社區帶來福祉，因此正在和當地合力為社區衛生工作提供各類基礎服務，例如向哺乳期母親提供專業咨詢。為了促進這些工作者技能的提升，采用Voice Engine擎和GPT-4技術，以工作者的母語提供互動式反饋。

原錄音：

5
夕小瑤科技說
15秒

翻譯的語音：

6
夕小瑤科技說
41秒

4.支持言語障礙人士提供幫助

為非言語人群提供支持，例如開發針對語言障礙者的治療應用，以及為有特殊學習需求的人提供教育輔助。Livox是一款采用人工智能的替代及增強通信(AAC)應用，能夠賦能殘障人士進行溝通。通過利用先進的語音引擎，Livox能為用戶提供獨一無二、非機械化的聲音，涵蓋多種語言。這使得用戶能夠選擇最能體現其個性的聲音，并且對于那些使用多種語言的用戶，保持在各種語言中聲音的一致性。

原錄音：

7
夕小瑤科技說
16秒

生成的語音：

8
夕小瑤科技說
14秒

5. 幫助患者恢復他們的聲音

針對那些受到突發性或退行性語言障礙影響的人群，OpenAI與Norman Prince 神經科學研究所合作，正在研究AI在臨床設置中的應用。他們最近啟動了一個試點項目，為那些因癌癥或神經病理學問題而遭受語言障礙的患者提供Voice Engine服務。這項技術的一個顯著優點是它僅需很短的音頻樣本即可運作。因此，醫生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年輕患者之前為學校項目錄制的視頻音頻，成功恢復了她因血管性腦瘤而失去的流暢語言能力。

原錄音：