OpenAI 推出語音引擎,只需15秒樣本,即能重建任何人的聲音
OpenAI 又帶來了一項超酷的進展!周五推出了一項名為 Voice Engine 的語音引擎,僅憑一段15秒的聲音樣本,便能夠精準模仿出那個人的聲音。
Voice Engine 的獨特之處在于,它能通過簡單的文本輸入和短短音頻樣本,創造出非常接近原始說話者的自然聲音。這意味著無論你讓它讀什么語言的文字,都能以那個人獨有的聲音風格朗讀,效果既逼真又充滿感情。
總而言之,OpenAI 通過這項新技術展示了人工智能復制人聲的驚人可能性,接下來讓我們一起看下吧~
Voice Engine 兩年前已開始研發
事實上,OpenAI 早在 2022 年末便啟動了 Voice Engine 的開發,并已利用此技術為其文本到語音 API、ChatGPT Voice 以及朗讀功能裝配了預設聲音。
在技術成功開發后,OpenAI 并未立即向市場全面推廣,而是選擇與一小群早期測試者“小心翼翼”地合作,共同探索其應用可能性和潛在風險。
在與 TechCrunch 的采訪中,OpenAI 產品團隊成員 Jeff Harris 透露,該模型是在“已獲授權和公開可用數據的結合”上進行訓練的。該技術將僅限于大約 10 名開發者使用,獲準訪問的組織包括教育技術企業 Age of Learning、視覺敘事平臺 HeyGen、前沿健康軟件制造商 Dimagi、AI 通信應用開發者 Livox 以及醫療健康系統 Lifespan。
OpenAI在官網展示出了一些已經開始應用的例子:
1. 生成更自然、富有情感的聲音
通過自然、富有情感的聲音,比預設的聲音更能代表更廣泛的說話者,為非讀者和兒童提供閱讀幫助,致力于兒童學業的教育技術公司Age of Learning使用這其生成預先編寫好的配音內容。此外,語音引擎和GPT-4創建實時、個性化的響應來與學生互動。
原預設錄音:
1
夕小瑤科技說
15秒
生成的自然語音:
2
夕小瑤科技說
16秒
2. 翻譯視頻和播客等內容
為了讓創作者和企業以其獨有的聲音接觸到全球更多的聽眾,HeyGen,— 一家專注于AI視覺敘事的平臺,成為了此技術的早期采用者。他們為從產品營銷到銷售展示的廣泛內容制作定制化、仿真的頭像。借助Voice Engine技術將視頻內容翻譯成多種語言,以此拓寬其全球受眾的范圍。這項技術的一大特色是在翻譯過程中能夠保留演講者原有的口音特征,例如,使用一位法國演講者的聲音樣本進行英語翻譯時,生成的語音將保留有法國口音,為翻譯增添了更多的真實感和個性化色彩。
原錄音:
3
夕小瑤科技說
16秒
翻譯的語音:
4
夕小瑤科技說
21秒
3. 改善偏遠地區的基本服務
OpenAI 強調自身的存在是希望為全球社區帶來福祉,因此正在和當地合力為社區衛生工作提供各類基礎服務,例如向哺乳期母親提供專業咨詢。為了促進這些工作者技能的提升,采用Voice Engine擎和GPT-4技術,以工作者的母語提供互動式反饋。
原錄音:
5
夕小瑤科技說
15秒
翻譯的語音:
6
夕小瑤科技說
41秒
4.支持言語障礙人士提供幫助
為非言語人群提供支持,例如開發針對語言障礙者的治療應用,以及為有特殊學習需求的人提供教育輔助。Livox是一款采用人工智能的替代及增強通信(AAC)應用,能夠賦能殘障人士進行溝通。通過利用先進的語音引擎,Livox能為用戶提供獨一無二、非機械化的聲音,涵蓋多種語言。這使得用戶能夠選擇最能體現其個性的聲音,并且對于那些使用多種語言的用戶,保持在各種語言中聲音的一致性。
原錄音:
7
夕小瑤科技說
16秒
生成的語音:
8
夕小瑤科技說
14秒
5. 幫助患者恢復他們的聲音
針對那些受到突發性或退行性語言障礙影響的人群,OpenAI與Norman Prince 神經科學研究所合作,正在研究AI在臨床設置中的應用。他們最近啟動了一個試點項目,為那些因癌癥或神經病理學問題而遭受語言障礙的患者提供Voice Engine服務。這項技術的一個顯著優點是它僅需很短的音頻樣本即可運作。因此,醫生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年輕患者之前為學校項目錄制的視頻音頻,成功恢復了她因血管性腦瘤而失去的流暢語言能力。
原錄音:
9
夕小瑤科技說
30秒
生成的語音:
10
夕小瑤科技說
16秒
潛在風險與安全措施
想一想,如果有人只用幾段錄音就能復刻出你的聲音,這聽起來是不是雖然酷炫,但也挺駭人聽聞?
技術在進步,我們能做的事情越來越神奇,比如讓失聲的人再次“說話”,或者讓你聽到一個從未學過外語的朋友用流利的法語或日語跟你聊天。
但是伴之而來的,也會有人用你的聲音去騙你家人的錢,或者在網上放一個假的你說話的錄音,甚至隨著這些生物特征能用AI生成,先是人臉、聲音那這樣高速發展的雙刃劍技術進入我們的世界,會不會帶來失控呢?
而且Voice Engine的出生剛好撞到槍口!
上個月,聯邦通信委員會(FCC)因收到使用喬·拜登總統 AI 克隆聲音的騷擾電話而禁止使用 AI 生成的語音電話,全國拉響了警鈴。
“這是一個敏感的領域,處理得當極為重要,”OpenAI 產品經理 Jeff Harris 在采訪中指出,公司內部也承認,生成人類聲音的技術確實攜帶著嚴重的風險。
Open AI 正在探索為合成聲音添加水印或其他控制措施的方法,以防止技術被用來模仿政治人物或其他公眾人物的聲音。
OpenAI 希望引發有關合成聲音負責任使用的對話,以及社會如何適應這些新興技能的討論。根據這些對話和小規模測試的結果,OpenAI 將做出更明智的決策,以確定是否以及如何在更大范圍內部署這項技術。
而現階段,由于技術目前只面向合作伙伴的使用,OpenAI要求使用者們遵循一項使用政策,該政策禁止未經同意或合法權利冒充他人或組織,要求合作伙伴從原始說話者處獲得明確和知情的同意,并禁止開發者構建允許個人用戶創建自己聲音的工具。
合作伙伴還必須向其聽眾清楚地披露他們聽到的聲音是由 AI 生成的。此外,還實施了一系列安全跟蹤措施,包括水印技術,以追蹤任何由 Voice Engine 生成的音頻的來源,以及主動監控其使用方式。
小結
在這個令人興奮的科技進展背后,我們不禁要問自己:
我們真的準備好迎接這樣的未來了嗎?
OpenAI 的 Voice Engine人工智能擬人的無限可能,讓我們得以用新的方式“聽見”世界。
但是,正如我們所見,這項技術也帶來了不小的挑戰和道德考驗。隨著這樣的技術越來越成熟,我們必須更加認真地考慮如何平衡創新和安全。我們該如何確保技術的發展能夠促進人類福祉,而不是成為操控和欺詐的工具?
本文轉載自夕小瑤科技說,作者:付奶茶
