折騰半天,我終于找到最懂中文的 AI 音頻產品
最近我注意到一個趨勢:各大短視頻平臺上,AI 生成的內容慢慢多了起來,而且其中有很多創(chuàng)意不錯的內容,點贊和評論數(shù)據(jù)都很好。用 AI 來去制作一些之前沒辦法實現(xiàn),或者實現(xiàn)成本很高的內容,我感覺這里面是有機會的。
上個月,我曾經做過一個 Demo,思路是利用最新的 AI 工具,通過視頻的方式來重新演繹中國歷史上那些經典老故事,比如女媧補天、牛郎織女、岳飛抗金、花木蘭替父從軍、貍貓換太子、穆桂英掛帥、梁山伯與祝英臺。
今年,AI 在多模態(tài)方面取得了十足的進展。我判斷做這事的時機到了。視頻不難做,目前行業(yè)內有不少的視頻模型,生成的效果基本能夠實現(xiàn)我剛剛提到的構想。但視頻畫面只是一部分,完整的視頻還包括貼切的配音。
那次和團隊熬夜做完視頻后,我發(fā)現(xiàn)在國內外比較難找到好的 AI 音頻類產品。
ElevenLabs 是全球知名的 AI 音頻創(chuàng)業(yè)公司,但測試后,我們發(fā)現(xiàn)它在中文方面的表現(xiàn)實在難以令人滿意,它對中文語義的理解比較弱,而且在很多字句上,機器味比較明顯。折騰半天,結果很讓人失望。
昨天,我和團隊無意間發(fā)現(xiàn)了一個國產寶藏產品,MiniMax 語音。下面是鏈接:https://www.minimaxi.com/audio
說起來有點慚愧,MiniMax 的視頻生成和通用 Agent 我一直在用,但音頻生成產品還真沒怎么注意過。六月時,MiniMax 發(fā)布了新一代語音大模型 Speech-02,最大的亮點就是語音合成效果接近真人,而且還能還原停頓、重音強調等表達細節(jié)。
這個模型曾經拿下 Artificial Arena 和 Huggingface 的榜單第一,語音相似度(SIM)在各種語言中表現(xiàn)都不錯,尤其是在中文、粵語、日語這些亞洲語言上,準確率和表現(xiàn)直接把 ElevenLabs 甩開了一大截。
今天,我想繼續(xù)來完善 AI 視頻案例。用 MiniMax語音的音頻能力,給我的花木蘭視頻,配上合適的音頻。
《木蘭辭》大家肯定耳熟能詳,現(xiàn)在我兒子都倒背如流。這首詩確實寫得好,很容易讓人記住。但讓 AI 來朗誦并沒那么簡單。因為木蘭辭全詩中,不同部分表達的情緒是不一樣的。
比如開頭幾句,主要是寫木蘭在家織布,聽到征兵的消息后,內心焦急、憂愁、思慮父親年老,決心代父從軍。如果朗讀的話,應該表現(xiàn)出來花木蘭的憂愁和勇氣。
緊接著是從軍準備,描寫木蘭買馬、備鞍、辭別家人。這一段既有出征的決絕,也帶著告別親人的柔情。情感比較復雜,需要表達出她的眷戀。
再后面是沙場征戰(zhàn),這里寫木蘭在軍隊中的艱苦、跋涉、奮戰(zhàn)....總之,不同的內容,需要的情感是不一樣的,如果用一個調讀下來,那自然很假。
我們團隊用 MiniMax 語音,僅花了兩個小時時間,完美生成了自己中意的音頻。先給大家聽聽效果。
你應該能感覺出來,我按照自己對這首詩的理解,讓 AI 來演繹對應的情感。該眷戀的時候突出眷戀,該果敢的時候則突出果敢。至此,我終于找到一款好用的 AI 音頻產品了。
接下來講講我是怎么做的。
整體來說,分三步。
第一步是音色設計。音色,其實就是聲音給人的第一感覺,是男是女,是年輕還是成熟,是清亮還是低沉,每個人說話都有自己的底色。
第二步再把內容拆分成小段,然后針對每一段去微調音色和情緒,讓表達更貼近內容本身。
最后一步就簡單了,我們用工具把所有的音頻片段拼在一起,形成一條完整的語音。
進入 MiniMax 語音主頁(直接搜索 MiniMax,點擊語音大模型也可以直接進入),點擊左側的“音色設計”菜單,可以通過提示詞來設計自己期望的音色。
如果不知道提示詞怎么寫,那也可以直接選擇提示詞輸入框下方的預定義角色,官方已經預置了一些提示詞模板,我們可以在此基礎上優(yōu)化。
點擊音色生成按鈕后,系統(tǒng)會直接給出三個備選的音色。哪個更貼近自己的預期,選哪個就好。
因為我的目標是給《木蘭辭》配音,所以在進行音色設計時,我輸入了以下提示詞:
女聲,堅定而柔和,堅毅中帶溫柔;語氣自然、有力量,充滿忠誠與家國情懷;適合古代英勇女性角色;帶有輕微古風韻味,但不過度夸張;表達清晰,情感豐富,可傳達隱忍、果斷與柔情交織的情緒。
最終生成的音色我們可以在音色庫中找到:
其實到這一步,音色設計就已經完成了。接下來,就要進入到最最重要的第二步了。不過在正式介紹音頻制作過程前,我先分享幾個我認為 MiniMax 語音很貼心的設計細節(jié)。
第一,MiniMax 語音支持對句子之間的停頓時間進行精確控制。以前我用其他 AI 工具生成音頻,經常遇到 AI 不會合理分配停頓位置和時長,聽起來總覺得不自然。這事其實挺麻煩,過去我們只能靠手動剪輯去補救。
而 MiniMax 語音考慮到了這一點,如果我們需要在哪句話后面停頓,只要插入一個指令就行。舉個例子,比如我想在某個詞后停頓 0.8 秒,直接插入 '<#0.8#>' 指令。非常簡單。
第二,在生成過程中,它支持對音色效果和情緒進行細微的調節(jié)。這一點對我而言,太有用了。要不然,想讓 AI 通過一個音色來詮釋不同情感的內容,挺難。
下面進入音頻制作具體過程。我對《木蘭辭》進行了結構和情緒上的拆分。
全詞大致可以分為七個部分:開頭是平靜的敘述,隨后是看到征兵時的憂傷,決定替父從軍時的果斷,出征準備時的溫情,沙場征戰(zhàn)時的激烈與英勇,凱旋歸來后的釋然與平靜,最后是與家人團聚時的溫馨和自豪。
每一部分的情緒和表達方式都各不相同,因此我在制作時也會針對不同情感進行分段處理。
先來看第一部分的內容:唧唧復唧唧,木蘭當戶織。不聞機杼聲,唯聞女嘆息。
這兩句話主要是對花木蘭日常狀態(tài)的平靜描寫,情緒相對平穩(wěn)。因此在音頻生成時,我沒有對輸出情緒做過多調整。但為了讓語音聽起來更自然,我在兩句話之間特意插入了 0.4 秒的停頓('<#0.4#>'),讓表達更有層次感。
與此同時,我還在右側的調試臺,單獨調整了音色效果。你看下方界面,有點像美顏軟件調整一張照片的曝光、鮮明度、亮度等細節(jié),我可以調整聲音效果,讓它更低沉,或者更有力量感。
下面是 MiniMax 語音生成的效果:
作為對比,我用 ElevenLabs 也做了一次測試。你一聽就能知道差距。
ElevenLabs 好像很多漢字不認識,遇到點生僻字時就亂了,比如第一句機杼聲的杼字,它就念錯了。而且它整體的表達狀態(tài)不像是純正的中文表達,中間總是隔了怪怪的一層,說不上來哪里不對勁。
現(xiàn)在來看,中文音頻的生成,還得是 MiniMax 語音這種更懂本土文化的產品做得更好。
我繼續(xù)演示下第二部分的音頻生成過程。第二部分的詩文內容是:問女何所思,問女何所憶。女亦無所思,女亦無所憶。昨夜見軍帖,可汗大點兵,軍書十二卷,卷卷有爺名。
這一段主要描述花木蘭看到征兵告示時的無奈。沒辦法,家里父親老了,木蘭又沒大哥......她在醞釀一個重要的人生決定。生成這部分內容的音頻時,我把輸出情緒調整為“難過”,并適當提升了音調。
同時,我還對音色效果進行了相應調整,讓聲音更好地傳達出花木蘭當時的心境。當然,這個心境也是我的個人解讀。
做這個音頻的過程,還挺有意思,依稀想起小學還是初中時,搖頭晃腦背誦詩文的場景。那時候哪能理解到花木蘭作為一個中年人的無奈和勇敢啊。
最終生成的音頻效果如下:
后續(xù)的各個部分制作過程大致相同,我就不一一介紹了。主要邏輯就是根據(jù)內容,調整音色效果、輸出情緒和停頓位置。該輕松的時候語氣要輕松,該凝重的時候要凝重。
MiniMax 語音在產品層面已經做了非常周全的封裝,沒什么上手難度,只要有耐心,做出一個 80 分的音頻其實不難。
第三步,把剛剛所有分段音頻合并,就能得到完整的音頻。
這次嘗試,我自己還是挺滿意的。像花木蘭這樣的經典故事,過去要一群人合作、花不少精力才能做出來,現(xiàn)在小團隊,甚至一個人,也能慢慢還原腦海里的那些畫面和情緒。
現(xiàn)在注冊 MiniMax 語音官方會贈送 1 萬積分。這些積分大約能生成 12 分鐘的音頻,做一整首《木蘭辭》完全沒問題,想嘗鮮的同學可以試試。
不過,大家肯定也關心,長期使用的話,他們的會員套餐劃不劃算。我橫向對比了一圈市面上的音頻產品,MiniMax 語音的套餐選擇絕對是最靈活,性價比最高的,沒有之一。
另外,MiniMax 語音的計費方式也很人性化,想用多少就買多少聲貝(積分),積分有效期還比月度員長得多。比如最低的 10 萬聲貝套餐,也就 20 塊,一頓外賣的錢,隨用隨充,非常方便。
反觀 ElevenLabs,得 11 美元,而且只有一個月有效期。性價比高下立判,連老外都說 MiniMax 更良心。
AI 工具進步得很快,很多原本以為麻煩的事情,現(xiàn)在已經簡單到只需要花點時間摸索就能搞定。
不少好點子,擱在以前都是想想就算了,現(xiàn)在真有機會試一試。也許你喜歡歷史,喜歡體育,喜歡地理,喜歡游戲,總之,你肯定有自己喜歡和擅長的事情,也許可以結合自己的特點,然后借助 AI 工具,創(chuàng)作一些好的內容。