殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！

發(fā)布于 2024-6-18 13:28

瀏覽

0收藏

這幾天，大洋彼岸殺瘋了！

Luma 的熱乎勁兒還沒過去，昨晚 Runway 就甩出一個王炸 ——Gen-3 Alpha。（查看詳情請移步：???Runway 版 Sora 發(fā)布：高保真、超強(qiáng)一致性，Gen-3 Alpha 震撼到網(wǎng)友了??）

更沒想到的是，一覺醒來，Google DeepMind 也有了新消息，悄咪咪地發(fā)布了視頻生成語音（V2A）技術(shù)的進(jìn)展。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

雖然這一功能還未向公眾開放，不過從官方放出的視頻 Demo 來看，效果那是相當(dāng)絲滑。同時，Google DeepMind 強(qiáng)調(diào)，所有示例均由 V2A 技術(shù)和他們最先進(jìn)的生成視頻模型 Veo 聯(lián)手打造。

音頻提示: 緊張刺激的恐怖片配樂，腳步聲在混凝土上回響。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

黑燈瞎火的廢棄倉庫中，一個黑衣人猶如鬼魅般緩行，再配上詭異的音樂和腳步聲，恐怖氣氛拉滿。

音頻提示: 狼在月光下的長嚎。（Wolf howling at the moon）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

視頻 Demo 一出，評論區(qū)清一水的追問：啥時候能用？

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

還有網(wǎng)友寄希望于開源社區(qū)當(dāng)一回賽博菩薩，復(fù)制谷歌的這一視頻生成語音技術(shù)。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

其實(shí)，就在 Google DeepMind 官宣沒多久，AI 音頻領(lǐng)域的「扛把子」ElevenLabs 就橫插一腳，開源了一個上傳視頻自動配音的項目，可以為視頻生成合適的音效。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

鏈接：

??https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects??

如今 AI 圈子的競爭已呈白熱化階段，大小廠的你追我趕將會創(chuàng)造更加公平的競爭環(huán)境，而一旦這些技術(shù)成熟，AI 視頻領(lǐng)域?qū)袩o限可能。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

AI 視頻告別無聲電影

眾所周知，視頻生成模型正以驚人的速度發(fā)展。不過，無論是年初驚艷世人的 Sora，還是近期的可靈、Luma、Gen-3 Alpha，生成的全是「無聲電影」，無一例外。

而 Google DeepMind 的視頻生成音頻 (V2A) 技術(shù)，使得同步的視聽生成成為可能。它可以結(jié)合視頻像素和自然語言文本提示，為屏幕上的動作生成豐富的配音。

從技術(shù)應(yīng)用上來說，V2A 技術(shù)能夠與 Veo 等視頻生成模型結(jié)合，創(chuàng)造出具有戲劇性配樂、逼真音效或與視頻角色以及風(fēng)格相匹配的對話鏡頭。

它還能為檔案材料、無聲電影等傳統(tǒng)影像生成音軌，拓寬創(chuàng)作的可能。

音頻提示: 可愛的幼年恐龍在叢林中啁啾，伴隨著蛋殼的破裂聲。（Cute baby dinosaur chirps, jungle ambience, egg cracking）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

音頻提示: 汽車打滑聲、引擎轟鳴聲，伴隨著天使般的電子音樂。（cars skidding, car engine throttling, angelic electronic music）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

音頻提示: 日落時分，草原上響起悠揚(yáng)的口琴聲。（a slow mellow harmonica plays as the sun goes down on the prairie）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

V2A 技術(shù)能夠?yàn)槿魏我曨l輸入生成無限數(shù)量的音軌。用戶可以選擇定義「正向提示」來引導(dǎo)生成期望的聲音，或者「負(fù)向提示」來避免不期望的聲音。

這種靈活性讓用戶對音頻輸出有了更多的控制，可以快速嘗試不同的音頻輸出，并選擇最佳匹配。

音頻提示：一艘宇宙飛船在浩瀚的太空中疾馳，星星在它周圍劃過，高速飛行，充滿科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

音頻提示：天籟般的大提琴氛圍（Ethereal cello atmosphere）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

音頻提示：一艘宇宙飛船在廣袤的太空中高速穿梭，星星在它周圍飛速掠過，具有科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

背后的工作原理

研究團(tuán)隊嘗試了自回歸和擴(kuò)散方法，以發(fā)現(xiàn)最可擴(kuò)展的 AI 架構(gòu)。擴(kuò)散方法在音頻生成上給出了最真實(shí)和引人入勝的結(jié)果，用于同步視頻和音頻信息。

V2A 系統(tǒng)首先將視頻輸入編碼成壓縮表示，然后擴(kuò)散模型從隨機(jī)噪聲中迭代細(xì)化音頻。這個過程由視覺輸入和給定的自然語言提示指導(dǎo)，生成與提示緊密對齊的同步、逼真音頻。最終，音頻輸出被解碼成音頻波形，并與視頻數(shù)據(jù)結(jié)合。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

為了生成更高質(zhì)量的音頻并引導(dǎo)模型生成特定聲音，研究團(tuán)隊在訓(xùn)練過程中添加了更多信息，包括 AI 生成的注釋，詳細(xì)描述聲音和對話文本。

通過在視頻、音頻和額外注釋上的訓(xùn)練，該技術(shù)學(xué)會將特定的音頻事件與各種視覺場景關(guān)聯(lián)起來，同時響應(yīng)注釋或文本中提供的信息。

谷歌方面強(qiáng)調(diào)，他們的技術(shù)與現(xiàn)有的視頻到音頻解決方案都不同，因?yàn)樗梢岳斫庠枷袼兀⑶姨砑游谋咎崾臼强蛇x的。此外，該系統(tǒng)不需要手動對生成的聲音與視頻進(jìn)行對齊，極大地簡化了創(chuàng)作流程。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

不過，谷歌的這一技術(shù)也并非完美，他們?nèi)栽谂鉀Q一些 bug。例如，視頻輸入的質(zhì)量直接影響音頻輸出的質(zhì)量，視頻中的偽影或失真可能導(dǎo)致音頻質(zhì)量下降。

同時，他們也在優(yōu)化唇形同步功能。

V2A 技術(shù)嘗試從輸入文本中生成語音，并將其與角色的口型動作進(jìn)行同步，但若視頻模型未針對文本內(nèi)容進(jìn)行相應(yīng)的調(diào)整，就可能導(dǎo)致口型與語音不同步。他們正改進(jìn)這一技術(shù)，以提升唇形同步的自然度。

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！-AI.x社區(qū)

音頻提示：音樂，文本轉(zhuǎn)錄「這只火雞看起來好極了，我好餓。」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）

或許是由于深度偽造技術(shù)帶來諸多社會問題，Google DeepMind 求生欲滿滿，一個勁承諾將負(fù)責(zé)任開發(fā)和部署 AI 技術(shù)，在向公眾開放之前，V2A 技術(shù)將經(jīng)過嚴(yán)格的安全評估和測試。

此外，他們還整合了 SynthID 工具包到 V2A 研究中，為所有 AI 生成的內(nèi)容添加水印，以防止技術(shù)的濫用。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/0D4QGeyZ0ZnmmWYz_x-56g??

標(biāo)簽

技術(shù)

贊

回復(fù)

舉報

回復(fù)

相關(guān)推薦

谷歌推出多模態(tài)視頻模型，自動生成豐富動作視頻

Aceryt ? 3580瀏覽 ? 0回復(fù)
TAVGBench: 文本生成語音-視頻最新基準(zhǔn)

angel ? 3573瀏覽 ? 0回復(fù)
2D頭像生成3D虛擬人開視頻會，谷歌新作讓人難繃

輕薄滴假象 ? 2497瀏覽 ? 0回復(fù)
AI 視頻戰(zhàn)火：從 Sora 到快手可靈和 Luma 的新時代

wsp_ping ? 3895瀏覽 ? 0回復(fù)
谷歌推出V2A，可為視頻大模型自動匹配語音

Aceryt ? 4097瀏覽 ? 0回復(fù)
無需定制視頻數(shù)據(jù)，DeepMind讓文生定制視頻變得簡單！

angel ? 2764瀏覽 ? 0回復(fù)
殺瘋了！Meta開源SAM-2：可商用，隨意分割視頻、圖像

Aceryt ? 4346瀏覽 ? 0回復(fù)
阿里「軌跡可控版Sora」，告別「抽卡」，讓視頻生成更符合物理規(guī)律

輕薄滴假象 ? 3180瀏覽 ? 0回復(fù)
無需定制視頻數(shù)據(jù)，DeepMind讓文生定制視頻變得簡單！

angel ? 2454瀏覽 ? 0回復(fù)
Open LLM集中爆發(fā)的一周，卷瘋了！

PaperAgent ? 2566瀏覽 ? 0回復(fù)
卷瘋了！開源社區(qū)離Openai o1越來越近~

NLP前沿1 ? 2688瀏覽 ? 0回復(fù)
ChatGPT搜索殺瘋了，商業(yè)模式很簡單：無廣告！奧特曼談AI搜索：并非挑戰(zhàn)谷歌，搜索引擎這個概念很無聊！

51CTO技術(shù)棧 ? 2313瀏覽 ? 0回復(fù)
讓創(chuàng)意起飛！用戶可控的電影級圖像到視頻生成方法！港中文&Adobe發(fā)布MotionCanvas

angel ? 2494瀏覽 ? 0回復(fù)
告別800秒魔咒！硬件級STA革新視頻DiT注意力，讓HunyuanVideo效率提升3.5倍!

angel ? 2192瀏覽 ? 0回復(fù)
殺瘋了！DeepSeek開源第3彈：DeepGEMM炸場，算力焦慮終結(jié)者？

智駐未來 ? 2272瀏覽 ? 0回復(fù)
告別無效搜索！手把手教你用AI工具精準(zhǔn)獲取信息

AI博物院 ? 2115瀏覽 ? 0回復(fù)
TeapotLLM，讓AI告別“胡言亂語”

Halo咯咯 ? 1708瀏覽 ? 0回復(fù)
谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1638瀏覽 ? 0回復(fù)
讓數(shù)字人視頻告別"恐怖谷"！字節(jié)團(tuán)隊最新DreamActor-M1實(shí)現(xiàn)人類表情動作像素級操控

angel ? 1540瀏覽 ? 0回復(fù)

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學(xué)堂

殺瘋了！谷歌卷視頻到語音，逼真音效讓AI視頻告別無聲！

目錄