成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌推出V2A,可為視頻大模型自動匹配語音

發布于 2024-6-20 12:24
瀏覽
0收藏

谷歌Deepmind在官網推出了視頻轉音頻模型V2A。


用戶可以用視頻+文本提示的方式,通過V2A為視頻模型自動匹配語音。例如,為緊張、恐怖、驚悚的片段自動匹配語音,可以進一步節省制作時間和提高效率。同時可以與谷歌的視頻模型Veo相結合使用。

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

目前,Sora、可靈、Gen-3、Dream Machine等知名模型生成的視頻沒有任何聲音,用戶如果想使用這些視頻還需要二次加工配音。


但在嘴型、音軌匹配方面就比較麻煩,而V2A可以生成無限數量的音軌,用戶可以根據實際需求來選擇最貼近的內容。


例如,為一個騎馬的牛仔視頻配上音樂,提示詞,草原上夕陽西下時,悠揚柔和的口琴聲響起。

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

水下游動的水母、海洋生物、海洋

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

電影、驚悚片、恐怖片、音樂、緊張、氛圍、混凝土上的腳步聲

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

音樂會舞臺上的鼓手,周圍是閃爍的燈光和歡呼的人群。

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

一只狼對著月亮嚎叫

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

下面這個視頻短片的人物嘴型,就通過AI語音進行了精準匹配。

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

模型架構方面,V2A首先將視頻和音頻提示輸入編碼,生成初始的壓縮表示。然后,通過迭代的方式,擴散模型不斷優化音頻,從而使其與視覺信息和文本提示同步。


這一步驟確保生成的音頻不僅具有高逼真度,還能準確反映視頻中的場景和動作。最后,生成的音頻被解碼,轉換為音頻波形,并與視頻數據結合。


為了提高音頻質量并增加對特定聲音生成的控制,V2A技術在訓練過程中加入了多種訓練數據,包括AI生成的詳細音頻描述和對話的轉錄。


通過這些額外的注釋,V2A系統能夠學習將特定的音頻事件與各種視覺場景關聯起來,并根據提供的注釋或轉錄做出響應。


使得V2A技術在處理視頻像素和生成音頻時,不需要手動調整生成的聲音與視頻的對齊,從而避免了繁瑣的聲音、視覺和時間元素的調整,為生成逼真的音效奠定了堅實的基礎。

谷歌推出V2A,可為視頻大模型自動匹配語音-AI.x社區

此外,V2A在改進頻中語音的口型同步方面進行了大量優化,會從視頻輸入和文字轉錄中抽取信息,生成初步的音頻表示并通過擴散模型不斷細化。


為了進一步提升口型同步的準確性,V2A在訓練過程中加入了更多的信息,包括AI生成的詳細音頻描述和對話轉錄。可幫助V2A能夠學習將特定的音頻事件與各種視覺場景關聯起來,并根據提供的注釋或轉錄做出響應。這不僅改善了語音與口型的同步,還提高了整體音頻生成的質量。


本文轉自  AIGC開放社區 ,作者: AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/lJUYmXO9QkUcZhIljyK_1A??

標簽
已于2024-6-20 12:27:27修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 狠狠综合久久av一区二区小说 | 成人午夜影院 | 久久久久久久久久久久91 | 亚洲每日更新 | 午夜一级做a爰片久久毛片 精品综合 | 国产精品久久久久久久久久三级 | 中文字幕一区二区三区乱码在线 | 亚洲视频观看 | 成人九区| 国产一区二区在线免费观看 | 人人看人人爽 | 欧美视频二区 | 日韩精品在线一区 | 国产欧美一区二区久久性色99 | 99热这里只有精品8 激情毛片 | 四虎在线观看 | 国产在线中文字幕 | 国产午夜精品视频 | 男女又爽又黄视频 | 日韩午夜激情 | 亚洲天堂成人在线视频 | 国产精品夜夜春夜夜爽久久电影 | 亚洲一区二区视频 | 日本精品一区二区三区视频 | 色婷婷综合久久久中字幕精品久久 | 成人免费区一区二区三区 | 美国黄色一级片 | 少妇精品亚洲一区二区成人 | 在线亚洲欧美 | 99久久婷婷国产综合精品 | 国产婷婷精品 | 韩日在线视频 | 黄色亚洲 | 视频在线观看一区 | 99精品视频免费观看 | 四虎永久免费影院 | 国产视频中文字幕 | 久久久久久久久久久久久9999 | 国产wwwcom | 三级视频在线观看电影 | www.精品国产 |