AI視頻又炸了！照片+聲音變視頻，阿里讓Sora女主唱歌小李子說RAP

2024-02-29 13:02:59

人工智能

在定量比較上也比之前的方法有較大提升取得SOTA，只在衡量口型同步質量的SyncNet指標上稍遜一籌。

Sora之后，居然還有新的AI視頻模型，能驚艷得大家狂轉狂贊！

圖片

有了它，《狂飆》大反派高啟強化身羅翔，都能給大伙兒普法啦（狗頭）。

這就是阿里最新推出的基于音頻驅動的肖像視頻生成框架，EMO（Emote Portrait Alive）。

有了它，輸入單張參考圖像，以及一段音頻（說話、唱歌、RAP均可），就能生成表情生動的AI視頻。視頻最終長度，取決于輸入音頻的長度。

你可以讓蒙娜麗莎——這位AI屆效果體驗的老選手，朗誦一段獨白：

年輕俊美的小李子來段快節奏的RAP才藝秀，嘴形跟上完全沒問題：

甚至粵語口型也能hold住，這就讓哥哥張國榮來首陳奕迅的《無條件》：

總之，不管是讓肖像唱歌（不同風格的肖像和歌曲）、讓肖像開口說話（不同語種）、還是各種“張冠李戴”的跨演員表演，EMO的效果，都讓咱看得一愣一愣的。

網友大感嘆：“我們正在走進一個新的現實！”

2019版《小丑》說2008版《蝙蝠俠黑暗騎士》的臺詞

甚至已經有網友開始對EMO生成視頻開始了拉片，逐幀分析效果究竟怎么樣。

如下面這段視頻，主角是Sora生成的AI女士，本次為大家演唱的曲目是《Don’t Start Now》。

推友分析道：

這段視頻的一致性，比以往更上一層樓了！
一分多鐘的視頻里，Sora女士臉上的墨鏡幾乎沒有亂動，耳朵、眉毛都有獨立的運動。
最精彩的是Sora女士的喉嚨好像真的有呼吸哎！她唱歌的過程中身體還有微顫和移動，我直接大震驚！

圖片

話說回來，EMO是熱門新技術嘛，免不了拿來與同類對比——

就在昨天，AI視頻生成公司Pika也推出了為視頻人物配音，同時“對口型”的唇形同步功能，撞車了。

具體效果怎么樣呢，我們直接擺在這兒

評論區網友對比過后得出的結論是，被阿里吊打了。

圖片

EMO公布論文，同時宣布開源。

但是！雖說開源，GitHub上仍然是空倉。

再但是！雖然是空倉，標星數已經超過了2.1k。

圖片

惹得網友們真的是好著急，有吉吉國王那么急。

與Sora不同架構

EMO論文一出，圈內不少人松了口氣。

它與Sora技術路線不同，說明復刻Sora不是唯一的路。

EMO并不是建立在類似DiT架構的基礎上，也就是沒有用Transformer去替代傳統UNet，其骨干網絡魔改自Stable Diffusion 1.5。

具體來說，EMO是一種富有表現力的音頻驅動的肖像視頻生成框架，可以根據輸入視頻的長度生成任何持續時間的視頻。

圖片

該框架主要由兩個階段構成：

幀編碼階段

部署一個稱為ReferenceNet的UNet網絡，負責從參考圖像和視頻的幀中提取特征。

擴散階段

首先，預訓練的音頻編碼器處理音頻嵌入，人臉區域掩模與多幀噪聲相結合來控制人臉圖像的生成。

隨后是骨干網絡主導去噪操作。在骨干網絡中應用了兩種注意力，參考注意力和音頻注意力，分別作用于保持角色的身份一致性和調節角色的運動。

此外，時間模塊被用來操縱的時間維度，并調整運動的速度。

在訓練數據方面，團隊構建了一個包含超過250小時視頻和超過1500萬張圖像的龐大且多樣化的音視頻數據集。

最終實現的具體特性如下：

可以根據輸入音頻生成任意持續時間的視頻，同時保證角色身份一致性（演示中給出的最長單個視頻為1分49秒）。
支持各種語言的交談與唱歌（演示中包括普通話、廣東話、英語、日語、韓語）
支持不同畫風（照片、傳統繪畫、漫畫、3D渲染、AI數字人）

圖片

在定量比較上也比之前的方法有較大提升取得SOTA，只在衡量口型同步質量的SyncNet指標上稍遜一籌。

圖片

與其他不依賴擴散模型的方法相比，EMO更耗時。

并且由于沒有使用任何顯式的控制信號，可能導致無意中生成手等其他身體部位，一個潛在解決方案是采用專門用于身體部位的控制信號。

EMO的團隊

最后，來看看EMO背后的團隊有那些人。

論文顯示，EMO團隊來自阿里巴巴智能計算研究院。

作者共四位，分別是Linrui Tian，Qi Wang，Bang Zhang和Liefeng Bo。

圖片

其中，薄列峰（Liefeng Bo），是目前的阿里巴巴通義實驗室XR實驗室負責人。

薄列鋒博士畢業于西安電子科技大學，先后在芝加哥大學豐田研究院和華盛頓大學從事博士后研究，研究方向主要是ML、CV和機器人。其谷歌學術被引數超過13000。

在加入阿里前，他先是在亞馬遜西雅圖總部任首席科學家，后又加入京東數字科技集團AI實驗室任首席科學家。

2022年9月，薄列峰加入阿里。

圖片

EMO已經不是第一次阿里在AIGC領域出圈的成果了。

圖片

有AI一鍵換裝的OutfitAnyone。

圖片

還有讓全世界小貓小狗都在跳洗澡舞的AnimateAnyone。

就是下面這個：

圖片

如今推出EMO，不少網友在感嘆，阿里是有些技術積累在身上的。

圖片

如果現在把所有這些技術結合起來，那效果……

不敢想，但好期待。

圖片

總之，我們離“發給AI一個劇本，輸出整部電影”越來越近了。

圖片

One More Thing

Sora，代表文本驅動的視頻合成的斷崖式突破。

EMO，也代表音頻驅動的視頻合成一個新高度。

兩者盡管任務不同、具體架構不同，但還有一個重要的共性：

中間都沒有加入顯式的物理模型，卻都在一定程度上模擬了物理規律。

因此有人認為，這與Lecun堅持的“通過生成像素來為動作建模世界是浪費且注定要失敗的”觀點相悖，更支持了Jim Fan的“數據驅動的世界模型”思想。

圖片

過去種種方法失敗了，而現在的成功，可能真就來自還是強化學習之父Sutton的《苦澀的教訓》，大力出奇跡。

讓AI能夠像人們一樣去發現，而不是包含人們發現的內容
突破性的進展最終通過擴大計算規模來實現

論文：https://arxiv.org/pdf/2402.17485.pdfGitHub:https://github.com/HumanAIGC/EMO

參考鏈接：
[1]https://x.com/swyx/status/1762957305401004061

責任編輯：武曉燕來源：量子位

AI 照片聲音

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI視頻又炸了！照片+聲音變視頻，阿里讓Sora女主唱歌小李子說RAP

與Sora不同架構

EMO的團隊

One More Thing