成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真” 精華

發布于 2024-4-19 10:06
瀏覽
0收藏

AI偽造真人視頻,門檻再次降低。


微軟發布一張圖生成數字人技術VASA-1,網友看過直呼“炸裂級效果”,比“AI劉強東還真”。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

做到以假亂真效果,不用針對特定人物訓練,只要上傳一張人臉圖片、一段音頻,哪怕不是真人也行


比如可以讓蒙娜麗莎唱Rap,模仿安妮海瑟薇即興吐槽狗仔隊名場面。


或者讓素描人像念華強臺詞。


在項目主頁還有更多1分鐘視頻,以及更更多15秒視頻可看。


不同性別、年齡、種族的數字人,用著不同的口音在說話。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

根據團隊在論文中的描述,VASA-1擁有如下特點:

  • 唇形與語音的精準同步

這是最基本的,VASA-1在定量評估中也做到了頂尖水平。

  • 豐富而自然的面部表情

不光做到讓照片“開口說話”,眉毛、眼神、微表情等也跟著協調運動,避免顯得呆板。

  • 人性化的頭部動作

說話時適當的點頭、搖頭、歪頭等動作,能讓人物看起來更加鮮活、更有說服力。

總得來說,仔細看的話眼睛還有一些破綻,但已經被網友評為“迄今為止最佳演示”

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

然而更恐怖的是,整個系統推理速度還是實時級的。


生成512x512分辨率的視頻,使用一塊英偉達RTX4090顯卡就能跑到40fps。

那么,VASA-1是如何做到這些的呢?

3大關鍵技術,Sora同款思路

一句話概括:

不是直接生成視頻幀,而是在潛空間中生成動作編碼,再還原成視頻。

?

是不是和Sora的思路很像了?


其實VASA-1的模型架構選擇Diffusion Transformer,也與Sora核心組件一致。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

據論文描述,背后還有3大關鍵技術:

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

人臉潛編碼學習,這部分是高度解耦的。


團隊從大量個真實的說話視頻中,學習到一個理想的人臉特征空間。


把身份、外觀、表情、姿態等因素在隱空間里剝離開。這樣一來,同一個動作就能驅動不同的臉,換成誰都很自然。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

頭部運動生成模型,這部分又是高度統一的。


不同于之前的方法分別建模嘴唇、眼神、眉毛、頭部姿態等局部動作,VASA-1把所有面部動態統一編碼,用Diffution Transfromer模型,也就是SORA同款核心組件,來建模其概率分布。


這樣既能生成更協調自然的整體動作,又能借助transformer強大的時序建模能力,學習長時依賴。


比如給定一組原始序列(下圖第一列),最終可以做到:

  • 用原始頭部姿態,改變面部表情(第二列)
  • 用原始面部表情,改變頭部姿態(第三列)
  • 用原始面部表情,生成全新的頭部姿態(第四列)

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

最后是高效率推理


為了實現秒實時合成,團隊對擴散模型的推理過程進行了大量優化。


此外,VASA-1還允許用戶輸入一些可選的控制信號,比如人物的視線方向、情緒基調等,進一步提升了可控性。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

AI造假成本越來越低了

被VASA-1效果震驚過后,很多人開始思考,把AI數字人做到如此逼真,發布這樣一個技術真的合適嗎?

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

畢竟用AI偽造音頻視頻詐騙的例子,我們已經見過太多。


就在2個多月前,還有一起假冒公司CFO開視頻會議,直接騙走1.8個億的案件發生。

微軟團隊也意識到了這一問題,并作出如下聲明:


我們的研究重點是為數字人生成視覺情感,旨在實現積極的應用。無意創建用于誤導或欺騙的內容。


然而,與其他相關內容生成技術一樣,它仍然可能被濫用于模仿人類。


我們反對任何創造真實人物的誤導性或有害內容的行為,并且有興趣應用我們的技術來推進偽造檢測……


目前VASA-1只發布了論文,看來短時間內也不會發布Demo或開源代碼了。


微軟表示,該方法生成的視頻仍然包含可識別的痕跡,數值分析表明,距離真實視頻的真實性仍有差距。


不上專業評估手段,肉眼看的話,仔細挑刺或直接對比真人視頻,確實也能發現目前VASA-1演示視頻中的一些瑕疵。


比如牙齒偶爾會變形。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

以及眼神還不像真人那么豐富。(眼睛確實是心靈的窗戶啊)

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

但是以“AIGC一天,人間一年”的進步速度來看,修復這些瑕疵恐怕也不用很久。

以及你能保證每時每刻都保持警惕分辨視頻真假么?


眼見不再為實。默認不相信任何視頻,成了很多人今天做出的選擇。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

不管怎么樣,正如一位網友總結。

我們無法撤銷已經完成的發明,只能擁抱未來。

微軟炸裂級單圖生數字人,Sora同款思路,“比AI劉強東還真”-AI.x社區

論文地址:https://arxiv.org/abs/2404.10667


本文轉自 量子位,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/WI20-hzn0tJOPo9_vKtTuQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品电影网在线观看 | 亚洲成人午夜电影 | 欧美日产国产成人免费图片 | 国产精品久久国产精品久久 | 亚洲成a人片| 成人午夜免费福利视频 | 国产精品久久国产精品99 gif | 成人国产精品久久 | 亚洲美女一区 | 欧美成人精品一区二区三区 | 一级黄色日本片 | 久草99 | 国产欧美日韩一区 | 国产成人精品一区二区三区网站观看 | 日韩成人av在线 | 午夜激情一区 | 久久精品一级 | 中文字幕三区 | 国产一区免费视频 | 欧美中文字幕一区二区 | 99国产精品99久久久久久粉嫩 | 九九导航 | 久久99国产精品 | 欧美涩| av日韩在线播放 | 极品销魂美女一区二区 | 91视频一区 | 精品视频一区二区三区在线观看 | 夜夜夜夜夜夜曰天天天 | 欧美久 | 成人无遮挡毛片免费看 | 九九亚洲 | 一区日韩 | 操久久 | 久久久这里只有17精品 | 日韩一级免费大片 | 日本精品视频在线观看 | 欧美一级黄带 | 99成人精品 | 黄色a三级 | 一区二区三区久久久 |