成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘 精華

發布于 2024-5-9 09:47
瀏覽
0收藏

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

文章鏈接:https://arxiv.org/pdf/2405.04233
開源地址:https://www.shengshu-ai.com/vidu

Vidu是中國首個長視頻生成AI大模型,由清華大學與生數科技聯手發布,前段時間就已經發布了很多效果展示,非常驚艷,這次新掛出來的一篇解讀文章,對Vidu使用的技術進行了一個介紹,在這里和大家一起學習下。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

本文引入了 Vidu,一個高性能的文本到視頻生成器,能夠在單次生成中生成長達 16 秒的 1080p 視頻。Vidu 是一個擴散模型,其骨干是 U-ViT,這使其具備了處理長視頻的可擴展性和能力。Vidu 具有很強的連貫性和動態性,并且能夠生成逼真和富有想象力的視頻,以及理解一些專業攝影技術,與 Sora——最強大的報告過的文本到視頻生成器相當。最后,對其他可控視頻生成進行了初步實驗,包括邊緣檢測到視頻生成、視頻預測和主體驅動生成,展示了有希望的結果。

介紹

擴散模型在生成高質量圖像、視頻和其他類型的數據方面取得了突破性進展,超越了自回歸網絡等替代方法。以前,視頻生成模型主要依賴于具有 U-Net 骨干的擴散模型,并專注于像 4 秒這樣的單一有限時長。本文的模型,Vidu,證明了一個以 U-ViT 為骨干的文本到視頻擴散模型可以通過利用transformer的可擴展性和長序列建模能力打破這種持續時間限制。Vidu 能夠在單次生成中生成長達 16 秒的 1080p 視頻,以及單幀圖像作為視頻。

此外,Vidu 具有很強的連貫性和動態性,能夠生成逼真和富有想象力的視頻。Vidu 還初步理解了一些專業攝影技術,如過渡效果、攝像機移動、光影效果和情感表現。在某種程度上,Vidu 的生成性能與目前最強大的文本到視頻生成器 Sora 相當,遠遠優于其他文本到視頻生成器。最后,對其他可控視頻生成進行了初步實驗,包括邊緣檢測到視頻生成、視頻預測和主體驅動生成。所有這些都展示出了有希望的結果。

文本到視頻生成

Vidu 首先采用視頻自編碼器來減少視頻的空間和時間維度,以實現高效的訓練和推斷。在此之后,Vidu 使用 U-ViT 作為噪聲預測網絡來建模這些壓縮表示。具體來說,如下圖 1 所示,U-ViT 將壓縮視頻分割成 3D patch,將所有輸入(包括時間、文本條件和嘈雜的 3D patch)視為token,并在transformer的淺層和深層之間使用長跳越連接。通過利用變長序列處理的transformer的能力,Vidu 可以處理持續時間不同的視頻。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

Vidu 在大量的文本-視頻對上進行訓練,但是由人類標注所有視頻是不可行的。為了解決這個問題,首先訓練了一個針對理解視頻中動態信息進行優化的高性能視頻標題生成器,然后使用這個標題生成器自動標注所有的訓練視頻。在推斷過程中,應用了重新標題技術將用戶輸入重新表述為更適合模型的形式。

生成不同長度的視頻

由于 Vidu 是在各種長度的視頻上進行訓練的,因此它可以生成長達 16 秒的所有長度的 1080p 視頻,包括單幀圖像作為視頻。在下圖2中呈現了示例。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

3D一致性

Vidu 生成的視頻展現出強大的3D一致性。隨著攝像機的旋轉,視頻呈現出同一對象在不同角度的投影。例如,如下圖3所示,隨著攝像機的旋轉,生成的貓的頭發自然地被遮擋。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

生成切換

Vidu 能夠生成包含切換的視頻。如下圖4所示,這些視頻通過切換攝像機角度呈現同一場景的不同視角,同時保持場景中主題的一致性。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

生成過渡效果

Vidu 能夠在單次生成中生成帶有過渡效果的視頻。如下圖5所示,這些過渡效果可以以引人入勝的方式連接兩個不同的場景。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

攝像機運動

攝像機運動涉及在拍攝過程中對攝像機的物理調整或移動,增強了視覺敘事,傳達了場景內不同的視角和情感。Vidu 從數據中學習了這些技術,增強了觀眾的視覺體驗。例如,如圖6所示,Vidu 能夠生成包括變焦、平移和攝影機在內的攝像機運動的視頻。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

光影效果

Vidu 能夠生成帶有令人印象深刻的光影效果的視頻,這有助于增強整體氛圍。例如,如下圖7所示,生成的視頻可以喚起神秘和寧靜的氛圍。因此,除了視頻內容中的實體外,Vidu 還具有傳達一些抽象情感的初步能力。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

情感刻畫

Vidu 能夠有效地描繪角色的情感。例如,如下圖8所示,Vidu 能夠表達諸如快樂、孤獨、尷尬和喜悅等情感。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

想象力

除了生成現實世界的場景外,Vidu 還具有豐富的想象力。如下圖9所示,Vidu 能夠生成在現實世界中不存在的場景。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

與 Sora 的比較

Sora目前是最強大的文本到視頻生成器,能夠生成高清晰度的視頻,并具有很高的一致性。然而,由于 Sora 不是公開可訪問的,通過直接將 Sora 發布的示例提示插入到 Vidu 中來進行比較。下圖10和圖11描述了 Vidu 和 Sora 之間的比較,表明在某種程度上,Vidu 的生成性能與 Sora 相當。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

其他可控視頻生成

還在 512 分辨率上進行了其他可控視頻生成的幾個初步實驗,包括邊緣檢測到視頻生成、視頻預測和主體驅動生成。所有這些都展示了有希望的結果。

邊緣檢測到視頻生成

Vidu 可以通過使用類似于 ControlNet的技術來添加額外的控制,如下圖12所示。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

視頻預測

如下圖13所示,Vidu 可以根據輸入圖像或幾個輸入幀(用紅色框標記)生成后續幀。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

主體驅動生成

令人驚訝的是,我們發現 Vidu 可以通過僅在圖像而非視頻上進行微調來執行主體驅動的視頻生成。例如,我們使用 DreamBooth技術將學到的主題指定為特殊符號 <V> 進行微調。如下圖14所示,生成的視頻忠實地再現了學到的主題。

Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘-AI.x社區

結論

Vidu,一個高清文本到視頻生成器,展示了在各個方面的強大能力,包括生成的視頻的持續時間、連貫性和動態性,與 Sora 相當。在未來,Vidu 仍有改進的空間。例如,細節方面偶爾會出現缺陷,視頻中不同主體之間的交互有時偏離了物理規律。相信通過進一步擴展 Vidu,這些問題可以得到有效解決。


本文轉自 AI生成未來 ,作者:Fan Bao等


原文鏈接:??https://mp.weixin.qq.com/s/w7F2-0I3BYRW0n9hi1eHgg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 午夜性色a√在线视频观看9 | 久久久久久久一区 | 国产免费一区二区 | 欧美成人精品一区二区男人看 | 色婷婷综合久久久中字幕精品久久 | 国产1区 | www.亚洲国产精品 | 99热在这里只有精品 | 99精品欧美一区二区蜜桃免费 | h视频在线观看免费 | 亚洲一区二区三区在线免费观看 | 免费一级欧美在线观看视频 | 性色视频在线观看 | 野狼在线社区2017入口 | 五月激情婷婷在线 | 一级黄在线观看 | 欧美在线| 国产欧美一区二区三区另类精品 | 国产精品视频不卡 | 欧美成人在线免费 | 日韩在线免费播放 | 天天干天天爱天天 | 国产精品欧美日韩 | 91精品久久久久 | 国产在线一区二区三区 | 中文字幕成人 | gav成人免费播放视频 | 欧美中文字幕一区二区 | 国产精品伦一区二区三级视频 | 精品成人在线观看 | 亚洲中午字幕 | 国产精产国品一二三产区视频 | 亚洲性视频网站 | 国产精品久久精品 | 日日干夜夜干 | 亚洲欧美国产精品一区二区 | av网址在线 | 中国毛片免费 | 久久久久久国产精品 | 亚洲国产一区二区三区在线观看 | 国产精品久久在线观看 |