成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

真·降維打擊,Sora與Runway、Pika的對比來了,震撼效果背后是物理引擎模擬現實世界

人工智能 新聞
以后的視頻生成領域,恐怕真的只有 OpenAI 的 Sora 和其他模型了。

昨天,OpenAI 發布的首個文本生成視頻模型 Sora 引爆了社區,其生成的長達 1 分鐘的高清、流暢視頻令人們驚嘆不已,直呼「好萊塢的時代結束了」。

僅僅一年時間,文本生成視頻的效果迎來了質的飛躍。

當然,隨著 Sora 加入這場視頻生成領域的戰爭,受到沖擊最大的是同類競品模型,比如 Runway、Pika、SDV、谷歌和 Meta。

看到 Sora 的生成效果之后,很多人認為,Sora 對這些「前輩」來了一波降維打擊。事實真的如此嗎?有推特博主已經做了對比。

圖片

這位博主給 Sora、Pika、Runway、Stable Video 四個模型輸入了相同的 prompt:

美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過熙熙攘攘的城市街道,跟隨幾個人享受美麗的雪天,在附近的攤位購物,絢麗的櫻花花瓣隨著雪花隨風飄揚。

可以看到,相比于其他三個視頻生成模型,Sora 在生成時長、連貫性等方面都有顯著的優勢。

圖片

圖源:https://twitter.com/gabor/status/1758282791547232482

這樣的對比還有很多,比如輸入相同的 prompt「一窩金毛幼犬在雪地里玩耍,它們的頭從雪中探出來,被雪覆蓋。」

圖片

圖源:https://twitter.com/DailyUpdatesNet/status/1758646902751670355

再比如輸入相同的 prompt「幾只巨大的毛茸茸的猛犸象踏著白雪皚皚的草地走來,長長的毛毛在風中輕輕飄動,遠處覆蓋著積雪的樹木和雄偉的雪山,午后的陽光、縷縷云彩和遠處高高的太陽營造出溫暖的光芒,低相機視野令人驚嘆地捕捉到了大型毛茸茸的哺乳動物與美麗的攝影,景深。」

雖然 Runway 和 Pika 表現都不錯,但 Sora 的生成質量具有壓倒性的優勢。

圖片

圖源:https://twitter.com/keitowebai/status/1758384152670577136

還有人對比了 Pika 1.0(去年四月)與 Sora,感嘆不到 1 年的時間,AI 生成視頻已經發生了翻天覆地的變化。

原視頻:https://twitter.com/QuintinAu/status/1758536835595124910

與此同時,更多創作者也曬出了他們使用 Sora 生成的視頻,進一步驗證了 Sora 的超強視頻生成能力。

比如輸入 prompt「一座巨大的大教堂里全是貓。放眼望去,到處都是貓。一個男人走進大教堂,向坐在王座上的巨型貓王鞠躬。」

圖源:https://twitter.com/billpeeb/status/1758650919430848991

比如輸入 prompt「一座幽靈般的鬼屋,有友好的杰克燈籠和鬼魂人物,歡迎搗蛋鬼來到入口,傾斜移位攝影。」

圖片

圖源:https://twitter.com/billpeeb/status/1758658884582142310

比如輸入 prompt「一個由水制成的人行走著,參觀了一個美術館,里面有許多不同風格的美麗藝術品。」

圖片

圖源:https://twitter.com/_tim_brooks/status/1758666264032280683

比如輸入 prompt「人們在海灘放松的真實視頻,一條鯊魚從水中冒了出來,讓所有人大吃一驚。」

圖片

圖源:https://twitter.com/_tim_brooks/status/1758655323576164830

在 Sora 震撼效果的背后,OpenAI 也于昨日公布了詳細的技術報告。

圖片

技術報告地址 https://openai.com/research/video-generation-models-as-world-simulators

Sora 背后的技術

OpenAI 在技術報告中重點展示了:(1)將所有類型的視覺數據轉化為統一表示,從而能夠大規模訓練生成模型的方法;以及(2)對 Sora 的能力和局限性進行定性評估。

令人遺憾的是,OpenAI 的報告不包含模型和訓練的細節。

最近一段時間,視頻生成是 AI 領域的重要方向,先前的許多工作研究了視頻數據的生成建模方向,包括循環網絡、生成對抗網絡、自回歸 transformer 和擴散模型。這些工作通常關注一小類視覺數據、較短的視頻或固定大小的視頻。

與之不同的是,OpenAI 的 Sora 是視覺數據的通用模型,它可以生成不同時長、長寬比和分辨率的視頻和圖像,而且最多可以輸出長達一分鐘的高清視頻。

視覺數據轉為 Patches

大型語言模型通過在互聯網規模的數據上進行訓練,獲得了出色的通用能力中,OpenAI 從這一點汲取了靈感。LLM 得以確立新范式,部分得益于創新了 token 使用的方法。研究人員們巧妙地將文本的多種模態 —— 代碼、數學和各種自然語言統一了起來。

在這項工作中,OpenAI 考慮了生成視覺數據的模型如何繼承這種方法的好處。大型語言模型有文本 token,而 Sora 有視覺 patches。此前的研究已經證明 patches 是視覺數據模型的有效表示。OpenAI 發現 patches 是訓練生成各種類型視頻和圖像的模型的可擴展且有效的表示。

圖片


在更高層面上,OpenAI 首先將視頻壓縮到較低維的潛在空間,然后將表示分解為時空 patches,從而將視頻轉換為 patches。

視頻壓縮網絡

OpenAI 訓練了一個降低視覺數據維度的網絡。該網絡將原始視頻作為輸入,并輸出在時間和空間上壓縮的潛在表示。Sora 在這個壓縮的潛在空間中接受訓練,而后生成視頻。OpenAI 還訓練了相應的解碼器模型,將生成的潛在表示映射回像素空間。

時空潛在 patches

給定一個壓縮的輸入視頻,OpenAI 提取一系列時空 patches,充當 Transformer 的 tokens。該方案也適用于圖像,因為圖像可視為單幀視頻。OpenAI 基于 patches 的表示使 Sora 能夠對不同分辨率、持續時間和長寬比的視頻和圖像進行訓練。在推理時,OpenAI 可以通過在適當大小的網格中排列隨機初始化的 patches 來控制生成視頻的大小。

用于視頻生成的縮放 Transformer

Sora 是個擴散模型;給定輸入噪聲 patches(以及文本提示等調節信息),訓練出的模型來預測原始的「干凈」patches。重要的是,Sora 是一個擴散 Transformer。Transformer 在各個領域都表現出了卓越的縮放特性,包括語言建模、計算機視覺、和圖像生成。

圖片

在這項工作中,OpenAI 發現擴散 Transformers 也可以有效地縮放為視頻模型。下面,OpenAI 展示了訓練過程中具有固定種子和輸入的視頻樣本的比較。隨著訓練計算的增加,樣本質量顯著提高。

圖片

可變的持續時間,分辨率,寬高比

過去的圖像和視頻生成方法通常需要調整大小、進行裁剪或者是將視頻剪切到標準尺寸,例如 4 秒的視頻分辨率為 256x256。相反,該研究發現在原始大小的數據上進行訓練,可以提供以下好處:

首先是采樣的靈活性:Sora 可以采樣寬屏視頻 1920x1080p,垂直視頻 1920x1080p 以及兩者之間的視頻。這使 Sora 可以直接以其天然縱橫比為不同設備創建內容。Sora 還允許在生成全分辨率的內容之前,以較小的尺寸快速創建內容原型 —— 所有內容都使用相同的模型。

圖片

其次是改進幀和內容組成:研究者通過實證發現,使用視頻的原始長寬比進行訓練可以提升內容組成和幀的質量。將 Sora 在與其他模型的比較中,后者將所有訓練視頻裁剪成正方形,這是訓練生成模型時的常見做法。經過正方形裁剪訓練的模型(左側)生成的視頻,其中的視頻主題只是部分可見。相比之下,Sora 生成的視頻(右側)具有改進的幀內容。

圖片

語言理解

訓練文本到視頻生成系統需要大量帶有相應文本字幕的視頻。研究團隊將 DALL?E 3 中的重字幕(re-captioning)技術應用于視頻。

具體來說,研究團隊首先訓練一個高度描述性的字幕生成器模型,然后使用它為訓練集中所有視頻生成文本字幕。研究團隊發現,對高度描述性視頻字幕進行訓練可以提高文本保真度以及視頻的整體質量。

與 DALL?E 3 類似,研究團隊還利用 GPT 將簡短的用戶 prompt 轉換為較長的詳細字幕,然后發送到視頻模型。這使得 Sora 能夠生成準確遵循用戶 prompt 的高質量視頻。

以圖像和視頻作為提示

我們已經看到了文本到視頻的諸多生成示例。實際上,Sora 還可以使用其他輸入,如已有的圖像或視頻。這使 Sora 能夠執行各種圖像和視頻編輯任務 — 創建完美的循環視頻、靜態圖像動畫、向前或向后延長視頻時間等。

為 DALL-E 圖像制作動畫

只要輸入圖像和提示,Sora 就能生成視頻。下面展示了根據 DALL-E 2 和 DALL-E 3 圖像生成的視頻示例:

圖片

狗戴著貝雷帽、穿著黑色高領毛衣

圖片

帶有 Sora 的云圖像

視頻內容拓展

Sora 還能夠在開頭或結尾擴展視頻內容。以下是 Sora 從一段生成的視頻向后拓展出的三個新視頻。新視頻的開頭各不相同,擁有相同的結尾。

不妨使用這種方法無限延長視頻的內容,實現「視頻制作永動機」。

圖片

視頻到視頻編輯

擴散模型激發了多種根據文本 prompt 編輯圖像和視頻的方法。OpenAI 的研究團隊將其中一種方法 ——SDEdit 應用于 Sora,使得 Sora 能夠在零樣本(zero-shot)條件下改變輸入視頻的風格和環境。

輸入視頻如下:

圖片

輸出結果:

圖片

連接視頻

我們還可以使用 Sora 在兩個輸入視頻之間逐漸進行轉場,從而在具有完全不同主題和場景構成的視頻之間創建無縫過渡。

圖片

圖片

圖像生成能力

Sora 還能生成圖像。為此,OpenAI 將高斯噪聲 patch 排列在空間網格中,時間范圍為一幀。該模型可生成不同大小的圖像,最高分辨率可達 2048x2048。

圖片

涌現模擬能力

OpenAI 發現,視頻模型在經過大規模訓練后,會表現出許多有趣的新能力。這些能力使 Sora 能夠模擬物理世界中的人、動物和環境的某些方面。這些特性的出現沒有任何明確的三維、物體等歸納偏差 — 它們純粹是規模現象。

三維一致性。Sora 可以生成動態攝像機運動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間中的移動是一致的。

圖片

長序列連貫性和目標持久性。視頻生成系統面臨的一個重大挑戰是在對長視頻進行采樣時保持時間一致性。OpenAI 發現,雖然 Sora 并不總是能有效地模擬短距離和長距離的依賴關系,但它在很多時候仍然能做到這一點。例如,即使人、動物和物體被遮擋或離開畫面,Sora 模型也能保持它們的存在。同樣,它還能在單個樣本中生成同一角色的多個鏡頭,并在整個視頻中保持其外觀。

與世界互動。Sora 有時可以模擬以簡單方式影響世界狀態的動作。例如,畫家可以在畫布上留下新的筆觸,這些筆觸會隨著時間的推移而持續,或者一個人可以吃漢堡并留下咬痕。

圖片

模擬數字世界。Sora 還能模擬人工進程,視頻游戲就是一個例子。Sora 可以通過基本策略同時控制 Minecraft 中的玩家,同時高保真地呈現世界及其動態。只需在 Sora 的提示字幕中提及 「Minecraft」,就能零樣本激發這些功能。

圖片

這些功能表明,視頻模型的持續擴展是開發物理和數字世界以及其中的物體、動物和人的高能力模擬器的一條大有可為的道路。

局限性討論

作為一款模擬器,Sora 目前還存在許多局限性。例如,它不能準確模擬許多基本交互的物理現象,如玻璃碎裂。其他交互,如吃食物,并不總能產生正確的物體狀態變化。官方主頁列舉了該模型的其他常見失效模式,例如長時間樣本中出現的不一致性或物體的自發出現。

圖片

圖片

不過,Sora 目前所展現的能力證明了持續擴大視頻模型的規模是一個充滿希望的方向,這也將助力物理和數字世界及其中的物體、動物和人類能夠有更加精確的模擬。

更多詳細內容,請參閱 Sora 原始技術報告。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-07-23 10:51:29

NginxWebApache

2022-08-03 00:04:29

pnpmyarnnpm

2022-08-27 13:35:39

L4級自動駕駛輔助駕駛自動駕駛

2024-12-19 15:08:58

2024-01-31 21:54:22

NodeDenoMacOS

2021-03-30 11:29:02

人工智能深度學習

2024-03-26 15:42:00

數據訓練

2023-03-23 13:33:58

AI代碼

2024-10-15 14:00:00

AdobeAI生成

2023-09-06 15:27:00

混合現實架構

2024-05-13 12:53:06

AI模型

2024-02-22 10:17:39

AI模型

2021-05-24 08:00:00

機器學習數據云計算

2024-03-05 11:18:14

模型訓練

2022-06-10 12:38:07

物聯網IOT

2016-08-24 14:16:26

2024-02-19 08:58:00

模型AI

2024-03-18 07:12:05

2025-06-09 09:05:00

AI模型數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最近日韩中文字幕 | 婷婷色在线播放 | 欧美日本一区 | 2022国产精品 | 国产二区三区 | 久久国产精品免费一区二区三区 | 亚洲欧美视频在线观看 | 日韩在线电影 | 精精国产xxxx视频在线 | 成年人黄色免费视频 | 精品一区国产 | 免费视频99| 精品99久久 | 成年男女免费视频网站 | 成人免费看 | 中文字幕视频一区 | 欧美成年网站 | 色婷婷精品国产一区二区三区 | 成人在线精品视频 | 亚洲第一网站 | 国产乱码一二三区精品 | 成人免费福利视频 | 一级毛片免费 | 久久综合一区二区三区 | 久久综合久色欧美综合狠狠 | 九九热在线视频 | 久久久www成人免费无遮挡大片 | 国产一区二区麻豆 | 国产精品黄视频 | 亚洲国产专区 | 国产真实乱全部视频 | 国产精品毛片久久久久久 | 黄色一级大片在线免费看产 | 精精精精xxxx免费视频 | 久久久久久毛片免费观看 | 精品一区二区三区四区五区 | 国产一二区免费视频 | 国产一区精品在线 | 91网站在线看 | 亚洲www| 亚洲成人网在线观看 |