成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

解剖Sora:37頁論文逆向工程推測技術細節(jié),微軟參與,華人團隊出品

人工智能 新聞
來自理海大學、微軟研究院的華人團隊發(fā)布了首個Sora相關研究綜述,足足有37頁。

Sora剛發(fā)布不久,就被逆向工程“解剖”了?!

來自理海大學、微軟研究院的華人團隊發(fā)布了首個Sora相關研究綜述,足足有37頁。

他們基于Sora公開技術報告和逆向工程,對模型背景、相關技術、應用、現(xiàn)存挑戰(zhàn)以及文本到視頻AI模型未來發(fā)展方向進行了全面分析。

連計算機視覺領域的AI生成模型發(fā)展史、近兩年有代表性的視頻生成模型都羅列了出來:

圖片

網(wǎng)友們也屬實沒想到,僅僅過了半個月、Sora還暫未公開僅有部分人可使用,學術圈相關研究竟出現(xiàn)得這么快。

圖片
圖片

不少網(wǎng)友表示,綜述非常全面有條理,建議全文閱讀。

圖片

那么這篇綜述具體都講了啥?

量子位在不改變原意的基礎上,對部分內容進行了整理。

圖片

目錄

逆向工程剖析Sora技術細節(jié)

  • 整體架構
  • 多樣性視覺數(shù)據(jù)預處理
  • 指令調優(yōu):視頻摘要生成器
  • 視頻提示工程

Sora具有里程碑式意義

Sora的五大應用前景及局限性

逆向工程剖析Sora技術細節(jié)

眾所周知,Sora發(fā)布后,OpenAI緊接著發(fā)布了技術報告,但未詳細透露技術細節(jié),被有的網(wǎng)友吐槽OpenAI果然還是這么“Close”。

學術圈的猜測也是五花八門,ResNeXt一作謝賽寧、英偉達AI科學家Jim Fan等各路大佬都曾激情開麥。Jim Fan還高呼Sora就是視頻生成的GPT-3時刻

不過,OpenAI研究員Jason Wei最近對Sora的評價是視頻生成的GPT-2時刻

圖片

大佬們眾說紛紜,然而誰的猜測更為準確還不好說。

而在這篇研究綜述中,研究人員用逆向工程同樣推測分析了Sora的技術細節(jié),并討論了一系列相關工作。大致涉及以下幾個問題——

整體架構

根據(jù)OpenAI發(fā)布的技術報告,Sora是一個在不同時長、分辨率和寬高比的視頻及圖像上訓練而成的擴散模型,同時采用了Transformer架構,即為一種“擴散型Transformer”

圖片

回顧現(xiàn)有工作并運用逆向工程,研究人員推測補充了如下信息。

Sora整個框架可能由三部分組成:

  • 首先,時間-空間壓縮器將原始視頻映射到潛在空間;
  • 隨后,ViT處理這些被token化的潛在表示,并輸出去噪后的潛在表示;
  • 類似CLIP的條件機制接收由LLM增強的用戶指令和潛在的視覺提示,生成具有特定風格主題的視頻。經過多次去噪迭代,最終得到了生成視頻的潛在表示,隨后通過相應的解碼器映射回像素空間。
圖片

△逆向工程:Sora框架概述

更細節(jié)一點,逆向工程推測Sora利用了級聯(lián)擴散模型架構,結合基礎模型和多個時空細化模型。

由于高分辨率下使用注意力機制的計算成本高且性能提升有限,基礎擴散模型和低分辨率擴散模型不太可能大量使用注意力模塊。

同時,考慮到視頻/場景生成中時間一致性比空間一致性更重要,Sora或采用長視頻(用于時間一致性)和低分辨率的高效訓練策略來保證空間和時間上的一致性。

圖片

△Diffusion Transformer,DiT(左)、U-ViT(右)的整體架構

另外,考慮到與預測原始潛在變量x或噪聲?的其他變體相比,v參數(shù)化擴散模型的性能更優(yōu),Sora可能使用v參數(shù)化擴散模型。

在潛在編碼器方面,大多數(shù)現(xiàn)有工作為提升訓練效率,利用Stable Diffusion的預訓練VAE編碼器作為初始化的模型checkpoint。

然而,編碼器缺乏時間壓縮能力。盡管一些工作提議只微調解碼器來處理時間信息,但解碼器在壓縮的潛在空間中處理視頻時間數(shù)據(jù)的性能仍然不是最優(yōu)的。

基于技術報告,研究人員推測Sora可能不是使用現(xiàn)有預訓練VAE編碼器,而是使用從零開始在視頻數(shù)據(jù)上訓練的時空VAE編碼器,該編碼器在針對視頻內容優(yōu)化的壓縮潛在空間中的表現(xiàn)優(yōu)于現(xiàn)有編碼器。

多樣性視覺數(shù)據(jù)預處理

與傳統(tǒng)方法需要裁剪視頻大小或調整寬高比以適應統(tǒng)一的標準尺寸不同,Sora能夠在原生尺寸的視頻和圖像上訓練、理解并生成視頻。

也就是能處理多樣性視覺數(shù)據(jù),且對原始尺寸的樣本無損,這顯著提升了Sora的視頻構圖與框架,使生成的視頻更自然連貫。

圖片

舉個例子,用傳統(tǒng)方法訓練如左圖,由于正方形裁剪,視頻畫面主體被截斷,而右圖使用原始樣本訓練,視頻主體完全被捕捉。

圖片

這部分的技術細節(jié),OpenAI在技術報告中雖然做了重點介紹,不過也僅是提出了一個高層次的想法:

為處理不同分辨率、寬高比、時長的圖像和視頻,Sora采用了統(tǒng)一的視覺表示。具體來說,模型先將視頻壓縮到低維潛在空間中,然后將表示分解為時空patch,從而實現(xiàn)了視頻的“patch化”

圖片

而在綜述中,研究人員做了如下分析。

Sora的視頻壓縮網(wǎng)絡(視覺編碼器)目的是減少輸入數(shù)據(jù)(原始視頻)的維度,并輸出一個在時間和空間上都被壓縮的潛在表示。

根據(jù)Sora技術報告中的參考文獻,壓縮網(wǎng)絡建立在VAE或VQ-VAE之上。如果按照技術報告中提到的不調整大小、不裁剪,VAE很難將視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間。

不過,這里總結了兩種方法來解決這個問題。

一種方法是空間-patch壓縮(Spatial-patch Compression),類似于ViT和MAE中采用的方法,將視頻幀分割成固定大小的patch然后將它們編碼到潛在空間。

圖片

有幾個關鍵問題要注意:

  • 時間維度的可變性。因視頻時長不同、潛在空間維度不固定,需通過采樣固定幀數(shù)或設定超長輸入長度來整合時間信息。
  • 利用預訓練視覺編碼器。大多數(shù)研究者傾向于使用預訓練編碼器如Stable Diffusion的VAE,但Sora團隊可能自行訓練編碼器和解碼器,能高效處理大尺寸patch數(shù)據(jù)。
  • 時間信息的整合。由于這種方法主要關注空間patch壓縮,所以需要模型內部的額外機制來聚合時間信息,這對于捕捉動態(tài)變化至關重要。

另一種方法是空間-時間-patch壓縮(Spatial-temporal-patch Compression),使用3D卷積提取時間信息。

圖片

這種方法同時封裝視頻數(shù)據(jù)的空間和時間維度,提供一種全面的視頻表示,考慮了幀之間的運動和變化,從而捕捉視頻的動態(tài)特性。

與空間-patch壓縮相似,空間-時間-patch壓縮通過設置特定的卷積核參數(shù)處理視頻,由于視頻輸入的特征差異,導致潛在空間維度發(fā)生變化,在這里上文提到的空間-patch的方法同樣適用并有效。

在壓縮網(wǎng)絡這部分還有一個關鍵問題:如何處理不同視頻類型中潛在特征塊或patch的數(shù)量,然后再將patch輸入到Diffusion Transformer的輸入層?

研究人員認為,基于Sora的技術報告和相應參考文獻,patch n’ pack(PNP)可能是解決方案。

圖片

PNP將來自不同圖像的多個patch打包到一個序列中,類似于NLP中的示例打包,通過丟棄token來適應可變長度輸入的高效訓練。

在打包過程中,需要考慮如何以緊湊的方式打包這些patch,以及如何控制哪些patch應被丟棄。

對于第一個問題,研究人員提到了一種簡單的算法,即在有足夠剩余空間時添加示例,然后用token填充序列,以獲得批量操作所需的固定序列長度。

對于第二個問題,一種直觀的方法是丟棄相似的token,或者像PNP那樣應用丟棄率調度器。

不過丟棄token可能會在訓練過程中遺失一些細節(jié)。因此,研究人員認為OpenAI可能會使用超長的上下文窗口打包視頻中的所有token。

長視頻的空間-時間潛在patch可以打包在一個序列中,而來自幾個短視頻的潛在patch則在另一個序列中連接。

總的來說,在數(shù)據(jù)預處理這部分,研究人員推測Sora首先將視覺patch壓縮成低維潛在表示,然后將這樣的潛在patch或進一步patch化潛在patch排列成一個序列,接著在將這些潛在patch輸入到Diffusion Transformer的輸入層之前注入噪聲。

Sora采用空間-時間patch化,因為它易于實現(xiàn),并且可以有效減少具有高信息密度token的上下文長度,降低后續(xù)對時間信息建模的復雜性。

指令調優(yōu):視頻描述生成器

模型指令調優(yōu)旨在增強AI模型遵循提示的能力,使模型能適應更廣泛的用戶請求,確保對指令中的細節(jié)給予細致的關注,并生成精確滿足用戶需求的視頻。

Sora在這方面采用了一種與DALL·E 3類似的方法。

首先訓練一個能夠詳細描述視頻的視頻描述生成器(Video captioner)。然后,將其應用于訓練數(shù)據(jù)中的所有視頻,來生成高質量的視頻-文本對,用這些視頻-文本對微調Sora,提高其遵循指令的能力。

Sora的技術報告沒有透露訓練視頻摘要生成器的細節(jié)。鑒于視頻摘要生成器是一個視頻-文本的模型,構建它有多種方法。

方法之一是利用CoCa架構進行視頻摘要生成,通過獲取視頻的多個幀并將每個幀輸入到圖像編碼器VideoCoCa。

VideoCoCa基于CoCa并重用預訓練的圖像編碼器權重,獨立地應用于采樣的視頻幀。得到的幀token嵌入被展平并連接成一個長視頻表示序列。這些展平的幀token隨后被一個生成性池化器和一個對比性池化器處理,這兩者與對比損失和摘要生成損失一起聯(lián)合訓練。

構建視頻描述生成器的其他選擇包括mPLUG-2、GIT、FrozenBiLM等。

最后,為確保用戶提示與訓練數(shù)據(jù)中的描述性摘要格式對齊,Sora執(zhí)行了一個額外的提示擴展步驟,其中用GPT-4V將用戶輸入擴展為詳細的描述性提示。

視頻提示工程

提示工程是為了讓用戶引導AI模型生成與其意圖一致的內容。

以前關于提示工程的研究主要集中在LLM和文本生成圖像的提示上,研究人員推測對視頻生成模型的視頻提示將會越來越受到關注。

提示工程的效果依賴于精準選擇用詞、明確細節(jié),以及對這些細節(jié)如何影響模型輸出的深刻理解。比如下圖示例中,提示詞詳細描述了動作、環(huán)境、角色造型,甚至是期望的情緒和場景氛圍。

圖片

Sora還能夠同時利用視覺和文本信息,將靜態(tài)圖像轉換為動態(tài)的、敘事驅動的視頻。

圖片

除此外,Sora還能夠向前或向后擴展視頻,通過提示可以指定擴展的方向、主題等。

圖片

在下圖(a)中,視頻提示指導Sora倒退擴展視頻。下圖(b)中,切換視頻場景時,模型需要通過prompt清楚理解所需視頻風格、氛圍、光線明暗變化等細節(jié)。圖(c)中,指導Sora連接視頻,在不同場景中對象間順暢過渡,也需要在提示工程上下功夫。

圖片

Sora具有里程碑式意義

在圈內外炸開鍋、被稱為是視頻生成GPT-3、GPT-2時刻,Sora為何被認為具有里程碑式意義?

透過計算機視覺(CV)領域的AI生成模型發(fā)展史來看,Sora的突破性或許就更加明了了。

圖片

過去十年,生成式CV模型的發(fā)展變換了多種路線。

  • 深度學習革命前,傳統(tǒng)圖像生成依賴于基于手工制作特征的紋理合成和紋理映射等方法。
  • 而后生成對抗網(wǎng)絡(GAN)和變分自編碼器(VAE)、流模型( flow model)和擴散模型(diffusion model)相繼出現(xiàn)。
  • Transformer架構出現(xiàn)格局發(fā)生巨變,先在NLP領域成功應用,而后在CV領域與視覺組件結合,催生了ViT、Swin Transformer等。
  • 與此同時,擴散模型在圖像和視頻生成領域也取得了顯著進展。
  • 2021年以來,AI多模態(tài)迎來變革。CLIP、Stable Diffusion接連爆火。

重要的一點是,大語言模型領域開始逐漸展示出規(guī)模化定律,ChatGPT、GPT-4等展示出了一定的涌現(xiàn)能力。

不過視覺模型是否同樣符合規(guī)模化定律還不是很清晰。

而Sora作為一個大型視覺模型(LVM),它的問世與規(guī)模原則保持了一致,揭示了在文本-視頻生成中的幾種涌現(xiàn)能力。這一進展凸顯了LVM實現(xiàn)類似LLM那樣的進步的潛力。

根據(jù)Sora的技術報告,它是第一個確認展示出涌現(xiàn)能力的視覺模型,標志著計算機視覺領域的一個重要里程碑。

除了其涌現(xiàn)能力,正如上面提到的,Sora在遵循指令、視覺提示工程以及視頻理解等方面的能力亦有重大進步。

比如,Sora能生成具有多個角色、包含特定運動的復雜場景,不僅能理解用戶在提示中提出的要求,似乎還能理解簡單物體在物理世界中的存在方式。它還可以在單個視頻中創(chuàng)建多個鏡頭,并依靠對語言的深入理解準確地解釋提示詞,保留角色和視覺風格……

Sora的五大應用前景及局限性

研究人員總結Sora具有五大亮點:提高模擬能力、促進創(chuàng)造力、推動教育創(chuàng)新、增強無障礙性、促進新興應用。

最后還總結了Sora的五大應用場景:

1、電影制作:Sora的應用在電影制作領域具有革命性意義,它能夠將文本腳本轉化為電影風格的視頻,降低了電影制作的門檻,使得個人創(chuàng)作者也能夠制作電影內容。

2、教育:在教育領域,Sora能夠將教學大綱或文本描述轉化為動態(tài)視頻內容,提高學生參與度和理解能力,為定制和激活教育材料提供了前所未有的機會。

3、游戲:傳統(tǒng)游戲開發(fā)常常受限于預渲染環(huán)境和腳本事件。擴散模型能夠實時生成動態(tài)、高保真度的視頻內容和真實的聲音,有望克服現(xiàn)有限制,為開發(fā)者提供創(chuàng)造有機響應玩家行動和游戲事件的演變游戲環(huán)境的工具。

4、醫(yī)療保健:在醫(yī)療領域,它特別適合于識別身體內的動態(tài)異常,如早期細胞凋亡、皮膚病變進展和不規(guī)則的人體運動,對于早期疾病檢測和干預策略至關重要。

5、機器人:在機器人技術中,Sora可以增強機器人的視覺感知和決策能力。使它們能夠與環(huán)境交互,并以前所未有的復雜性和精度執(zhí)行任務。

不過,盡管Sora在AI視頻生成領域取得了顯著進步,但仍面臨一些挑戰(zhàn)。

解決生成內容中的偏見問題和防止產生有害視覺內容,確保Sora輸出的持續(xù)安全和無偏見是一項主要挑戰(zhàn)。

此外,局限性還包括以下幾點:

  • 物理真實性的挑戰(zhàn):Sora在處理復雜場景的物理規(guī)律時存在不一致性,例如,吃餅干不一定留下咬痕。
  • 空間和時間的復雜性:Sora有時難以準確理解空間布局和時間順序的指令,導致物體和角色的位置或安排出現(xiàn)混淆。
  • 人機交互的限制:用戶很難對生成內容進行詳細修改或優(yōu)化。
  • 使用限制:OpenAI尚未將Sora對公眾開放,在安全性、隱私保護和內容審查等方面,Sora可能仍需進一步的改進和測試。且目前Sora只能生成長達一分鐘的視頻,限制了其在需要展示更長內容的應用場景中的使用。

更多細節(jié),感興趣的家人們可以查閱原論文。

One More Thing

這篇綜述發(fā)布后引起了不少網(wǎng)友關注,有網(wǎng)友表示值得全文閱讀,但也有網(wǎng)友吐槽標題“Sora:”的設置極易引起誤會。

圖片

對此,疑似論文作者在小紅書做出回應:

圖片

論文鏈接:https://arxiv.org/abs/2402.17177
參考鏈接:https://twitter.com/_akhaliq/status/1762678991549354121

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-03-01 12:17:00

AI數(shù)據(jù)微軟

2020-04-03 09:05:43

麻將 AI Suphx神經網(wǎng)絡

2021-06-11 21:46:31

RocketMQ數(shù)據(jù)JSON

2024-02-29 15:39:00

AI研究算力

2015-04-13 10:12:08

Windows容器技術Nano Server

2024-10-05 10:57:21

2009-11-23 09:50:54

HTML5IE9

2023-11-10 12:53:35

論文AI

2014-05-29 09:34:25

2024-04-25 17:07:33

無源光網(wǎng)絡PON接入網(wǎng)技術

2019-05-06 10:51:49

總監(jiān)技術場景

2019-05-13 08:51:53

總監(jiān)技術CTO

2010-03-31 22:20:51

2023-08-04 09:30:51

2024-03-18 15:01:58

SoraAI人工智能

2013-06-26 09:42:25

技術服務器內存虛擬化

2017-11-10 08:35:06

存儲FCoE網(wǎng)絡

2023-05-08 07:20:22

Doris分析型數(shù)據(jù)庫

2018-04-20 14:37:43

互聯(lián)網(wǎng)技術細節(jié)

2021-03-16 15:49:30

架構運維技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本不卡一区 | 羞羞的视频免费在线观看 | 毛片在线视频 | 国产欧美视频一区二区三区 | 亚洲精品欧美一区二区三区 | 中文字幕在线精品 | 精品一区电影 | 久www| 亚洲一区二区三区在线 | 五月天天丁香婷婷在线中 | 精品在线观看一区二区 | 午夜视频免费 | 天天操操 | 国产1区在线| 一级特黄网站 | 超碰人人艹 | 东京久久 | 日韩欧美国产一区二区 | 国产精品国产精品国产专区不蜜 | 国产欧美在线 | 欧美日日 | 久久国产精品72免费观看 | 九九热精品视频 | 国产毛片久久久 | 亚洲国产成人精品女人 | www.色综合 | 精品在线一区 | 日韩精品不卡 | 综合国产 | 免费观看黄色片视频 | 日韩精品在线免费观看视频 | 欧美一级在线免费观看 | 成人一区在线观看 | 一区二区三区亚洲 | 日韩在线xx | 国产中文 | 中文字幕一区二区三区乱码图片 | 国产精品久久久久久久久久妞妞 | 国产精品视频网 | 日韩成人在线视频 | 国产精品欧美一区二区三区不卡 |