人剛畢業,顛覆整個AI界:扒一扒Sora兩帶頭人博士論文
2024 年是生成式 AI 元年,才到 2 月,OpenAI 就用 Sora 把競爭推向了視頻生成的新高度。
我們都還記得初見 Sora 作品時受到的震撼,感嘆其他競爭對手想要趕上 OpenAI,至少也得需要個半年到一年的時間。
Sora 發布后,其開發團隊自然也成為關注焦點,人們都想知道具有跨時代意義的 AI 技術是如何被開發出來的。DiT 模型作者謝賽寧曾表示:「他們每天基本不睡覺高強度工作了一年」。
隨著時間推移,答案正被慢慢揭曉。
以下是 OpenAI 技術報告中,Sora 的十三位作者:
其中的前兩位,Tim Brooks、Bill Peebles,他們被認為是「Sora 之父」,擔任 OpenAI Sora 項目研究主管,又十分年輕 —— 兩人都是 2023 年剛剛從加州大學伯克利分校(UC Berkeley)博士畢業的。
在 Sora 技術公開后,他們曾共同進行宣講,接受過很多媒體采訪。
圖片中間為 Tim Brooks,右側為 Bill Peebles。
看兩人的工作經歷,他們分別是在 2023 年 1 月和 3 月加入 OpenAI 的。
我們知道,2022 年 11 月 30 日,OpenAI 的 ChatGPT 橫空出世,由此掀起了大模型「顛覆世界」的浪潮。
他們追隨傳奇而來,如今回頭望去,自己也成為了傳奇。
作為 Sora 背后的主要推動者,Tim Brooks、Bill Peebles 兩人的博士畢業論文,也都是以 AI 視頻生成為主題的。是時候從技術發展的角度,來研究一下 Sora 的來龍去脈了。
Tim Brooks
個人主頁:https://www.timothybrooks.com/about/
Tim Brooks 博士畢業于 UC Berkeley 的「伯克利人工智能研究所」BAIR,導師為 Alyosha Efros。
在博士就讀期間,他曾提出了 InstructPix2Pix,他還曾在谷歌從事為 Pixel 手機攝像頭提供 AI 算法的工作,并在英偉達研究過視頻生成模型。博士畢業后,Tim Brooks 加入 OpenAI,參與過 GPT-4、Sora 等多項研究。
2023 年,Tim Brooks 順利畢業,博士論文接近 100 頁。論文題目為《Generative Models for Image and Long Video Synthesis 》。
論文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2023/EECS-2023-100.pdf
論文簡介
在這篇博士論文中,Tim Brooks 提出了將圖像和視頻生成模型用于一般視覺內容創作的基本要素,主要體現在三個方面:
首先,論文介紹了長視頻生成相關研究,并提出一種網絡架構和訓練范式,用于從視頻中學習長程時間模式,這是將視頻生成從較短的剪輯推進到較長形式且連貫視頻的關鍵挑戰。
接下來,論文介紹了基于人體姿態生成場景圖像的研究,展示了生成模型用來表示人與周圍環境之間關系的能力,并強調了從大型且復雜的日常人類活動數據集中學習的重要性。
最后,論文介紹了一種通過結合大型語言模型和文本到圖像模型的能力來創建監督訓練數據,從而指導生成模型遵循圖像編輯指令的方法。這些工作共同提升了生成模型合成圖像和長視頻的能力。
Tim Brooks 表示,在他讀博期間(2019-2023 年),圖像和視頻生成模型已經從小范圍的演示發展成被廣泛采用的創意工具。他非常慶幸自己能在這個關鍵的時刻攻讀視覺生成模型的博士學位,他也對生成模型充滿了信心。
接下來我們介紹一下 Tim Brooks 博士論文每章節的主要內容。
第 2 章專注于生成具有豐富動態和新內容的長視頻。圖 2.1 展示了模型能夠生成豐富的運動和場景變化。
來源:https://www.timothybrooks.com/tech/long-video-gan/
本章的主要貢獻是一個分層生成器架構,生成器概覽圖如下所示。
第 3 章介紹了從反映日常人類活動的復雜現實世界數據中學習的研究。人、物體及其周圍環境之間的相互作用提供了有關世界的豐富信息來源。Tim Brooks 提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,例如人臉或特定的對象類。這項工作將生成模型擴展到用人類建模復雜場景的領域。只要輸入一個人的骨骼姿態,該模型就能夠生成與該姿態兼容的合理場景。該模型既可以生成空場景,也可以生成輸入姿態中有人類的場景。
本小節還設計了一個條件 GAN 來生成與人類姿態兼容的場景,網絡架構基于 StyleGAN2 ,如圖 3.3 所示。
這篇論文還強調了通過對日常人類活動的大型視覺數據集進行訓練,來理解視覺世界復雜關系的能力。
第 4 章提出了一種新技術,教生成模型遵循人類編輯指令。圖 4.1 顯示了模型執行圖像編輯指令的示例,圖 4.2 顯示了在文本消息會話中使用的模擬接口。
由于難以大規模獲取基于指令的圖像編輯訓練數據,該研究提出了一種生成配對數據集的方法,該方法結合了多個在不同模態上預訓練的大型模型:大型語言模型(GPT-3 )和文本到圖像模型(Stable Diffusion)。這兩個模型捕獲了關于語言和圖像的互補知識,可以將它們結合起來為跨兩種模態的任務創建配對訓練數據,而這兩種模態中的任何一個都無法單獨完成。
使用生成的配對數據,Tim Brooks 訓練了一個條件擴散模型,該模型在給定輸入圖像和有關如何編輯文本指令的情況下,生成編輯后的圖像。該模型可以直接在前向傳播中執行圖像編輯,不需要任何其他示例圖像、輸入 / 輸出圖像的完整描述或每個示例的微調。盡管模型完全在合成示例上進行訓練,但其實現了對任意真實圖像和人類指令的零樣本泛化。該模型可以按照人類指令執行各種編輯:替換對象、更改圖像樣式、更改設置、藝術媒介等。
最后,我們看一下論文中的一些結果。
與其他方法的比較結果如下:
總的來說,這篇博士論文確定了未來視覺生成模型的三個關鍵組成部分:隨著時間的推移建模長程模式,從復雜的視覺數據中學習,以及遵循視覺生成指令。這三個要素對于開發超級智能至關重要,因為它可以執行復雜的視覺創造任務,幫助人類創造,并將人類的想象力帶入生活。
William (Bill) Peebles
個人主頁:https://www.wpeebles.com/
2023 年,William (Bill) Peebles 在伯克利人工智能研究中心獲得了博士學位,導師是 Alyosha Efros,與 Tim Brooks 師出同門。
William (Bill) Peebles 本科畢業于麻省理工學院,曾在 FAIR、Adobe Research 和 NVIDIA 實習過。在攻讀博士學位期間,他得到了美國國家科學基金會(NSF)研究生研究獎學金計劃的支持。
William (Bill) Peebles 的博士論文以圖像生成模型為主題,論文題目是《Generative Models of Images and Neural Networks》。
論文地址:https://www.proquest.com/openview/818cd87d905514d7d3706077d95d80b5/1?pq-origsite=gscholar&cbl=18750&diss=y
論文簡介
大規模生成模型推動了人工智能的最新進展。這種范式使得人工智能的許多問題取得了突破,其中自然語言處理(NLP)領域是最大的受益者。
給定一個新任務,預訓練生成模型可以零樣本地解決該任務,也可以在少量特定于任務的訓練樣本上進行有效的微調。
然而,在視覺、元學習等領域,生成式模型的進展卻落后了。
William (Bill) Peebles 的博士論文研究了訓練改進的、可擴展的兩種模態(圖像和神經網絡參數)的生成式模型的方法,并研究了如何利用預訓練生成式模型來解決其他下游任務。
首先,該論文證明保留了擴散模型圖像生成擴展特性的擴散 transformer(DiT),優于之前主導該領域的卷積神經網絡。
值得注意的是,DiT 架構是在一篇題為《Scalable Diffusion Models with Transformers》的論文中被正式提出的,第一作者就是 William Peebles,另外一位論文作者是紐約大學的謝賽寧。
然后,William (Bill) Peebles 的博士論文提出了一種新型學習框架,旨在基于構建新數據源(神經網絡檢查點)的生成式模型進行學習。
該論文創建了包含數十萬次深度學習訓練運行的數據集,并使用它來訓練生成式模型。給定起始參數向量和目標損失、錯誤或獎勵,在此數據上訓練的損失條件擴散模型可以對實現所需指標的參數更新進行采樣。
這種方法克服了以前元學習算法的許多困難 —— 它可以優化不可微目標,并省去不穩定的展開優化方法。與 SGD 和 Adam 等基于梯度的迭代優化器無法從優化歷史中學習不同,該論文提出的生成模型只需一次生成的參數更新即可通過隨機初始化來優化神經網絡。
該論文證明,預訓練 GAN 生成器可用于創建無限數據流來訓練網絡,以解決密集視覺相關問題,而無需任何人工注釋的監督。該論文表明,采用完全由 GAN 生成的數據進行訓練的神經網絡,性能優于之前在真實數據上訓練的自監督和關鍵點監督方法。
該論文將所提框架應用于視覺和強化學習問題,并探討了如何使用預訓練圖像級生成模型來處理視覺領域的下游任務,而無需特定于任務的訓練數據。