嘉賓 | 宋東桓、薛彥澤
主持&編輯 | 李美涵
出品 | 51CTO技術棧(微信號:blog51cto)
欄目介紹:“T前線”是51CTO內容中心專為技術人物開設的深度訪談欄目之一,通過邀請技術界內的業務負責人、資深架構師、資深技術專家等對當下的技術熱點、技術實踐和技術趨勢進行深度的解讀和洞察,推動前沿科技的傳播與發展。
Sora技術的問世,給國內外科技圈投下了重磅炸彈。自春節以來,Sora的討論熱潮不斷升溫,從硅谷大佬對其能否成為世界模型的爭論,到OpenAI CTO在采訪中對訓練數據的含糊其辭,再到眾多技術團隊宣布要復刻并開源Sora,都使其不斷地站在熱議的“風口浪尖”。
深入到內容產業,Sora是否如一些創作者和電影工作者所擔憂的那樣,會讓內容行業變天?或者這只是一種杞人憂天的幻覺?
近期,51CTO有幸邀請到了Story storm AI內容社區的發起人,有著豐富編劇和導演經驗的宋東桓老師。宋老師不僅對內容行業有深厚的積累,還深入實踐了利用AI工具進行內容創作的前沿技術。在與51CTO內容中心主編薛彥澤的對話中,宋老師詳細介紹了Sora的技術革新,并深入探討了以Sora為代表的視頻生成模型對未來內容行業的影響。
1、“Sora指出了視頻生成的一條明路”
T前線:Sora真正厲害在哪里?
宋東桓:要理解Sora的厲害之處,我們首先得審視以往的視頻生成技術。早期的方法,從diffusion到各種轉繪流程,其實都是在走一條錯誤的路。這些方法基本上是逐幀處理,本質上還是在“畫”視頻,而非真正地“生成”視頻。
去年8月份,Runway開始嘗試生成連續視頻,雖然取得了一些進步,但仍然存在四秒的限制。這是因為當時的方法是在生成一張圖片的基礎上,通過重復和調整來減少閃爍感,但這種方法本質上還是處理圖片而非視頻。
Diffusion transformer則不同,它將視頻視為時空連續的實體,嘗試預測下一幀內容,就像語言模型處理文本一樣。我們現在比較的是生成圖像的能力、模型的調優,以及潛在層的處理,這些都是在不斷進步的方面。
但Sora的真正厲害之處在于,它是歷史上第一次使用視頻數據集進行訓練,并輸出視頻的技術。因此,它天生具備視頻的連貫性。例如,如果給Sora看過一萬次小貓推蘋果的視頻,它就能模仿出蘋果落下的加速度和運動軌跡。這是因為Sora看過的視頻數量遠超我們的想象。
Sora的另一個厲害之處在于它為整個行業指了一條明路。如果沒有像OpenAI這樣的巨頭,能找到一條正確的路,很多公司還會在錯誤的方法上耗費一兩年甚至更久。Sora的出現,讓整個行業看到了一條明確的前進道路,這是非常有意義的。
薛彥澤:關于Sora的厲害之處,我的第一印象是它能夠生成影視級的視頻效果。
具體來說,Sora在處理背景與主題人物的一致性方面做得很好,比如在東京街頭散步的視頻,環境的細節如紅燈、雨滴的倒影都非常真實。另外,Sora在理解物理世界方面也表現出色,盡管我認為機器實際上無法真正理解我們的物理世界,但Sora生成視頻能夠保持物體的連貫性,比如小貓的視頻,動作和鏡頭的延伸都非常流暢。
但Sora最厲害的不止于視頻生成,它實際上在這個過程中試圖尋找一種理解物理世界的新路徑,OpenAI提出的這個觀點是前所未有的,也是它最厲害的地方。
T前線:如何看待Sora的翻車視頻?
宋東桓:我發現Sora在處理視頻中的遮擋問題時偶爾會出現問題,尤其是在畫面中有明確遮擋物的情況下。比如考古學家在沙漠中發現了一把塑料椅子的視頻,椅子直接懸浮了起來。但是,像兩只海盜船在咖啡杯里相遇這樣的視頻,由于船身大部分時間都在杯子上方,Sora處理得相對更好。
前段時間有人測試了電車向前延伸的視頻,結果顯示出三種不同的結果。這讓我聯想到文本生成中的合理性問題,一旦涉及到遮擋,合理性可能會受到影響。我認為Sora的“翻車”現象和文本生成中的幻覺類似,都是低概率事件。
薛彥澤:談到Sora的翻車視頻,我認為將其視為“夢境生成器”是恰當的。夢境中自然會有一些荒誕的元素,對于機器來說,這并不是問題。就像圖像中會有噪聲,視頻中也可能出現不符合人類邏輯的場景。關鍵在于我們如何看待和處理這些異常。
2.“十年之內,見證好萊塢們的坍塌”
T前線:文生視頻領域,sora是否真的能顛覆Tik Tok/好萊塢?
宋東桓:對于Sora是否能顛覆TikTok和好萊塢,我認為這是兩個不同的問題。TikTok代表的是UGC(用戶生成內容)生態,而好萊塢則是PGC(專業生成內容)的代表。Sora對這兩種生態的影響會有所不同,盡管它的接受程度可能相同,但表現出來的影響會有差異。
在影視創作方面,Sora的能力類似于文本生成。雖然它可能還無法創作出長篇巨制,但已經能夠處理短篇內容,如笑話、小詩,甚至歌詞。同樣,Sora在生成15秒以內的視頻方面可能已經相當成熟,但對于長視頻,尤其是一分鐘以上的視頻,可能還無法完全統一上下文,除非通過技術手段如視頻轉視頻來輔助。
我懷疑,如果要求Sora生成長視頻,它可能無法記憶上下文,并進一步出現內容上的斷裂和幻覺。這種情況下,短視頻內容,如廣告PVC,可能會首先受到沖擊。例如,以前需要高昂成本拍攝的紅酒廣告,現在可能通過Sora以極低的成本實現,這對傳統影視制作是一個巨大的挑戰。
至于好萊塢,如果一個小型團隊能夠利用Sora創作出與大制作電影相媲美的作品,那么傳統的高成本制片流程將面臨巨大的壓力。Sora在制作大場面的特效鏡頭方面非常有潛力。它放大了內容杠桿,使得低成本制作能夠與高投資作品競爭。這可能導致傳統影視公司面臨重組,甚至崩潰。
在TikTok層面,內容的海量增長需要出口,而短視頻平臺就是這個出口。短視頻平臺及配套的剪輯軟件,如抖音的剪映正在積極配備AI功能,幾乎是一種“all in AI”的狀態來構建新的創作者生態,這也會相應改變專業視頻制作工具的市場地位(例如達芬奇等剪輯工具)。
總的來說,Sora的出現可能會顛覆內容行業的創作流程和分發方式。
薛彥澤:我認為Sora是否能顛覆TikTok和好萊塢,這個問題可以從兩個角度來看。
首先,顛覆的定義是什么?如果改變制作流程算顛覆,那么Sora無疑能做到。然而,更重要的是,用戶是否會喜歡完全由AI生成的內容?
“AI教母”李飛飛教授說,AI生成的作品無法取代宮崎駿的動畫,但利用AI可以創作出觸動人心的內容。我認為Sora更像是一種工具,它擴展了創作者的可能性,就像3D技術讓陳凱歌能夠實現之前無法實現的創意一樣。
總的來說,Sora在制作模式上具有顛覆性,但在藝術創作的核心價值和目的上,它并沒有顛覆,而是提供了更多可能性。
3.“復刻Sora,最難解決的是信心”
T前線:復刻Sora,可行嗎?難在哪里?
宋東桓:我們社區對Sora的復刻問題進行過深入的討論。起初,大家都對Sora的出現感到震驚,擔心未來的內容創作。
但經過魔搭社區算法工程師周文猛老師的深入分析和觀點的分享,我們對復刻Sora的可能性有了更多信心。
周老師詳細拆解了Sora的技術報告,同時指出Sora更多地是在工程上的創新。Sora報告中雖然對具體的搭建方法描述不夠詳細,但其引用的文獻中包含了大量有用的信息。這些引用的文獻詳細講解了Sora可能采用的訓練方法和時空連續性處理等關鍵技術點。
巧合的是,Sora的論文很快就被官方下架了,雖然里面的內容已經廣泛傳播了出來。我認為復刻Sora是個需要信心傾注的事情,比較像在漆黑的隧道里蜿蜒前行。但隨著開源社區的參與和資源的傾斜,復刻Sora只是時間問題。
以GPT-4為例,自發布以來,國內對其的追趕非常明顯,如果GPT-4能在一年內被追趕到八成,那么Sora的復刻也大有可能——OpenAI對Sora的研發投入應該還小于GPT-4。未來一兩年,我們應該能看到更多開源方案的出現,讓Sora不再獨領風騷。
薛彥澤:我其實對復刻Sora持相對悲觀的態度,但聽了宋老師的看法后,我又有了不少信心。Sora的架構并不新鮮,它的模型基礎,如Transformer和Diffusion模型,已經是公開的信息。
然而,復刻Sora的工程量依然很大,難點在于訓練過程,比如數據預處理、模型的微調階段,以及如何切分視頻數據(patch)的尺寸等。此外,訓練模型的成本高,周期長,需要的資本也是挑戰之一。
算力也是一個關鍵因素。盡管國內在AI算力儲備上正在追趕,但仍落后于美國。視頻處理的數據量級遠超文本,對算力的需求巨大。如果算力問題得到解決,數據門檻將是下一個挑戰。此外,需要專業的人才進行模型的權重調整,那如何吸引頂尖人才回國工作也是我們需要面對的問題。
總的來說,復刻Sora的最大難題在于算力、數據和人才。
4.所有人都是創作者,所有人都是消費者
T前線:未來會是一個AI視頻泛濫的世界嗎?
宋東桓:會。
T前線:那您支持一個這樣的世界嗎?
宋東桓:我認為無論支不支持,未來AI視頻的泛濫是不可避免的,尤其考慮到AI視頻與傳統視頻在成本上的巨大差異。AI視頻的生成將變得極其方便,就像現在AI生成的圖像一樣,我們很難區分真假,也難以阻止其泛濫。
不過,AI視頻的泛濫有可能轉變為一個環保問題。AI視頻的普及雖然能帶來巨大的商業價值,讓每個人都有能力成為內容的創作者。但這種能力的背后是對能源的巨大需求。例如,GPT-4的耗電量相當于1.5萬個家庭的日常用電量,而Sora的耗電量可能更高。
盡管如此,限制人們生成AI視頻就像限制言論自由一樣。人們有權使用技術來表達自己的想法,因此立法限制可能會遇到重大阻力。
從道德和倫理角度來看,我對AI視頻泛濫的未來持悲觀態度,我不支持這樣的世界。但人類的表達欲是無窮無盡的,而這種渴望可能會帶來深遠的影響。
薛彥澤:我認為未來AI視頻的泛濫是必然的,就像互聯網帶來了信息的泛濫一樣。
生活在AI視頻泛濫的時代,也不一定是壞事,關鍵在于我們如何利用這些工具,同時能否找到約束AI工具使用的平衡點。
就像奧特曼在最新采訪中談到伊利亞時說,他挺佩服伊利亞的,因為他在研究一項技術的時候,會想到未來十年的技術發展,去考慮這項技術是不是符合造福人類的使命。雖然目前AI視頻技術還沒有達到侵害人類的地步,但我們仍需保持警惕,確保技術的發展方向與我們的價值觀相符。
5.Sora將無處不在
T前線:Sora可能會推動哪些技術的更新和迭代?
宋東桓:我覺得是3D技術。
目前,我們可以通過視頻來還原3D結構,尤其是當視頻內容自洽且空間關系準確時。例如,如果我們有一段現實世界中茶杯的視頻,可以使用神經網絡(nerve)技術來還原茶杯的3D空間特征。Sora能夠生成空間上合理的視頻,這為從視頻中生成高質量的3D數據提供了可能。
目前,3D數據的存量遠低于視頻、文本和圖片數據。現有的3D模型數量有限,而且質量參差不齊,這限制了3D技術的商業應用。但隨著Sora等技術的發展,我們可能會找到一條新的路徑:通過生成視頻來創建3D內容。在不考慮經濟與否的情況下,這起碼是一種能夠不斷產生優質3D數據的新方法,從而推動3D技術的進步。
薛彥澤:我認為Sora的影響將是全方位的。因為它的定位不僅僅是一個視頻生成工具,而是一個能模擬物理的世界模型。
如果將其目標提升到這個層次來看,它的影響將無處不在。如果Sora真的做到了理解世界,那么AI芯片只需要集成這個模型就可以完成很多工作。機器人只需要配備這樣的芯片和相應的傳感器,就能被看作是有意識地理解世界、響應世界了,這是非常大的科技飛躍。
具體到行業層面,除了剛才聊到的電影,其實還有游戲,Sora將會推動3D渲染技術的創新,以及推動RTC、編解碼技術的改進。此外,面向GPU編程可能會發展出新的工具,以適應生成式AI的需求。
Sora的廣泛應用還可能顛覆底層通信技術,如果未來世界依賴于大量GPU和類似Sora的模型,那將是一個全新的景象。
6.擁抱AI,從業者要吃“第一口饅頭”
T前線:在Sora開放前,從業者需要做怎樣的準備?
宋東桓:雖然Sora是一個全新的工具,但工具的掌握都是觸類旁通的,例如對視頻編輯軟件或拍攝技巧的學習,對掌握Sora會有很大幫助。核心在于,無論是使用什么技術,審美和表達方式始終是最重要的。
對于想要成為優秀創作者的人來說,廣泛閱讀和積累審美經驗是基礎。AI可以提供輔助,但最終做出選擇的還是人。技術不是優秀作品的出圈限制,想象力才是。
具體來說,電影人可以在劇本創作時就考慮如何利用Sora來實現鏡頭效果。即使現在還不能直接使用Sora,也可以通過與有資源的公司合作,將類似Sora的工具應用到實際拍攝中。
T前線:最先擁抱AI工具的人,會吃到相應的內容紅利嗎?
宋東桓:當前的信息傳播環境,已經不再依賴于中心化的傳遞方式了。信息可以通過多種渠道迅速傳播,從外網到社交媒體平臺,再到微信群和朋友圈,信息的流通速度非常快。
并不是說你是第一個接觸AI工具的人就能吃到紅利,而是要看你如何使用這些工具。我認為從業者應該有學習意識,主動去搜索最新的資訊,自己要吃一口饅頭才行。
薛彥澤:宋老師這個比喻很形象,現在的信息差真的是件很嚇人的事情。
在Sora開放前,我認為從業者需要做的準備包括心態的調整、積極學習前沿信息,以及主動采取行動。
從業者要有自己的想法和魄力,不要只是學習而不實踐,至少要有敢于有嘗試的勇氣。Sora是個非常前沿的工具,如果能和自己的個人價值得到很好的結合,有可能就會脫穎而出。這種科技革新是時代賦予的不可多得的機會。