生成式視頻的下一步是什么
上個月,當OpenAI公布其新的生成式視頻模型Sora時,邀請了一些電影制作人來試用。本周,該公司發布了結果:七部超現實的短片,毫無疑問地表明了生成式視頻的未來即將迅速到來。
首批能將文本轉化為視頻的模型出現在2022年末,來自Meta、谷歌和視頻技術初創公司Runway等公司。這是一個很棒的技巧,但結果是顆粒狀、出現故障,并且只有幾秒鐘長。
快進18個月,Sora的高清、逼真的最佳輸出令人震撼,一些激動的觀察者甚至預言好萊塢的死亡。Runway的最新模型可以生成與大片動畫工作室相媲美的短片。Midjourney和Stability AI,兩家最受歡迎的文本轉圖像模型背后的公司,現在也在致力于視頻領域的研發。
許多公司正在競相利用這些突破來開展業務。大多數公司在探索過程中才逐漸明確這種業務是什么。“當使用這些工具時,我經常會興奮地尖叫‘哇,這太酷了’,”Vyond的首席執行官Gary Lipkowitz說道,Vyond是一家提供點對點,點擊平臺來制作短動畫視頻的公司。“但是你如何在工作中使用它呢?”
無論對這個問題的答案是什么,它都可能徹底改變各種業務,并改變從動畫制作人到廣告商等許多專業人士的角色。對于濫用的擔憂也在增長。廣泛使用生成虛假視頻將使網絡充斥著宣傳和非自愿色情,這比以往任何時候都更容易。我們可以看到這種情況正在發生。問題是,沒有人有一個好的解決方案。
當我們繼續探索未來的前景——無論是好是壞——以下是四個需要考慮的事情。我們還精選了一些制作人使用這項技術制作的最佳視頻,其中包括洛杉磯制作公司Myles的實驗性短片《Somme Requiem》的獨家展示。繼續閱讀,了解人工智能電影制作的發展方向。
1. Sora 只是一個開始
目前,OpenAI 的 Sora 在視頻生成領域遙遙領先于競爭對手。但其他公司也在努力趕上。隨著更多公司完善其技術并開始推出 Sora 的競爭對手,未來幾個月市場將變得極其擁擠。
總部位于英國的初創公司 Haiper 本月剛剛走出隱身狀態。它由前谷歌 DeepMind 和 TikTok 的研究人員在 2021 年創立,他們想要研究稱為神經輻射場或 NeRF 的技術,該技術可以將 2D 圖像轉化為 3D 虛擬環境。他們認為,將快照轉化為用戶可以進入的場景的工具對于制作視頻游戲將會非常有用。
但是,六個月前,Haiper 將重心從虛擬環境轉移到了視頻剪輯上,調整其技術以適應首席執行官 Yishu Miao 認為將比游戲市場更大的市場。“我們意識到視頻生成是最佳方向,”Miao 表示。“對此將會有超高的需求。”
,時長01:21
“Air Head” is a short film made by Shy Kids, a pop band and filmmaking collective based in Toronto, using Sora.
與 OpenAI 的 Sora 類似,Haiper的生成式視頻技術使用擴散模型來管理視覺效果,并使用transformer(類似于 GPT-4 這樣的大型語言模型中的組件,使它們在預測接下來會發生什么方面表現出色)來管理幀之間的一致性。“視頻是數據序列,而transformer 是學習序列的最佳模型,”Miao 表示。
一致性是生成式視頻的一個巨大挑戰,也是現有工具一次僅生成少量視頻的主要原因。用于視頻生成的transformer 可以提高剪輯的質量和長度。不利之處在于,transformer 會編造東西,或者產生幻覺。在文本中,這并不總是明顯的。在視頻中,這可能導致,比如一個具有多個頭的人。保持transformer 在正確軌道上需要大量的訓練數據和成堆的計算機。
這就是為什么由前微軟研究人員創立的 Irreverent Labs 采取了一種不同的方法。與 Haiper 類似,Irreverent Labs 最初是為游戲生成環境,然后轉向全面的視頻生成。但該公司不想通過復制 OpenAI 和其他公司的做法來隨波逐流。“因為那樣的話,這就是一場計算機的戰爭,一個完全的 GPU 戰爭,”Irreverent 的聯合創始人兼首席技術官 David Raskino 表示。“在這種情況下,只有一個贏家,他穿著皮夾克。”(他指的是價值萬億美元的芯片巨頭 Nvidia 的 CEO Jensen Huang。)
與使用transformer 不同,Irreverent 的技術將擴散模型與根據常識物理學(例如球如何彈跳或水如何濺在地板上)來預測下一幀內容的模型相結合。Raskino 表示,這種方法既降低了訓練成本,又減少了幻覺的數量。他說,該模型仍然會產生故障,但它們是物理學的扭曲(比如彈跳的球不遵循平滑曲線),這些問題有已知的數學修復方法可以應用到生成的視頻中。
哪種方法會持久還有待觀察。Miao將今天的技術與 GPT-2 時代的大型語言模型進行了比較。五年前,OpenAI 的突破性早期模型讓人們驚嘆,因為它展示了可能性。但是,該技術需要幾年時間才能成為一個改變游戲規則的技術。
Miao表示,視頻也是如此:“我們都處于山腳下。”
2. 人們會如何利用生成式視頻
視頻是互聯網的主要媒介。YouTube、TikTok、新聞片、廣告:在已有視頻的地方,預計會看到合成視頻的出現。
營銷行業是最熱衷于采用生成技術的行業之一。根據 Adobe 最近在美國進行的一項調查,三分之二的營銷專業人士在工作中嘗試過生成式人工智能,其中超過一半的人表示已經使用該技術制作過圖像。
生成式視頻是下一個目標。一些營銷公司已經發布了短片,以展示技術的潛力。最新的例子是由 Myles 制作的時長 2.5 分鐘的《Somme Requiem》。您可以在 MIT Technology Review 的獨家報道中觀看該影片。
“Somme Requiem” is a short film made by Los Angeles production company Myles. Every shot was generated using Runway's Gen 2 model. The clips were then edited together by a team of video editors at Myles.
《Somme Requiem》描述了1914年第一次世界大戰期間的圣誕節停戰期間被困在雪中的士兵。這部電影由數十個不同的鏡頭組成,這些鏡頭是使用Runway的生成式視頻模型制作的,然后由Myles的人類視頻編輯人員進行拼接、色彩校正,并配以音樂。“未來的敘事方式將是混合工作流程,”創始人兼首席執行官Josh Kahn說道。
Kahn選擇戰時背景是為了表明自己的觀點。他指出,蘋果電視+系列電影《Masters of the Air》耗資2.5億美元,講述的是一群二戰飛行員的故事。彼得·杰克遜的第一次世界大戰紀錄片《They Shall Not Grow Old》的團隊花了四年時間策劃和修復了100多小時的檔案影片。“大多數電影制作人只能夢想有機會在這個類型中講述一個故事,” Kahn說。
“獨立電影制作有點兒式微,”他補充道。“我認為這將會引發令人難以置信的復蘇。”
Raskino也希望如此。“恐怖電影類型是人們測試新事物的地方,嘗試新事物直到它們被打破,”他說。“我認為我們將會看到由四個人在某個地下室里使用人工智能創作的一部轟動的恐怖電影。”
那么,生成式視頻會摧毀好萊塢嗎?還沒有。《Somme Requiem》中的背景鏡頭——空無一人的樹林,荒涼的軍營——看起來很棒。但其中的人物仍然受到了殘缺不全的手指和扭曲的面容的困擾,這是技術的標志。生成式視頻最擅長的是廣角全景或延時特寫,這創造了一種怪異的氛圍,但幾乎沒有行動。如果《Somme Requiem》再長一點,它就會變得乏味。
但是,電影中經常出現場景設定鏡頭。大多數鏡頭只有幾秒鐘長,但拍攝起來可能需要幾小時。Raskino建議,生成式視頻模型很快就可以用于以極低的成本制作這些中間鏡頭。這也可以在制作的后期階段實時完成,而不需要重新拍攝。
Gen Digital 的首席技術官Michal Pechoucek,該公司是一家網絡安全巨頭,旗下擁有包括Norton和Avast在內的一系列殺毒軟件品牌,表示同意。“我認為技術的發展方向就是這樣,”他說。“我們將看到許多不同的模型,每個模型專門針對電影制作的某個領域進行訓練。這些只是由有才華的視頻制作團隊使用的工具。”
我們還沒有完全達到這一點。生成式視頻的一個重大問題是用戶對輸出的控制能力有限。生成靜態圖像可能會命中或失誤;生成幾秒鐘的視頻甚至更加風險。
“現在還很有趣,你會有恍然大悟的時刻,”Miao說道。“但生成完全符合你要求的視頻是一個非常困難的技術問題。從一個單一提示生成長而一致的視頻還有一段路要走。”
這就是為什么Vyond的Lipkowitz認為,這項技術對大多數企業客戶來說尚未準備好。他說,這些用戶對視頻外觀的控制想要比當前工具給予的更多。
全球數千家公司,包括約65%的《財富》500強企業,使用Vyond的平臺為內部溝通、培訓、營銷等創建動畫視頻。Vyond利用了一系列生成模型,包括文本到圖像和文本到語音,但提供了一個簡單的拖放界面,讓用戶一步一步手動組合視頻,而不是一鍵生成完整的剪輯。
運行生成模型就像擲骰子一樣,Lipkowitz說。“對于大多數視頻制作團隊來說,這是一個明確的拒絕,特別是在企業部門,其中一切都必須完美無瑕并符合品牌標準,”他說。“如果視頻出現問題——也許人物有太多手指,或者可能有一個顏色錯誤的公司Logo——那就不幸了,這就是生成AI的工作原理。”
解決方案?更多的數據,更多的訓練,不斷重復。“我希望我能指向一些復雜的算法,”Miao說道。“但不,這只是更多的學習。”
3. 雖然誤導信息并不是新鮮事,但深度偽造視頻會使情況變得更糟
多年來,網絡誤導信息一直在破壞我們對媒體、制度和彼此的信任。一些人擔心,將虛假視頻加入混合中會摧毀我們留下的任何共同現實的支柱。
“我們正在用不信任、困惑、恐懼和仇恨取代信任,”Pechoucek說。“沒有基本事實的社會將會墮落。”
Pechoucek特別擔心深度偽造視頻在選舉中的惡意使用。例如,在去年的斯洛伐克選舉中,攻擊者分享了一個虛假視頻,顯示領先的候選人討論了操縱選民的計劃。這段視頻質量低,很容易識別為深度偽造。但Pechoucek認為這已足以扭轉結果,使其有利于另一位候選人。
“Adventurous Puppies” is a short clip made by OpenAI using with Sora.
Blackbird AI是一家跟蹤和管理網絡誤導信息傳播的公司,該公司的戰略和創新團隊負責領導。該公司的約翰·維辛格認為,當假視頻融合真實和虛假鏡頭時,假視頻會最具說服力。拿總統喬·拜登走過舞臺的兩段視頻為例。一段視頻中他摔倒了,而另一段沒有。誰能說哪個是真實的?
“假設某個事件確實發生了,但呈現給我的方式略有不同,”維辛格說。“這可能會影響我的情感反應。”正如Pechoucek所指出的那樣,一個假視頻甚至不需要很好,就足以產生影響。維辛格說,一個符合現有偏見的糟糕偽造視頻將比一個精心制作但與現實不符的偽造視頻造成更大的傷害。
這就是為什么Blackbird專注于誰與誰分享什么。在某種意義上,某事物是真是假并不像它來自何處以及它如何傳播那樣重要,維辛格說。他的公司已經追蹤低技術誤導信息,例如在社交媒體上展示真實圖像但上下文不明確的帖子。生成技術使情況變得更糟,但是人們以誤導的方式呈現媒體的問題,無論是有意還是無意,都不是新問題,他說。
如果將機器人混入其中,在社交網絡上分享和推廣誤導信息,情況會變得混亂。只要知道有假媒體存在,就會在惡意討論中播下懷疑的種子。維辛格說:“你可以看到,很快就可能變得不可能再分辨出什么是合成的,什么是真實的了。”
4、我們正面臨著一個新的網絡現實
偽造品很快將無處不在,從虛假信息宣傳活動,到廣告片,再到好萊塢大片。那么,我們該如何區分現實和幻想呢?有一系列解決方案,但單獨任何一個都不足以解決問題。
科技行業正在研究這個問題。大多數生成工具嘗試強制執行某些使用條款,比如防止人們創建公眾人物的視頻。但是有方法可以繞過這些過濾器,而開源版本的工具可能帶有更寬松的政策。
公司還在制定AI生成媒體的水印標準和檢測工具。但并非所有工具都會添加水印,而且水印可以從視頻的元數據中去除。也不存在可靠的檢測工具。即使這樣的工具有效,它們也將成為一場追趕模型進步的貓鼠游戲的一部分,這些模型旨在監管這些工具。
像X和Facebook這樣的在線平臺在內容管理方面的記錄很差。一旦問題變得更加棘手,我們不應指望它們能夠做得更好。Miao曾在TikTok工作,在那里他幫助構建了一個內容管理工具,用于檢測違反TikTok使用條款的視頻上傳。即使是他也對即將發生的事情感到擔憂:“真的存在著危險,”他說。“不要相信你在筆記本電腦上看到的東西。”
Blackbird開發了一個名為Compass的工具,它可以用來對文章和社交媒體帖子進行事實核查。將鏈接粘貼到該工具中,一個大型語言模型將從可信的在線來源(維辛格說這些始終可以審查)中生成一個簡短摘要,為鏈接的材料提供一些背景信息。其結果與X、Facebook和Instagram等網站上有時會附加到有爭議的帖子上的社區注釋非常相似。該公司設想Compass為任何內容生成社區注釋。“我們正在努力實現這一目標,”維辛格說。
但是,將鏈接放入事實核查網站的人已經相當精明了,而許多其他人可能不知道這樣的工具存在,或者可能不愿相信它們。誤導信息往往也比任何隨后的更正傳播得更廣泛。
與此同時,人們對這究竟是誰的問題存在分歧。Pechoucek表示,科技公司需要開放其軟件,以促進圍繞安全和信任的競爭。這也將使他這樣的網絡安全公司能夠開發第三方軟件來監管這項技術。他說,這就是30年前Windows出現惡意軟件問題時發生的事情:“微軟允許殺毒軟件公司進入幫助保護Windows。結果,網絡世界變得更安全了。”
但是Pechoucek并不太樂觀。“技術開發者需要以安全為首要目標來構建他們的工具,”他說。“但更多的人考慮如何使技術更強大,而不是擔心如何使其更安全。”
Made by OpenAI using Sora.
在科技行業有一個常見的宿命論的說法:變革已經到來,我們必須應對。“生成式人工智能不會被取消,”Raskino說。“這可能不太受歡迎,但我認為這是真的:我認為科技公司無法承擔全部責任。歸根結底,對任何技術的最佳防御是一個受過良好教育的公眾。沒有捷徑。”
Miao也同意。“大規模采用生成技術是不可避免的,”他說。“但這也是整個社會的責任。我們需要教育人們。”
“技術會不斷發展,我們需要為這種變化做好準備,”他補充道。“我們需要提醒我們的父母、朋友,他們在屏幕上看到的東西可能并不真實。”他說,這對于老一輩人尤其重要:“我們的父母需要意識到這種危險。我認為每個人都應該共同努力。”
我們需要迅速共同努力。一個月前,Sora問世時,科技界對生成式視頻的迅速發展感到震驚。但絕大多數人甚至不知道這種技術的存在,維辛格說:“他們肯定不了解我們所處的趨勢線。我認為這將會令世界大為震驚。”
