Sora火爆上線系統秒癱,奧特曼直播第三更網友震翻!20秒1080p拍大片再近AGI
OpenAI直播第三彈,Sora終于現身了!
圖片
才一上線,網頁就已經瞬間擠爆?,F在,所有新用戶注冊已經緊急暫停(不定期)。
圖片
奧特曼與Sora團隊負責人Bill Peebles、研究副總Aditya Ramesh,以及Rohan Sahai、Joey Flynn開啟了短短20分鐘的在線直播。
圖片
相較于2月的原版Sora,他們今天帶來了更高級的加速版Sora Turbo。
Sora能生成任意長寬比的視頻,分辨率從480p到1080p,時長從5秒到20秒,還可以一次生成多個方向的視頻版本,讓我們選擇其中最理想的一個。
包括文本到視頻、圖像到視頻、視頻到視頻的功能。
這次,OpenAI著重介紹了Sora的幾項功能:Remix(重混)、Re-cut(重新剪輯)、Storyboard(故事板)、Loop(循環)、Blend(混合)以及Style presets(風格預設)。
所有新功能一覽:
OpenAI專為Sora設計的全新UI
圖片
圖片
圖片
圖片
圖片
等了大半年,Sora終于不再只是藝術家們的工具,現在所有的ChatGPT Plus/Pro用戶皆可使用。
唯一區別是,使用限制不同:Plus用戶每個月有50次生成額度,Pro用戶可以獲得500次快速生成額度(如果選擇的分辨率更高,則次數更少)或是無限次慢速生成額度。
圖片
奧特曼本人表示,對我來說,Sora最令人興奮的一點是,它使得與他人共作變得如此容易。這感覺像是一個有趣的全新事物!
它就像視頻領域的GPT-1,現在還處于初期階段,但我已經覺得這個信息流非常吸引人。
圖片
Sora團隊研究者自豪地表示,突破視覺生成的界限,就是在機器學習和人機交互方面取得突破。
圖片
誠如這條讀者評論所言:Sora之所以令人激動,不止是因為我們現在在哪里;更重要的,是想象我們的前進方向??梢源_信,我們正在經歷一個不平凡的年代。
圖片
直播20分鐘,全程高能
在Library中,我們可以查看視頻的所有版本,通過幾種不同的方式對此處的視圖進行切片。
圖片
現場,幾位工作人員給我們實測了一把Sora的文生視頻功能。
在輸入「長毛猛犸象走過沙漠景觀」的prompt,等待一段時間后,四個視頻就出現了,我們可以選擇最理想的那個。
圖片
甚至,我們可以把猛犸象變成「機械猛犸」。
圖片
只需要通過Remix描述希望視頻怎樣更改(無論是大的更改,還是希望背景中多一些風或者沙),接下來的工作就可以直接交給Sora。
故事版功能,可以讓我們使用時間軸,在整個序列中產生一個包含多個動作的視頻。
在其中,我們可以描述環境、角色、想要在特定點發生的動作。在prompt中我們寫得越少,Sora就會填充得越多,反之亦然。
比如,我們想要一個美麗白鶴站在小溪里的場景。
在時間軸的開頭,我們可以直接設置場景:開始白鶴站著,然后將頭進入水中,捉出一條魚。
在幾組動作中,需要給Sora足夠的時間來連接這些想法
可以看到,Sora非常準確地理解了研究者的想法。
圖片
我們還可以使用Re-cut,將其中的片段剪切到新的故事板中,在留白的地方創建其余的片段,比如一個結尾。
圖片
接下來是另一個功能。
上傳一個燈塔的圖像后,它被放入第一張卡片,然后Sora創建了一個全新的卡片。
厲害的地方來了!Sora已經看過了該圖像,并且還添加進了關于我們希望圖像怎樣動的理解。
圖片
最終的視頻生成效果果然非常好。
圖片
最后,研究者再給我們展示了一個大驚喜。
通過Blend功能,Sora甚至還能將兩個場景完美地混到同一個視頻中,可以理解為這某種維度上粉碎兩個視頻,然后組成一個新的。
研究者強調說,這是他此前在其他AI視頻從未見過的功能!
比如,把猛犸象和機器象混合。
圖片
Sora功能全面介紹
足見,Sora具備了令人印象深刻的視頻生成能力。
利用Sora,我們不僅可以制作分辨率最高1080p、時長最長 20 秒的各種格式視頻,并且還可以通過文本生成新內容,或者增強、重混和融合自己的素材。
此外,通過「精選」和「最新」來查看社區的創作,也可以為自己的新想法提供靈感。
圖片
圖片
這款模型基于DALL·E和GPT模型豐富的經驗而打造,可以為用戶提供更強大的講故事和創意表達工具。
與GPT模型類似,Sora使用Transformer架構,解鎖了卓越的擴展性能。
此外,它采用了擴散模型技術,從看似靜態噪聲的基礎視頻開始,逐步去除噪聲,最終生成完整視頻。
圖片
值得注意的是,Sora解決了視頻生成中的一個關鍵挑戰——主體一致性。
通過讓模型同時預測多個幀,確保即使主體暫時消失在視野之外,也能保持一致性。
在數據標注上,Sora核心秘密武器便是DALL·E 3——為視覺訓練數據生成高度詳細的描述性標注。
因此,訓練后的Sora能夠以前所未有的精度,遵循用戶在生成視頻時的文本指令。
Sora的能力遠遠超出了簡單文生視頻,它還能將靜態圖變身動畫,添加細節。
它還可以擴展現有視頻,或填充缺失的幀。
更令人興奮地是,Sora作為理解和模擬真實世界的模型基礎,被OpenAI視為邁向AGI的關鍵里程碑。
除了20分鐘發布會上的內容,OpenAI在官網上,也放出了新功能的詳細介紹和示例。
Storyboard(故事板)
帶有關鍵幀的時間軸,是Sora非常亮眼的新功能。在個人時間軸上,可以組織和編輯獨特的視頻序列。
注意:不要上傳帶人物的圖像,否則無法生成視頻
圖片
A vast redlandscape with adocked spaceship in the distance
廣袤的紅色星球景觀中,一艘銀光閃閃的宇宙飛船靜靜停靠在遠處
圖片
Looking out frominside thespaceship, a spacecowboy standscenter frame
透過宇宙飛船的舷窗向外眺望,一位星際牛仔挺立在畫面中央
圖片
Detailed close up view of astronaut'seyes framed by aknitted fabricmask
特寫鏡頭下,宇航員深邃的雙眼透過織物面罩的框架凝視著前方
Remix(重混)
這個功能,可以讓我們替換、刪除或重新想象視頻中的元素。
比如,我們先生成一個場景——打開通向圖書館的大門。
圖片
然后,通過Remix把門更換成法式的門。
圖片
再把圖書館變成一艘宇宙飛船。
圖片
接著去掉宇宙飛船,加入叢林場景。
圖片
最后把叢林換成月球表面。
圖片
Re-cut(重新剪輯)
這個功能,能讓我們找到并且選中最佳幀,向任一方向延伸。
比如,選出這段「水獺玩球」視頻中自己最心儀的那幾幀,Sora可以生成在它之前或者之后的幀。
圖片
Loop(循環)
通過這個功能,Sora可以修剪并創建無縫的重復視頻。
Sora會在開頭和結尾中添加大量幀,來將它們連接起來。
圖片
圖片
Blend(混合)
通過這個功能,可以把兩個完全不同的視頻,融合為一個無縫剪輯。
Style presets(風格預設)
這個功能,可以讓我們充分發揮想象力,創建想要的風格。
比如原始視頻,是兩頭猛犸象在雪地里走路的場景。
我們可以將它轉換為紙工藝品風。
Earthy tones with muted pastels and pops of color. Soft, diffused lighting enhances handcrafted textures. Everything—characters, objects, and scenery—is transformed into cardboard and paper, complete with visible creases and folds
以大地色調為基礎,配以柔和的粉彩色,并點綴上鮮艷的色彩。柔和的環境光勾勒出精致的手工質感。畫面中從人物、物件到背景的一切元素,都被重塑成紙板與紙張的質地,呈現出自然的折痕與起伏
檔案風。
Shot on 100t film, the image quality is grainy and high contrast, with shallow depth of field and cinematic look, epic and dramatic shot, very nostalgic
采用100T膠片拍攝,呈現獨特的顆粒質感和高對比度效果,配合淺景深營造電影感,畫面富有史詩感和戲劇性,散發濃郁的懷舊氛圍
黑白電影風。
圖片
Shot in high-contrast black and white with deep shadows and selective highlights. Features low-key chiaroscuro lighting, hard shadows, and venetian blind effects. Moody, mysterious, and suspenseful, with a vintage cinematic vibe
采用高反差黑白攝影手法,營造出深邃的暗部和精準的亮部層次。運用低調的明暗對比打光,呈現出銳利的陰影效果和威尼斯百葉窗光影。整體氛圍充滿憂郁、神秘和懸疑感,完美展現復古電影的美學
一大波效果
OpenAI科學家Noam Brown表示,「Sora,是scale力最直觀的證明之一」。
圖片
OpenAI Sora研究員Will Depue展示了一些生成虛構歷史影像的demo。
圖片
圖片
圖片
found footage of Genghis Khan on the steppe with his warriors in the 1200s
13世紀成吉思汗與他的戰士們在草原上的歷史影像片段
found footage from Kyoto in the 1600s
17世紀日本京都的歷史影像記錄
OpenAI COP Kevin Weil總結了今天的發布,并給了一個海馬泡泡的演示。
圖片
圖片
小狗超人在觀景臺上瞭望。
圖片
圖片
一部分網友也迫不及待開始試用了,比如秋葉原的十字路口飄著雪花。
圖片
圖片
圖片
一位自信地走向鏡頭的女人。
圖片
圖片
woman confidently walking towards the camera, there are paparazzis behind her, tokyo high high contrast background
一位女性自信地迎著鏡頭走來,身后跟隨著一群狗仔隊記者,背景是東京,光影對比強烈
視頻為什么如此重要?
今年2月,OpenAI搶先推出了自家首個視頻生成模型Sora。
隨即,他們又放出了首批訪問者利用Sora做出的7個創意的演示,還有一支由Sora制作的MV——Worldweight,引全網圍觀。
直播開場,奧特曼本人介紹了,視頻對于OpenAI如此重要的原因,主要有三點。
第一,對于OpenAI而言,Sora不僅僅是一項技術,更是一種賦能創意人士的工具。在公司的文化基因中,用AI激發人類創造力,也很重要。
通過Sora,OpenAI看到了一種全新的協作模式:AI和人類共同創造,開啟了富有想象力的可能性。
早期測試中出現的創新性互動,預示著AI創意工具將極大地改變我們思考和創意的方式。
其次,文本曾是人機交互主要形式,但OpenAI堅信,這遠遠不夠。
僅僅通過文字來理解和表達,我們將會錯過豐富的信息維度。
視頻,作為一種更加立體、生動的交互方式,能夠傳遞更多情感、語境、細節。
最后,Sora之于OpenAI,不僅僅是一個視頻生成工具,更是AGI路線圖上的重要里程碑。
通過學習和生成視頻,AI將獲得更豐富、更深入的世界理解。
讓我們拭目以待,看看Sora將為人類世界帶去怎樣的驚喜。
參考資料:https://sora.com/