OpenAI被偷家,谷歌Veo 2反超Sora
視頻生成領先 OpenAI 了?
今天是個好日子,至少谷歌這么想。幾個小時前,該公司一鍵三連,一口氣發布了兩款視覺生成模型和一個工具:
- Veo 2:視頻生成模型,可使用文本或圖像 prompt 生成高真實感、高質量的視頻;
- Imagen 3:文生圖模型,可更忠實地遵從提示詞,實現更加豐富的細節和紋理渲染;
- Whisk:圖生圖工具,基于 Imagen 3 與 Gemini 的視覺理解和描述能力打造,能讓用戶更加方便地調整圖像的場景、風格和物體。
其中,Veo 2 可說是直接引爆了整個社交網絡。從早期用戶發布的生成結果以及反饋來看,Veo 2 的生成質量明顯超過了當前最佳的 Sora 等模型。一問世便是當世第一,似乎完全可以囂張地喊一聲:「還有誰?」
谷歌 CEO Sundar Pichai 介紹 Veo 2 的推文
據介紹,Veo 2 可以創建 2 分鐘以上長度的 4k 分辨率視頻,也能理解提示詞中的相機控制指令(比如廣角鏡頭、POV 和無人機鏡頭),還能重建出符合真實世界的物理交互和人臉表情。
但也必須指出,目前這只是一個理論上的優勢。在谷歌的實驗性視頻制作工具 VideoFX 中,Veo 2 目前只提供分辨率上限為 720p、長度為 8 秒的視頻生成服務。(而目前的 Sora 可以制作高達 1080p、20 秒長的視頻。)
盡管如此,Veo 2 現有的表現已經足夠驚艷了其表現是如此之好,以至于一心推介自家 Grok 的馬斯克也跑來贊美了一句。
為了佐證 Veo 2 確實優秀,谷歌還做了一個基于人類評估者的對比評估,簡單來說就是讓人類評估者看不同模型基于同一提示詞生成的視頻,然后判斷自己更喜歡哪一個視頻。他們對比了 Meta Movie Gen、可靈 1.5、Minimax 和 Sora Turbo。參與者觀看了 1003 條提示詞及相應視頻。
在整體偏好上,Veo 2 的優勢非常明顯,被另一個對比模型勝過的概率不超過 33%。
而在指令遵從度上,Veo 2 的表現依舊強勢。
令人意外的反倒是 Sora Turbo,其整體偏好和指令遵從表現是這幾個模型里面最差的。Sora 要想「挽回面子」,可能還得看以后的滿血版了。
Veo 2 表現驚艷
話不多說,看看 Veo 2 的表現,我們或許就能理解為什么它在大眾評審中能夠壓倒性地戰勝之前的明星視頻生成模型。
首先是對物理世界的理解力大大提高。如果不說是 AI 生成的,水下的波紋、光影,狗狗潛水時的動作協調性,都讓人感覺如此真實,仿佛眼前的一切都是手持相機拍出來的,簡直分不出來。
雖然儀表盤上的字不是完美,但我們可以看到,方向盤向左轉的時候,整體畫面也有一個左移,之后鏡頭向上從車窗搖到街道。
做到這種和主畫面保持強一致性的搖鏡頭,其實非常難,每個細節都需要精確控制,確保鏡頭移動時畫面中的物體位置和運動協調一致。
只有提升對真實世界物理運動規律的理解,才能做到這點,而 Veo 2 在這方面表現得尤為出色。
除此之外,Veo 2 的另一個亮點就是它生成的人類表情更加真實。
拿相似的 prompt 去測試其他模型,想實現這種自然又細膩的陶醉微表情,不失真、不鬼畜,試過才知道有多難。
還有,這畫面簡直就像從紀錄片里截取的一幕。鏡頭里,一個養蜂的男人在蜂群中忙碌,Veo 2 在生成這一場景時,真的是突破了不少難關。
蜜蜂群體飛行不僅要表現出自然的協調感,還得和背景、光影無縫對接,避免出現卡頓或不自然的分布。但 Veo 2 把這些復雜的細節都處理得恰到好處,蜂群飛舞的每一刻都像是活生生的,「AI 味」已經很淡了。
DeepMind 表示,雖然視頻模型經常出現「幻覺」,展示不必要的細節(例如多余的手指或額外的物體),但 Veo 2 產生這些細節的頻率較低,模型的輸出更加逼真。
當然,作為一款 SOTA 視頻生成模型,光能生成擬真視頻可不夠。從官方以及網友分享的生成結果看,Veo 2 在生成幻想和動畫內容方面的表現也同樣非常出色。
提示詞:A meeting of a lion, a bear and a giraffe, all of them wearing suits. Photorealistic, cinematic. 來自 X @hhm
提示詞:a sitcom tv show about potatoes,來自谷歌研究科學家 @babaeizadeh
Veo 2 還讓創作者可以輕松實現以前需要復雜后期才能完成的視覺效果。比如,它可以讓這個運動的立方體穩定地切換材質,這個畫面讓人來做,看起來就很難,換 AI 來做,其實一點也沒變簡單。
Veo 2 不僅要解決實時追蹤的問題,確保在物體快速移動時也能精準捕捉位置和形態,僅需 Prompt 就能置換材質。最厲害的是,它能保證在多次連續變換過程中畫面始終流暢自然,不會出現抖動或錯位。
Veo 2 的功能已經被加入到 Google Labs 視頻生成工具 VideoFX 中,并擴大了可訪問的用戶數量。谷歌表示,計劃明年將 Veo 2 擴展到 YouTube Shorts 和其他產品上。
提示詞:A broccoli wearing a leather jacket and carrot wearing a tank top having a steak dinner,來自谷歌研究科學家 @RubenEVillegas
不過 Veo 2 現在還未正式開放,需要填表排隊,等待正式上線。
- 排隊鏈接:https://labs.google/fx/tools/video-fx
OpenAI 連開直播 12 天,雖然賺足了流量,但從開播至今干貨越來越少,可謂噱頭大于實質。
而之前谷歌一直被 OpenAI 狙擊,這次終于迎頭反擊。
雪上加霜的是,OpenAI Sora 的項目負責人 Tim Brooks 也在兩個月前選擇了跳槽至 DeepMind。
按照目前雙方技術迭代的速度和質量來看,或許就像網友們所預測的:「谷歌明年就會把 OpenAI 甩得連尾氣都吃不上了」。
參考內容:
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/。