谷歌版Sora升級(jí)4K高清！一句話控制鏡頭運(yùn)動(dòng)，跑分叫板可靈海螺

作者：量子位 2024-12-17 09:38:00

人工智能新聞

除了顯而易見的清晰度的提升——最高可達(dá)4K分辨率，它能夠忠實(shí)地遵循簡單和復(fù)雜的指令Prompt，并令人信服地模擬現(xiàn)實(shí)世界的物理以及各種視覺風(fēng)格。

OpenAI直播劃水的一天，谷歌版Sora迎來了它的2.0——

Veo 2，根據(jù)文本或圖像生成更為高質(zhì)量的視頻。

從官方介紹中看，此次主要有三個(gè)方面的升級(jí)。

比如分辨率能達(dá)到4K。

能夠理解有關(guān)鏡頭控制的Prompt。

更注重現(xiàn)實(shí)物理世界與人類表情的理解和展示。

在官方賬號(hào)底下，大家都對(duì)這些效果表示了驚嘆：

我真的想谷歌輸?shù)舯荣?，但是谷歌沒有輸。

另外，圖像生成模型Imagen 3也有進(jìn)一步的改進(jìn)。

谷歌版Sora2.0：重新定義質(zhì)量和控制

質(zhì)量和控制，是此次視頻模型升級(jí)的關(guān)鍵詞。

具體體現(xiàn)在它的真實(shí)感和保真度上，比如細(xì)節(jié)、偽影減少等方面都有顯著改進(jìn)。

還有高級(jí)的運(yùn)動(dòng)功能，基于對(duì)物理學(xué)的理解，能夠更高精度的表示運(yùn)動(dòng)。

還能準(zhǔn)確地遵循各種鏡頭控制類的Prompt，比如拍攝風(fēng)格、角度、動(dòng)作以及所有這些的組合。

那么接下來直觀地感受一下效果。

Prompt：特寫鏡頭聚焦于一位女 DJ 的臉部，她美麗、濃密的黑色卷發(fā)勾勒出她的五官，她完全沉浸在音樂中。她閉上雙眼，沉浸在節(jié)奏中，嘴角掛著一絲微笑。當(dāng)她隨著節(jié)拍點(diǎn)頭和搖擺時(shí)，相機(jī)捕捉到了她頭部的細(xì)微動(dòng)作，她的身體本能地隨著耳機(jī)中傳出的音樂而做出反應(yīng)，傳到人群中。淺景深使背景變得模糊。她被鮮艷的霓虹色包圍著。特寫鏡頭強(qiáng)調(diào)了她迷人的氣質(zhì)以及音樂傳遞和超越的力量。

還有是這種集體的蜂群也能刻畫出來。

Prompt：鏡頭輕輕飄過一排排粉刷過的木制蜂箱，嗡嗡作響的蜜蜂在畫面中進(jìn)進(jìn)出出。鏡頭落在站在畫面中央的優(yōu)雅農(nóng)民身上，他潔白的養(yǎng)蜂服在金色的午后陽光下閃閃發(fā)光。他舉起一罐蜂蜜，稍微傾斜以捕捉光線。在他身后，高大的向日葵在微風(fēng)中有節(jié)奏地?fù)u曳，花瓣在溫暖的陽光下閃閃發(fā)光。鏡頭向上傾斜，露出一座復(fù)古的農(nóng)舍，百葉窗是薄荷綠色的，搖曳的樹木在墻上投下斑駁的陰影。用 35 毫米鏡頭在柯達(dá) Portra 400 膠片上拍攝，金色的光線在農(nóng)民的手套、果醬罐和蜂箱的風(fēng)化木材上形成了豐富的紋理。

還可以切換鏡頭，從近景到遠(yuǎn)景，而在鏡頭之下，不管是蜂蜜還是咖啡的泡沫細(xì)節(jié)都有精確地刻畫。

Prompt：太陽在一盤擺放整齊的早餐場景后緩緩升起。濃稠的金色楓糖漿以慢動(dòng)作倒在松軟的煎餅上，每一塊煎餅都散發(fā)出柔軟溫暖的蒸汽云。特寫鏡頭中，脆培根發(fā)出嘶嘶聲，金色油脂的細(xì)小余燼在空中飛舞?？Х纫皂樆男D(zhuǎn)動(dòng)作倒入水晶般透明的杯子中，杯子里充滿了深棕色的咖啡油層。場景結(jié)束時(shí)，相機(jī)俯沖到新鮮切好的橙子上，以令人驚嘆的微距細(xì)節(jié)展示出它明亮多汁的果肉。

那么在根據(jù)人類對(duì)其性能的評(píng)估中，Veo 2 的表現(xiàn)優(yōu)于其他領(lǐng)先的視頻生成模型

在Meta基準(zhǔn)數(shù)據(jù)集 MovieGenBench上，人類參與者觀看了1003個(gè)提示和響應(yīng)的視頻。

結(jié)果顯示，跟市面上的主流視頻生成模型相比，Veo2.0在整體偏好、Prompt指令準(zhǔn)確遵循方面都表現(xiàn)最佳。

值得一提的是，這里除了Sora，國產(chǎn)模型可靈、MiniMax都上桌了。