成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy 精華

發(fā)布于 2024-12-30 10:24
瀏覽
1收藏

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2406.03520
項(xiàng)目鏈接:https://github.com/Hritikbansal/videophy

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題
隨著互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)預(yù)訓(xùn)練的進(jìn)展,文本生成視頻(T2V)模型能夠生成高質(zhì)量的視頻,涵蓋各種視覺(jué)概念、合成逼真的動(dòng)作以及渲染復(fù)雜的物體。然而,目前的T2V模型在生成的視頻中缺乏物理常識(shí),尤其是在模擬真實(shí)世界活動(dòng)時(shí),無(wú)法準(zhǔn)確遵循物理法則。盡管已有一些評(píng)估視頻質(zhì)量的方法(如VBench),但這些方法并未特別關(guān)注生成視頻的物理合法性。

提出的方案
VIDEOPHY,一個(gè)用于評(píng)估生成視頻是否遵循物理常識(shí)的基準(zhǔn)。VIDEOPHY基于人類的直觀物理理解(如水倒入杯中,水位會(huì)上升)來(lái)判斷生成的視頻是否符合物理法則。該數(shù)據(jù)集包含了688個(gè)經(jīng)過(guò)人工驗(yàn)證的高質(zhì)量提示,涵蓋了不同物質(zhì)狀態(tài)之間的互動(dòng)(如固體-固體、固體-液體、液體-液體)。通過(guò)這些提示,從12個(gè)不同的T2V模型中生成視頻,并對(duì)其進(jìn)行人類評(píng)估,評(píng)估標(biāo)準(zhǔn)包括語(yǔ)義符合性(視頻是否遵循文本提示)和物理常識(shí)(視頻是否遵循物理法則)。

應(yīng)用的技術(shù)

  • 大語(yǔ)言模型:用于生成描述不同物質(zhì)狀態(tài)之間互動(dòng)的候選提示。
  • 物理仿真:用于標(biāo)注生成的提示在物理仿真中呈現(xiàn)的復(fù)雜性。
  • VIDEOCON-PHYSICS:一種用于評(píng)估生成視頻的自動(dòng)化工具,能夠通過(guò)用戶查詢來(lái)評(píng)估視頻的語(yǔ)義符合性和物理常識(shí)。

達(dá)到的效果

  • 基準(zhǔn)測(cè)試:VIDEOPHY基準(zhǔn)測(cè)試揭示,當(dāng)前的T2V生成模型(如CogVideoX-5B)在遵循文本和物理法則方面表現(xiàn)較差,最佳模型僅在39.6%的實(shí)例中生成符合要求的視頻。
  • 模型表現(xiàn)分析:通過(guò)詳細(xì)的定性分析,發(fā)現(xiàn)現(xiàn)有模型在生成需要固體-固體交互(如球彈跳或錘擊釘子)的視頻時(shí)尤其困難。模型往往難以準(zhǔn)確識(shí)別物體并理解其材質(zhì)屬性,這是生成物理合理動(dòng)態(tài)的關(guān)鍵。
  • 自動(dòng)化評(píng)估工具:VIDEOCON-PHYSICS能有效評(píng)估生成視頻的語(yǔ)義符合性和物理常識(shí),且在未見(jiàn)過(guò)的提示上表現(xiàn)優(yōu)異,較現(xiàn)有評(píng)估工具提高了9個(gè)點(diǎn)的語(yǔ)義符合性和15個(gè)點(diǎn)的物理常識(shí)評(píng)估。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

VIDEOPHY 數(shù)據(jù)集

數(shù)據(jù)集VIDEOPHY旨在為視頻生成模型中的物理常識(shí)提供一個(gè)可靠的評(píng)估基準(zhǔn)。該數(shù)據(jù)集根據(jù)以下指南進(jìn)行策劃:

  • 涵蓋廣泛的日?;顒?dòng)和物體(例如,滾動(dòng)物體、向杯中倒液體);
  • 不同物質(zhì)類型之間的物理交互(例如,固體-固體或固體-液體交互);
  • 在圖形仿真下渲染物體和動(dòng)作的感知復(fù)雜性。

例如,番茄醬遵循非牛頓流體動(dòng)力學(xué),比水(遵循牛頓流體動(dòng)力學(xué))更難用傳統(tǒng)流體仿真器建模和仿真。在收集指南下,制定了一份文本提示列表,將用于為文本到視頻生成模型提供條件。遵循下面三階段流程來(lái)創(chuàng)建數(shù)據(jù)集。

LLM 生成的提示(階段 1)
在這里,查詢一個(gè)大型語(yǔ)言模型,在案例中是 GPT-4,生成一千個(gè)候選提示,描述現(xiàn)實(shí)世界的動(dòng)態(tài)。由于大多數(shù)現(xiàn)實(shí)世界的動(dòng)態(tài)涉及固體或流體,將這些動(dòng)態(tài)大致分類為三類:固體-固體交互、固體-液體交互和液體-液體交互。具體而言,考慮流體動(dòng)力學(xué)中無(wú)粘性流體和粘性流體的情況,代表性例子分別為水和蜂蜜。


另一方面,發(fā)現(xiàn)固體表現(xiàn)出更多樣化的本構(gòu)模型,包括但不限于剛體、彈性材料、沙子、金屬和雪??偟膩?lái)說(shuō),GPT-4 生成 500 個(gè)關(guān)于固體-固體和固體-液體交互的候選提示,以及 200 個(gè)關(guān)于液體-液體交互的候選提示。

人工驗(yàn)證(階段 2)
由于大語(yǔ)言模型生成的提示可能不符合我們的輸入查詢,進(jìn)行人工驗(yàn)證步驟,以過(guò)濾掉不合格的生成。作者進(jìn)行人工驗(yàn)證,確保提示的質(zhì)量和相關(guān)性,遵循以下標(biāo)準(zhǔn):

(1)提示必須清晰且易于理解;
(2)提示應(yīng)避免過(guò)度復(fù)雜性,例如物體過(guò)于多樣或動(dòng)態(tài)過(guò)于復(fù)雜;
(3)提示必須準(zhǔn)確反映預(yù)期的交互類別(例如,固體-液體或液體-液體動(dòng)態(tài)中提到的流體)。


最終,有 688 個(gè)經(jīng)過(guò)驗(yàn)證的提示,其中289個(gè)是關(guān)于固體-固體交互,291個(gè)是關(guān)于固體-液體交互,108個(gè)是關(guān)于液體-液體交互。提示涵蓋了廣泛的物質(zhì)類型和物理交互,這些在現(xiàn)實(shí)生活和圖形學(xué)領(lǐng)域中都很常見(jiàn)。物質(zhì)類型包括簡(jiǎn)單的剛體、可變形體、薄殼、金屬、斷裂、奶油、沙子等。接觸處理也很豐富,因?yàn)樗谏鲜鏊胁牧系慕换?。?shù)據(jù)質(zhì)量對(duì)于評(píng)估基礎(chǔ)模型至關(guān)重要。例如,Winoground(400個(gè)示例)、Visit-Bench(500個(gè)示例)、LLaVA-Bench(90個(gè)示例)和Vibe-Eval(269個(gè)示例)因其高質(zhì)量而廣泛用于評(píng)估視覺(jué)-語(yǔ)言模型,盡管其規(guī)模有限。鑒于人工驗(yàn)證需要大量專家時(shí)間且在預(yù)算內(nèi)不可擴(kuò)展,優(yōu)先考慮數(shù)據(jù)質(zhì)量,以評(píng)估 T2V 模型。

困難度注釋(階段 3)
為了深入了解視頻生成的質(zhì)量,進(jìn)一步為數(shù)據(jù)集中的每個(gè)實(shí)例注釋了感知的困難度。請(qǐng)兩位經(jīng)驗(yàn)豐富的圖形學(xué)研究人員(物理仿真領(lǐng)域的高級(jí)博士生)獨(dú)立地根據(jù)他們對(duì)使用最先進(jìn)物理引擎模擬提示中物體和動(dòng)作的復(fù)雜性的感知,將每個(gè)提示分類為簡(jiǎn)單(0)或困難(1)。


隨后,對(duì)于不到 5% 的實(shí)例,研究人員討論并達(dá)成一致判斷。仿真的困難度主要受到模型復(fù)雜性的影響,而模型復(fù)雜性根據(jù)材料的類型而有所不同。例如,可變形體比剛體更具建模挑戰(zhàn),因?yàn)樗鼈冊(cè)谕饬ψ饔孟聲?huì)改變形狀,從而導(dǎo)致更復(fù)雜的偏微分方程(PDE)。相比之下,剛體保持其形狀,從而生成更簡(jiǎn)單的模型。另一個(gè)關(guān)鍵因素是求解這些方程的數(shù)值難度,尤其是當(dāng) PDE 中涉及高階項(xiàng)時(shí),材料的速度會(huì)增加求解難度。因此,移動(dòng)較慢的材料通常比移動(dòng)較快的材料更容易進(jìn)行仿真。我們注意到,困難度的評(píng)估是基于每個(gè)類別(例如,固體-固體、固體-液體、液體-液體),并不能跨類別進(jìn)行比較。下表 1 中展示了生成提示的示例。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

數(shù)據(jù)分析
細(xì)粒度的元數(shù)據(jù)有助于全面理解基準(zhǔn)數(shù)據(jù)集。下表 2 中呈現(xiàn)了 VIDEOPHY 數(shù)據(jù)集的主要統(tǒng)計(jì)信息。值得注意的是,使用多種生成模型為數(shù)據(jù)集中的提示生成了 11330 個(gè)視頻。此外,平均提示長(zhǎng)度為 8.5 個(gè)詞,表明大多數(shù)提示都是直接的,并且不會(huì)通過(guò)復(fù)雜的措辭使分析變得過(guò)于具有挑戰(zhàn)性。數(shù)據(jù)集包括 138 個(gè)在提示中定義的獨(dú)特動(dòng)作。下圖 3 可視化了 VIDEOPHY 提示中使用的根動(dòng)詞和直接名詞,突出顯示了動(dòng)作和實(shí)體的多樣性。因此,本文的數(shù)據(jù)集涵蓋了廣泛的視覺(jué)概念和動(dòng)作。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

評(píng)估

評(píng)估指標(biāo)

盡管人類可以在多個(gè)視覺(jué)維度上評(píng)估視頻,但主要關(guān)注模型對(duì)提供的文本的遵循程度和物理常識(shí)的融合。這些是條件生成模型必須最大化的關(guān)鍵目標(biāo)。多個(gè)視頻特征,如物體運(yùn)動(dòng)、視頻質(zhì)量、文本遵循、物理常識(shí)、主體與物體的時(shí)間一致性等,通常是相互交織的。人類做決策時(shí),很難分解這些因素的影響。然而,逐一聚焦每個(gè)方面可以提供模型在特定維度上的全面表現(xiàn)。

在本研究中,重點(diǎn)關(guān)注物理常識(shí)和語(yǔ)義遵循。此外,獲取人類判斷的方式有多種,例如密集反饋和稀疏反饋。密集反饋雖然提供了關(guān)于模型錯(cuò)誤的詳細(xì)信息,但它很難獲取且可能存在校準(zhǔn)不準(zhǔn)的問(wèn)題。考慮到二元判斷的簡(jiǎn)單性及其在文本到圖像生成模型中的廣泛應(yīng)用],本文采用二元反饋(0/1)來(lái)評(píng)估生成的視頻。本文實(shí)驗(yàn)將展示,二元反饋能夠有效地突出模型在不同物體交互和任務(wù)復(fù)雜度層級(jí)中的質(zhì)量差異。

語(yǔ)義遵循(SA)
該指標(biāo)評(píng)估文本提示是否在生成的視頻幀中語(yǔ)義對(duì)齊,測(cè)量視頻與文本的對(duì)齊程度。具體來(lái)說(shuō),它評(píng)估視頻中的動(dòng)作、事件、實(shí)體及其關(guān)系是否被正確表現(xiàn)(例如,提示“水倒入玻璃杯”對(duì)應(yīng)的生成視頻中,水流入玻璃杯)。在本研究中,我們對(duì)生成的視頻進(jìn)行語(yǔ)義遵循注釋,表示為 SA = {0, 1}。其中,SA = 1 表示文本提示在生成的視頻中有語(yǔ)義基礎(chǔ)。

物理常識(shí)(PC)
該指標(biāo)評(píng)估所描述的動(dòng)作和物體狀態(tài)是否遵循現(xiàn)實(shí)世界中的物理定律。例如,水流入玻璃杯中時(shí),水位應(yīng)該上升,遵循質(zhì)量守恒定律。在本研究中,我們對(duì)生成的視頻進(jìn)行物理常識(shí)注釋,表示為 PC = {0, 1}。其中,PC = 1 表示生成的運(yùn)動(dòng)和交互與人類通過(guò)經(jīng)驗(yàn)獲得的直觀物理相一致。由于物理常識(shí)完全基于視頻,因此它獨(dú)立于生成視頻的語(yǔ)義遵循能力。研究中計(jì)算了生成的視頻中,語(yǔ)義遵循較高(SA = 1)、物理常識(shí)較高(PC = 1)以及這兩個(gè)指標(biāo)聯(lián)合表現(xiàn)較高(SA = 1, PC = 1)的比例。

人類評(píng)估

本文進(jìn)行了人類評(píng)估,以評(píng)估生成視頻在語(yǔ)義遵循和物理常識(shí)方面的表現(xiàn),使用的是我們的數(shù)據(jù)集。注釋由一組合格的亞馬遜機(jī)械土耳其工人(AMT)完成,這些工人通過(guò)共享的 Slack 渠道提供了詳細(xì)的任務(wù)說(shuō)明(及相關(guān)澄清)。

隨后,從中選擇了 14 名學(xué)習(xí)過(guò)高中物理的工人,在通過(guò)資格測(cè)試后進(jìn)行注釋。在此任務(wù)中,注釋員將看到一個(gè)提示和相應(yīng)的生成視頻,但沒(méi)有關(guān)于生成模型的信息。要求他們?yōu)槊總€(gè)實(shí)例提供語(yǔ)義遵循評(píng)分(0 或 1)和物理常識(shí)評(píng)分(0 或 1)。注釋員被指示將語(yǔ)義遵循和物理常識(shí)視為獨(dú)立的指標(biāo),并在開(kāi)始主任務(wù)之前由作者展示了一些已解決的示例。

在某些情況下,發(fā)現(xiàn)生成模型創(chuàng)建了靜態(tài)場(chǎng)景而非具有較高運(yùn)動(dòng)的視頻幀。在這種情況下,要求注釋員判斷靜態(tài)場(chǎng)景在現(xiàn)實(shí)世界中的物理合理性(例如,一塊折疊的磚塊靜止不動(dòng)并不符合物理常識(shí))。如果靜態(tài)場(chǎng)景存在噪點(diǎn)(例如,雜亂的顆粒狀或斑點(diǎn)狀圖案),我們指示他們將其視為較差的物理常識(shí)。

人類注釋員沒(méi)有被要求列出違反物理法則的具體內(nèi)容,因?yàn)檫@會(huì)使注釋過(guò)程變得更加耗時(shí)和昂貴。此外,當(dāng)前的注釋可以由具有現(xiàn)實(shí)世界經(jīng)驗(yàn)的注釋員完成(例如,工人知道水是從水龍頭流下來(lái)的,木材在水面漂浮時(shí)形狀不會(huì)改變),而不需要高級(jí)的物理教育。

自動(dòng)評(píng)估

盡管人類評(píng)估對(duì)于基準(zhǔn)測(cè)試來(lái)說(shuō)更加準(zhǔn)確,但在大規(guī)模獲取時(shí)既費(fèi)時(shí)又昂貴。此外,希望資源有限的模型開(kāi)發(fā)者能夠使用我們的基準(zhǔn)。因此,設(shè)計(jì)了 VIDEOCON-PHYSICS,一個(gè)可靠的自動(dòng)評(píng)分器,用于評(píng)估數(shù)據(jù)集。使用 VIDEOCON,一個(gè)擁有 7B 參數(shù)的開(kāi)放式視頻-文本語(yǔ)言模型,經(jīng)過(guò)在真實(shí)視頻上的訓(xùn)練,能夠進(jìn)行穩(wěn)健的語(yǔ)義遵循評(píng)估[3]。通過(guò)多模態(tài)模板來(lái)提示 VIDEOCON 生成一個(gè)文本響應(yīng)(是/否)。

由于 VIDEOCON 沒(méi)有針對(duì)生成視頻分布進(jìn)行訓(xùn)練,也沒(méi)有能力判斷物理常識(shí),因此我們不期望它在我們的設(shè)置中能以零樣本方式表現(xiàn)良好。為此,提出了 VIDEOCON-PHYSICS,一個(gè)開(kāi)源生成視頻-文本模型,能夠評(píng)估生成視頻的語(yǔ)義遵循和物理常識(shí)。通過(guò)結(jié)合在人類注釋中獲得的語(yǔ)義遵循和物理常識(shí)任務(wù)的標(biāo)注,對(duì) VIDEOCON 進(jìn)行了微調(diào)。通過(guò)計(jì)算人類注釋和模型判斷之間的 ROC-AUC,來(lái)評(píng)估自動(dòng)評(píng)分器的有效性,特別是在從測(cè)試提示生成的視頻中。

設(shè)置

視頻生成模型
在 VIDEOPHY 數(shù)據(jù)集上評(píng)估了十二種不同的封閉式和開(kāi)放式文本到視頻(T2V)生成模型。模型列表包括 ZeroScopeLaVIE、VideoCrafter2OpenSora、CogVideoX-2B 和 5B 、StableVideoDiffusion (SVD)-T2I2V、Gen-2 (Runway)、Lumiere-T2VLumiere-T2I2V (Google)、Dream Machine (Luma AI) 和 Pika

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

數(shù)據(jù)集設(shè)置
如前所述,本文訓(xùn)練了 VIDEOCON-PHYSICS,以便對(duì)生成的視頻進(jìn)行更便宜且可擴(kuò)展的測(cè)試。為此,將 VIDEOPHY 數(shù)據(jù)集中的提示分為訓(xùn)練集和測(cè)試集兩部分。利用測(cè)試集中 344 個(gè)提示生成的視頻上的人類注釋進(jìn)行基準(zhǔn)測(cè)試,而用于訓(xùn)練自動(dòng)評(píng)估模型的則是訓(xùn)練集中 344 個(gè)提示生成的視頻上的人類注釋。確保訓(xùn)練集和測(cè)試集中的物質(zhì)狀態(tài)(固-固、固-流體、流體-流體)和復(fù)雜性(簡(jiǎn)單、困難)分布相似。

基準(zhǔn)測(cè)試
在此步驟中,為每個(gè)測(cè)試提示使用我們的測(cè)試平臺(tái)生成一個(gè)視頻,隨后讓三名人類注釋員判斷生成視頻的語(yǔ)義遵循和物理常識(shí)。在實(shí)驗(yàn)中,報(bào)告來(lái)自人類注釋員的多數(shù)投票結(jié)果。在語(yǔ)義遵循和物理常識(shí)判斷上,注釋員之間的協(xié)議分別為 75% 和 70%。這表明,人類注釋員認(rèn)為物理常識(shí)的判斷任務(wù)比語(yǔ)義遵循更具主觀性。在測(cè)試提示和 T2V 模型上,共收集了 24,500 條人類注釋。

VIDEOCON-PHYSICS 的訓(xùn)練集
在此步驟中,為九個(gè) T2V 模型從訓(xùn)練提示中每個(gè)選擇兩個(gè)視頻進(jìn)行采樣。選擇兩個(gè)視頻是為了獲得更多的數(shù)據(jù)實(shí)例用于訓(xùn)練自動(dòng)評(píng)估模型。隨后,要求一名人類注釋員判斷生成視頻的語(yǔ)義遵循和物理常識(shí)。共收集了 12,000 條人類注釋,其中一半用于語(yǔ)義遵循,另一半用于物理常識(shí)。通過(guò)微調(diào) VIDEOCON,使其最大化在多模態(tài)模板條件下的 Yes/No 對(duì)數(shù)似然,來(lái)進(jìn)行語(yǔ)義遵循和物理常識(shí)任務(wù)。沒(méi)有為每個(gè)視頻收集三條注釋,因?yàn)檫@在經(jīng)濟(jì)上非常昂貴。總的來(lái)說(shuō),在基準(zhǔn)測(cè)試和訓(xùn)練中共花費(fèi)了 3500 美元用于收集人類注釋。

結(jié)果

本節(jié)展示了 T2V 生成模型的實(shí)驗(yàn)結(jié)果,并驗(yàn)證了 VIDEOCON-PHYSICS 作為自動(dòng)評(píng)估工具在 VIDEOPHY 數(shù)據(jù)集上的有效性。

在 VIDEOPHY 數(shù)據(jù)集上的表現(xiàn)

使用人類評(píng)估在 VIDEOPHY 數(shù)據(jù)集上對(duì) T2V 生成模型的表現(xiàn)進(jìn)行了比較,結(jié)果如下表 3 所示。發(fā)現(xiàn) CogVideoX-5B 在 39.6% 的情況下生成的 視頻既符合文本描述,又遵循物理法則(SA = 1, PC = 1)。CogVideoX 的成功可以歸因于其高質(zhì)量的數(shù)據(jù)篩選,包括詳細(xì)的文本描述和過(guò)濾掉運(yùn)動(dòng)少或質(zhì)量差的視頻。此外,我們發(fā)現(xiàn)其余的視頻模型的得分都低于 20%。這表明現(xiàn)有的視頻模型嚴(yán)重缺乏生成符合直覺(jué)物理的視頻的能力,也證明了 VIDEOPHY 是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

更具體地說(shuō),CogVideoX-5B 在生成符合物理常識(shí)的視頻方面表現(xiàn)突出,達(dá)到 53%的得分,而 CogVideoX-2B 則以 34.1%的得分位列第二。此外,這也表明,擴(kuò)展網(wǎng)絡(luò)容量能夠提高其捕捉互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)中的物理約束的能力。我們還發(fā)現(xiàn),OpenSora 在 VIDEOPHY 數(shù)據(jù)集上的表現(xiàn)最差,這表明社區(qū)在改進(jìn) Sora 的開(kāi)源實(shí)現(xiàn)方面具有很大的潛力。在封閉式模型中,Pika 生成的視頻在語(yǔ)義遵循和物理常識(shí)的判斷上分別達(dá)到了 19.7% 的正面評(píng)分。有趣的是,我們觀察到 Dream Machine 在語(yǔ)義遵循上取得了較高的得分(61.9%),但在物理常識(shí)上得分較低(21.8%),這突出了優(yōu)化語(yǔ)義遵循并不一定能帶來(lái)良好的物理常識(shí)。

物質(zhì)狀態(tài)的變化
本文研究了 T2V 模型在表現(xiàn)上與物質(zhì)狀態(tài)(例如固態(tài)-固態(tài))的交互變化,結(jié)果見(jiàn)下表 5。有趣的是,發(fā)現(xiàn)所有現(xiàn)有的 T2V 模型在描述固體材料之間的交互時(shí)表現(xiàn)最差(例如,瓶子從桌子上掉落),表現(xiàn)最好的模型 CogVideoX-5B 僅在 24.4%的情況下實(shí)現(xiàn)了準(zhǔn)確的語(yǔ)義遵循和物理常識(shí)。此外,我們觀察到 Pika 在描述流體與流體之間交互的標(biāo)題(例如,雨水濺到池塘上)中表現(xiàn)最好。這表明 T2V 模型的表現(xiàn)受場(chǎng)景中所涉及物質(zhì)狀態(tài)的巨大影響,強(qiáng)調(diào)了模型開(kāi)發(fā)者可以專注于提升固體-固體交互的語(yǔ)義遵循和物理常識(shí)。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

復(fù)雜度的變化
如下表 6所示,研究者們分析了視頻模型在根據(jù)物理模擬渲染物體或合成交互時(shí)復(fù)雜度變化的表現(xiàn)。隨著標(biāo)題復(fù)雜度的增加,所有視頻模型在語(yǔ)義遵循和物理常識(shí)上的表現(xiàn)都有所下降。這表明,物理上更難模擬的標(biāo)題,在通過(guò)條件控制視頻生成模型時(shí)也更難實(shí)現(xiàn)。因此強(qiáng)調(diào),未來(lái)的 T2V 模型開(kāi)發(fā)應(yīng)該聚焦于減少 VIDEOPHY 數(shù)據(jù)集中簡(jiǎn)單與困難標(biāo)題之間的差距。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

相關(guān)性分析
為了理解各種性能指標(biāo)之間的關(guān)系,考察了語(yǔ)義遵循(SA)和物理常識(shí)(PC)與視頻質(zhì)量和運(yùn)動(dòng)之間的相關(guān)性。實(shí)證結(jié)果表明,視頻質(zhì)量與 PC 和 SA 之間存在正相關(guān),而運(yùn)動(dòng)與 PC 和 SA 之間存在負(fù)相關(guān)。這表明,視頻模型在描繪更多運(yùn)動(dòng)時(shí),往往會(huì)在 SA 和 PC 上犯更多錯(cuò)誤。封閉式模型(如 Dream Machine/Pika)對(duì)視頻質(zhì)量的貢獻(xiàn)較高,而開(kāi)放式模型(如 ZeroScope/OpenSora)則對(duì)較低質(zhì)量的視頻貢獻(xiàn)較多。雖然較高的視頻質(zhì)量與更好的物理常識(shí)呈“相關(guān)”關(guān)系,但注意到,模型在我們基準(zhǔn)測(cè)試中的絕對(duì)表現(xiàn)仍然非常差。

定性分析

CogVideoX-5B 與其他模型的對(duì)比
分析了一些定性示例,以了解 CogVideoX-5B 這一表現(xiàn)最佳的模型與我們測(cè)試組中其他模型之間的差距。SVD-T2I2V 在涉及動(dòng)態(tài)流體場(chǎng)景時(shí)表現(xiàn)不佳。Lumiere-T2I2V 和 Dream Machine (Luma) 在視覺(jué)質(zhì)量上優(yōu)于 Lumiere-T2V,但它們?nèi)狈?duì)剛性幾何體的深刻理解(例如,在下圖 4(b) 中)。此外, Gen-2 有時(shí)會(huì)生成靜止的物體漂浮在空中,伴隨緩慢的相機(jī)運(yùn)動(dòng),而不是產(chǎn)生有意義的物理動(dòng)態(tài)(例如,在圖 4(c) 中)。相比之下,CogVideoX-5B 在識(shí)別不同物體方面表現(xiàn)得相當(dāng)不錯(cuò),其生成結(jié)果中的變形很少會(huì)導(dǎo)致多個(gè)物體混合在一起。進(jìn)一步來(lái)看,它傾向于使用更簡(jiǎn)單的背景,避免使用復(fù)雜的圖案,因?yàn)閺?fù)雜的圖案中較容易發(fā)現(xiàn)缺陷。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

盡管如此,甚至是表現(xiàn)最佳的模型 CogVideoX-5B 也可能難以理解基礎(chǔ)物體的材質(zhì)屬性,導(dǎo)致不自然或不一致的變形,如下圖 5 所示。這種現(xiàn)象也出現(xiàn)在其他視頻生成模型的結(jié)果中。我們的分析突出了缺乏細(xì)粒度的物理常識(shí),這也是未來(lái)研究應(yīng)當(dāng)關(guān)注的一個(gè)問(wèn)題。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

失敗模式分析
展示了一些定性示例,以理解生成視頻中常見(jiàn)的物理常識(shí)失敗模式。來(lái)自各種 T2V 生成模型的定性示例可見(jiàn)下圖。常見(jiàn)的失敗模式包括:

(a) 質(zhì)量守恒違例:物體的體積或紋理隨時(shí)間變化不一致。

(b) 牛頓第一定律違例:物體在平衡狀態(tài)下改變速度,而沒(méi)有外部力的作用。

(c) 牛頓第二定律違例:物體違反動(dòng)量守恒。

(d) 固體本構(gòu)定律違例:固體以與其材質(zhì)屬性相悖的方式變形,例如剛性物體隨時(shí)間變形。

(e) 流體本構(gòu)定律違例:流體表現(xiàn)出不自然的流動(dòng)動(dòng)作。

(f) 非物理性穿透:物體不自然地相互穿透。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

VIDEOCON-PHYSICS:VIDEOPHY 數(shù)據(jù)集的自動(dòng)評(píng)估器

為了實(shí)現(xiàn)生成視頻在語(yǔ)義一致性和物理常識(shí)方面的可擴(kuò)展和可靠評(píng)估,為數(shù)據(jù)集補(bǔ)充了 VIDEOCON-PHYSICS,一種自動(dòng)評(píng)分器。

VIDEOCON-PHYSICS 對(duì)未見(jiàn)過(guò)的提示具有泛化能力。
下表 4 中比較了不同自動(dòng)評(píng)估器與人工預(yù)測(cè)的 ROC-AUC 結(jié)果,評(píng)估的是測(cè)試提示生成的視頻。這里的生成視頻來(lái)自于用于訓(xùn)練 VIDEOCON-PHYSICS 模型的模型。我們發(fā)現(xiàn),VIDEOCON-PHYSICS 在語(yǔ)義一致性和物理常識(shí)判斷上分別比零-shot 的 VIDEOCON 提高了 17 分和 19 分。這表明,通過(guò)結(jié)合生成視頻分布和人工標(biāo)注進(jìn)行微調(diào),能夠有效提升模型在未見(jiàn)過(guò)提示上的評(píng)估能力。

是時(shí)候接受真實(shí)世界的檢驗(yàn)啦!UCLA&谷歌提出首個(gè)評(píng)估生成視頻物理常識(shí)數(shù)據(jù)集VideoPhy-AI.x社區(qū)

VIDEOCON-PHYSICS 在語(yǔ)義一致性方面的判斷一致性高于物理常識(shí)。這表明,判斷物理常識(shí)比判斷語(yǔ)義一致性更具挑戰(zhàn)性。令人感興趣的是,GPT-4-Vision 在數(shù)據(jù)集上,對(duì)于語(yǔ)義一致性和物理常識(shí)的評(píng)判幾乎是隨機(jī)的。這意味著,對(duì)于 GPT-4-Vision 來(lái)說(shuō),在零-shot 設(shè)置下,從多圖像推理能力獲得準(zhǔn)確評(píng)估是非常困難的。


為了應(yīng)對(duì)這一挑戰(zhàn),測(cè)試了 Gemini-Pro-Vision-1.5,發(fā)現(xiàn)它在語(yǔ)義一致性評(píng)估上取得了不錯(cuò)的分?jǐn)?shù)(73 分),但在物理常識(shí)評(píng)估上接近隨機(jī)(54 分)。這表明,現(xiàn)有的多模態(tài)基礎(chǔ)模型缺乏判斷物理常識(shí)的能力。

VIDEOCON-PHYSICS 對(duì)未見(jiàn)過(guò)的生成模型具有泛化能力
為了評(píng)估 VIDEOCON-PHYSICS 在未見(jiàn)過(guò)的視頻分布上的性能,訓(xùn)練了一個(gè)經(jīng)過(guò)簡(jiǎn)化版本的 VIDEOCON-PHYSICS,該版本基于一組受限的視頻數(shù)據(jù)。具體來(lái)說(shuō),我們將 VIDEOCON-PHYSICS 訓(xùn)練在從 VideoCrafter2、ZeroScope、LaVIE、OpenSora、SVD-T2I2V 和 Gen-2 獲取的人工標(biāo)注數(shù)據(jù)上,并使用測(cè)試集中的其他 T2V 模型生成的視頻進(jìn)行評(píng)估。


VIDEOCON-PHYSICS 在語(yǔ)義一致性和物理常識(shí)判斷上分別比 VIDEOCON 提高了 15 分。這表明,隨著新的 T2V 生成模型的發(fā)布,VIDEOCON-PHYSICS 可以有效評(píng)估其語(yǔ)義一致性和物理常識(shí)。

自動(dòng)排行榜可靠地跟蹤人工排行榜
通過(guò)對(duì)開(kāi)放模型和封閉模型的語(yǔ)義一致性和物理常識(shí)分?jǐn)?shù)進(jìn)行平均,創(chuàng)建了一個(gè)自動(dòng)排行榜。隨后,我們將這些排名與人工排行榜對(duì)齊,基于聯(lián)合性能指標(biāo)(SA = 1,PC = 1)。

在自動(dòng)排行榜中的模型相對(duì)排名(CogVideoX-5B > VideoCrafter2 > LaVIE > CogVideoX-2B > SVD-T2I2V > ZeroScope > OpenSora)與人工排行榜中的模型相對(duì)排名(CogVideoX-5B > VideoCrafter2 > CogVideoX-2B > LaVIE > SVD-T2I2V > ZeroScope > OpenSora)高度一致。在封閉模型中也觀察到了類似的趨勢(shì)。然而, Pika 在自動(dòng)排行榜中的分?jǐn)?shù)相對(duì)較低,這是一個(gè)可以通過(guò)獲取更多數(shù)據(jù)來(lái)改善的局限性??傮w而言,大多數(shù)模型在兩個(gè)排行榜中的排名相似,證明了其在未來(lái)模型開(kāi)發(fā)中的可靠性。

微調(diào)視頻模型
雖然 VIDEOPHY 數(shù)據(jù)集用于模型評(píng)估和構(gòu)建自動(dòng)評(píng)估器,但還評(píng)估了該數(shù)據(jù)集是否可以用于微調(diào)視頻模型。在微調(diào)后,觀察到語(yǔ)義一致性顯著下降,而物理常識(shí)保持不變。這可能是由于訓(xùn)練樣本的限制、優(yōu)化挑戰(zhàn)以及視頻微調(diào)領(lǐng)域尚處于初期階段。未來(lái)的研究將專注于基于這些發(fā)現(xiàn)增強(qiáng)生成模型中的物理常識(shí)。

結(jié)論

VIDEOPHY,這是首個(gè)用于評(píng)估生成視頻中物理常識(shí)的數(shù)據(jù)集。通過(guò)對(duì)多種視頻模型(包括開(kāi)源和閉源模型)的全面評(píng)估,發(fā)現(xiàn)這些模型在物理常識(shí)和語(yǔ)義一致性方面存在顯著不足。本文的數(shù)據(jù)集揭示了現(xiàn)有方法遠(yuǎn)未成為通用的世界模擬器。此外,本文還提出了VIDEOCON-PHYSICS,一個(gè)自動(dòng)化評(píng)估模型,能夠在我們的數(shù)據(jù)集上進(jìn)行高效且可擴(kuò)展的評(píng)估。本文的工作將為視頻生成建模中的物理常識(shí)研究奠定基礎(chǔ)。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/8BiUCFzsVTsEFFyM8wszRQ??

已于2024-12-30 11:20:17修改
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩在线观看中文字幕 | 日韩欧美在| 大陆一级毛片免费视频观看 | 日韩欧美不卡 | 色就干 | 国产成人精品在线播放 | 午夜成人免费视频 | 午夜三区 | 色欧美综合 | 欧美日韩综合一区 | 青青草视频网 | 夜久久 | 精品久久一区 | 欧美一区二区黄 | 97精品一区二区 | 国产一区二区黑人欧美xxxx | 久综合| 2021天天躁夜夜看 | 中文字幕亚洲专区 | 日韩精品一区二区三区四区视频 | 一区二区三区国产精品 | 国产99久久精品一区二区永久免费 | 精品一区二区三区91 | 密室大逃脱第六季大神版在线观看 | 亚洲激情专区 | 日韩久久综合网 | 新91视频网 | 欧美成人一区二区三区 | 免费成人高清在线视频 | 91视频精选 | 日韩成人免费视频 | 一级电影免费看 | 亚洲 中文 欧美 日韩 在线观看 | 国产亚洲精品久久久久动 | 亚洲成人自拍 | 一二区成人影院电影网 | 国产乱码一区 | 亚洲精品一区中文字幕乱码 | 午夜精品视频在线观看 | 欧美99| 夜夜操av |