真實世界AI造假驚現克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!
論文鏈接:https://arxiv.org/pdf/2506.10975
git地址:?https://chen-wl20.github.io/GenWorld
亮點直擊
- 高質量真實場景數據集:GenWorld首次專注于現實世界場景(如自動駕駛),提供多樣化、高逼真度的生成視頻,彌補領域空白。
- 物理合理性驅動檢測:提出通過3D多視角一致性(而非傳統像素瑕疵)區分生成視頻,適應生成技術快速發展的挑戰。
- 簡單有效的模型設計:SpannDetector僅需結合立體重建和時序模塊即實現顯著性能提升,為可解釋檢測提供新方向。
總結速覽
解決的問題
- AI生成視頻檢測的挑戰:當前缺乏高質量、真實場景的AI生成視頻數據集,現有數據集質量參差不齊,且多為卡通或人臉偽造,難以應對真實世界場景的檢測需求。
- 現有方法的局限性:現有檢測器依賴生成瑕疵(如像素異常),但高質量生成視頻(如世界模型生成的視頻)已難以通過此類方法區分,亟需基于物理合理性的檢測方法。
提出的方案
- 數據集GenWorld:構建大規模、高質量、真實場景模擬的AI生成視頻數據集,特點包括:
- 真實世界模擬:聚焦自動駕駛、室內導航等現實場景。
- 高質量生成:采用多模態輸入(文本/圖像/視頻)和10種先進生成模型(如Cosmos)。
- 跨提示多樣性:覆蓋多種生成器和輸入模態,增強泛化性。
- 檢測模型SpannDetector:
- 利用多視角一致性(如3D物理合理性)作為檢測標準,結合立體重建模型和時間記憶模塊。
- 通過真實性評分器對立體特征進行全局評估,判斷視頻真偽。
應用的技術
- 數據集構建:整合多模態生成模型(文本/圖像/視頻到視頻),確保數據多樣性和質量。
- 立體重建模型:分析生成視頻的3D一致性缺陷(如物理規律違反)。
- 時空特征融合:在SpannDetector中結合時間記憶模塊,增強視頻時序信息處理能力。
達到的效果
- 數據集價值:GenWorld填補了高質量真實場景生成視頻數據集的空白,推動可信檢測器的研發。
- 檢測性能:SpannDetector在高質量生成視頻(如Cosmos生成的視頻)上顯著優于現有方法,驗證了物理合理性特征的有效性。
- 可解釋性:基于多視角一致性的方法為AI生成視頻檢測提供了可解釋的物理依據。
GenWorld
Motivation of GenWorld
盡管現有數據集收集了大量用于AI生成視頻檢測器研究的AI生成視頻,但在實踐中存在兩個根本性問題:
- 嘈雜且不連貫的語義內容:當前數據集包含各種非結構化的視頻混合,包括動漫、游戲畫面、漫畫風格視頻以及其他缺乏具體信息的內容,如圖1所示。這引發了對數據集相關性的質疑——這些視頻是否真的具有偽造檢測價值?
- 由于缺乏精心設計的提示詞和先進模型,生成的視頻往往質量較差,容易被人類區分。因此,在這些數據集上訓練的模型難以檢測實際應用中的偽造視頻。
?
GenWorld 重新評估了哪些類型的生成視頻最具影響力且需要檢測。最重要的檢測視頻應具備以下特征:
- 真實世界模擬:漫畫或抽象內容等視頻對現實世界影響甚微。相比之下,模擬真實場景(如駕駛場景或人類活動)的視頻更可能影響現實。
- 高質量和真實感:視頻越逼真,就越可能誤導人類并影響現實世界。因此,AI生成視頻檢測應優先考慮高質量生成的視頻,特別是具有挑戰性的邊緣案例。
Collection and Organization of GenWorld
本文旨在構建一個高質量、真實世界的AI生成視頻檢測數據集。首先,對于真實世界數據,我們分析了真實場景和當前視頻生成世界模型,選擇了涵蓋人類生活廣泛場景的四個關鍵場景:駕駛、室內外導航、具身智能操作和人類活動,作為我們數據集的核心場景。
對于AI生成視頻,本文設計了模擬真實場景的視頻生成流程,如下圖2所示。首先利用強大的視頻理解模型Video-Llava對選定的真實世界視頻內容進行標注,以促進下游生成。在生成過程中,采用了多種生成方法,包括文本到視頻、圖像到視頻和視頻到視頻,因為這些方法以不同方式模擬真實世界視頻,各自具有獨特的分析價值。文本到視頻方法偽造語義內容同時保留模型的外觀偏好;圖像到視頻方法同時偽造語義和外觀,實現更高級別的視頻偽造;而視頻到視頻模型不僅偽造語義和外觀,還能操控物理規律,展現出最高級別的偽造能力。
下表1展示了GenWorld數據集的統計信息。對于真實世界視頻,從Kinetics-400、NuScenes、RT-1和DL3DV-10K中隨機選取了10,850個樣本。對于AI生成視頻,使用了10種不同的生成模型,包括Cosmos和OpenSora等先進模型,涵蓋文本到視頻、圖像到視頻和視頻到視頻等多種偽造級別,共生成89,446個視頻。本文的數據集包含100,296個視頻,其中20%用于測試,其余用于訓練。
由于采用了先進的生成模型和源自真實場景的提示詞,本文的數據集具有三個關鍵優勢:多樣化的真實世界模擬、高質量的視頻內容以及跨生成器和跨生成方法的多樣性。這種豐富的組合支持多種分析維度,可對檢測方法進行全面分析。
SpannDetector
在構建數據集的過程中,測試了多種檢測方法,發現其性能不足,特別是針對最新高質量生成模型時表現欠佳。這促使我們探索識別AI生成視頻的新視角??紤]到視頻的時序性和多視角特性,對多視角一致性進行了深入分析,并將其確定為檢測AI生成視頻的潛在線索?;谶@一發現,本文設計了SpannDetector——一個基于多視角一致性的AI生成視頻檢測器,該檢測器展現出良好的檢測能力,特別是針對世界模型生成的視覺超真實視頻。我們首先回顧多視角匹配技術。
多視角匹配基礎
生成視頻的多視角一致性
SpannDetector設計
實驗
實現細節
數據集。為了全面評估現有方法,本文設計了兩項任務并相應劃分數據集。對于每個模型,保留20%的生成數據作為測試集。在評估過程中,使用一個模型的訓練集進行訓練,同時使用其他模型的測試集進行測試。第一項任務——訓練測試評估,模擬了現實場景中需要識別未知來源圖像的情況。第二項任務——跨提示評估,測試檢測方法在不同偽造級別上的表現,而不會對特定類型的生成過擬合。
評估指標。本文使用準確率(Acc.)評估方法的有效性,并以AP、F1和召回率(R)作為補充評估指標。對于圖像級檢測方法,組合所有幀的預測以獲得總體結果。
基線方法。本文選擇了AI生成內容檢測領域的最先進方法,包括圖像和視頻檢測器,并評估其性能。所有模型均在單個A6000 GPU上訓練。
與現有數據集的比較
下表2比較了本文的數據集與現有的AI生成視頻檢測數據集。突出了以下優勢:
- 真實世界模擬:本文的真實視頻精心選自覆蓋大多數真實場景的多樣化數據集,并源自這些真實視頻。
- 跨提示多樣性:不同提示的生成方法以不同方式操縱真實視頻。文本到視頻生成主要模仿真實視頻的語義和內容,同時保留外觀風格偏好;圖像到視頻生成保留外觀和語義,同時生成高度欺騙性的視頻;視頻到視頻生成復制外觀和語義,并模擬視頻的時間演變,使其在時間上更加真實。
下圖4展示了本文數據集中的示例,呈現了其多樣性、豐富內容和高品質。下圖5顯示了視頻的時間連貫性,突出了流暢的運動和隨時間推移的邏輯進展。
訓練-測試評估
下表3展示了不同模型在訓練-測試評估任務上的性能表現,可以得出幾個關鍵發現:
- 視頻級AI生成視頻檢測器顯著優于基于圖像的檢測器。這主要因為視頻檢測器能夠從不同時間幀捕捉時序信息,從而獲得更豐富的表征以實現更好的偽造檢測。
- 在視頻級檢測器中,DeMamba和VideoMAE的表現明顯優于STIL和TALL。這是因為后兩者主要針對深度偽造視頻檢測設計,而前者旨在捕捉更通用的視頻特征。這表明適用于深度偽造檢測的方法未必能有效檢測通用AI生成視頻。
- 不同模型生成視頻的檢測難度存在差異。如表所示,多數訓練模型在Lavie和VideoCrafter測試集上表現較好,但在HotShot、ModelScope和Cosmos上表現較差。特別是基于世界模型的Cosmos生成的視頻檢測難度顯著高于其他模型,這表明其生成的視頻更接近真實世界影像。
- 本文的模型整體表現最優,在檢測Cosmos生成視頻時性能提升尤為顯著。這是因為除了考慮時序動態特征外,本文的模型還整合了多視角一致性先驗,使其能夠識別看似真實但細微違反物理規律的視頻。這凸顯了使用物理先驗作為AI生成視頻檢測方法的潛力。
下表4提供了召回率(R)、F1分數和平均精度(AP)的詳細對比。數據顯示:
- 本文的模型在召回率(R)上顯著優于其他模型
- 同時保持了較高的AP值
- 最終獲得最高的F1分數
其他模型如DeMamba在檢測Cosmos生成視頻時召回率較低,這進一步證明Cosmos生成的超現實模擬視頻具有極高的檢測挑戰性。其生成的視頻與真實視頻難以區分的特點,為AI生成內容檢測領域提出了新的研究方向。
跨提示詞評估
本文還選取了代表性模型DeMamba進行跨提示詞評估,結果如下表5所示。從表中可觀察到,DeMamba容易過擬合訓練數據,無法有效區分由另外兩種提示詞生成的數據。這表明不同生成提示詞會產生差異化的偽影模式,導致模型僅學習到特定特征而非泛化性特征。此外,當在三種跨提示詞數據上聯合訓練時,DeMamba仍出現過擬合現象,說明該模型不適用于學習通用的偽造檢測特征。相比之下,本文的模型在單一提示詞生成數據上訓練后,對其它提示詞生成的數據展現出一定程度的判別能力,這暗示模型可能捕捉到了更具泛化性的特征(例如多視角不一致性)。
用戶研究
為直觀比較不同數據集的質量與顯著性,本文開展了用戶研究來評估現有數據集與自建數據集。評估指標包括視頻質量(VQ)、真實世界模擬度(RS)、運動連貫性(MC)和物理合理性(PP)。我們從不同年齡段選取120名參與者,每個數據集隨機抽取100段視頻供其采用7級李克特量表評估。此外,每位參與者需猜測視頻屬于真實視頻還是AI生成視頻。實驗結果如下表6所示,數據顯示本文的數據集在所有質量指標上均優于另外兩個數據集。更重要的是,用戶對我們數據集的真假視頻判斷準確率最低,說明生成視頻具有最強的欺騙性,這使得該數據集對AI生成視頻檢測研究具有特殊價值。
結論
GenWorld——一個模擬真實場景的高質量AI生成視頻檢測數據集,其具備三大特征:
- 真實世界模擬性:專注于高度擬真現實活動的視頻,可能對社會事件產生更大影響;
- 高質量性:通過融合多種前沿生成方法,構建了大規模高質量AI生成視頻集合;
- 跨提示詞多樣性:涵蓋文本、圖像、視頻三類提示詞生成的視頻,捕獲不同層次的偽造特征。
本文對現有先進AI生成視頻檢測器進行基于GenWorld的深度評估,發現這些檢測器難以識別世界模型(如Cosmos)生成的高質量視頻,該局限可能源于其未能捕捉真實世界的物理一致性。本文提出SpannDetector——一種基于對真實/生成視頻三維一致性深度分析的簡潔有效方法。該方法將立體重建模型與時序記憶模塊相結合,顯著提升了檢測性能(尤其針對世界模型生成的視頻),這凸顯了利用物理一致性進行AI生成視頻檢測的潛力。
本文轉自AI生成未來 ,作者:AI生成未來
