長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

angel

發布于 2024-8-26 10:10

瀏覽

0收藏

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

文章鏈接：https://arxiv.org/pdf/2408.11788

亮點直擊

多agent協作與關鍵幀迭代：提出了DreamFactory框架，模擬AI虛擬電影制作團隊，利用多agent協作進行腳本編寫、角色設計等，并引入關鍵幀迭代設計方法以保持視頻段落的一致性。
監控機制與圖像數據庫：通過引入監控角色和集成圖像向量數據庫，確保了長視頻生成過程中的圖像一致性和穩定性。
優異的評估結果：在UTF-101和HMDB51數據集上測試，DreamFactory生成的視頻在質量上顯著優于傳統方法，同時超越了網絡上現有AI生成短視頻的平均質量。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

目前的視頻生成模型在創建短小、逼真的片段方面表現出色，但在生成較長的多場景視頻時存在困難。本文介紹了DreamFactory，這是一種基于大語言模型（LLM）的框架，旨在解決這一挑戰。DreamFactory利用了多智能體協作的原則，并采用關鍵幀迭代設計方法，確保長視頻中的一致性和風格。它使用了鏈式思維（COT）來解決大語言模型中固有的不確定性問題。DreamFactory能夠生成長度較長、風格一致且復雜的視頻。對這些長視頻的評估也是一個挑戰。同時提出了新的指標，如跨場景人臉距離評分和跨場景風格一致性評分。為了進一步推動這一領域的研究，本文貢獻了包含150多個經過人工評分的視頻的多場景視頻數據集。DreamFactory為在視頻生成中利用多智能體系統開辟了道路。

DreamFactory

DreamFactory框架利用多個大語言模型（LLM）來構建一個模擬的動畫公司，分配CEO、導演和創作者等角色。給定一個故事后，這些角色通過社交互動和合作來創建視頻。該框架使LLM能夠通過使用小型視頻生成模型作為工具來完成龐大的任務，從而模擬現實世界。

角色定義

在模擬動畫公司DreamFactory的架構中，包含以下角色：CEO、電影導演、制片人、編劇、制片人和評論員。在DreamFactory框架內，這些角色與現實世界中的相似，承擔確定電影風格、編寫劇本和繪畫等職責。

角色定義提示主要包括三部分：職位、任務和要求。例如，電影創作者的定義提示包括以下內容：（a）你是電影美術總監。現在，都在Dream Factory工作……（b）你的工作是根據導演給出的場景生成圖片……以及（c）你必須遵守現實世界的規則，如顏色不變……。對于情節討論等任務，也限制其討論輪次不能超過特定數量（根據用戶的設置和公司的規模定義）。使用以下提示來確保這一點："你告訴我你的想法和故事，應該集思廣益并互相批評對方的想法。在討論超過5個想法后，任何一方都必須主動終止討論，選擇最佳風格，并以一個單詞<INFO>回復，后跟最新的風格決定，例如卡通風格。"

在下圖3的面板（a）和（b）中，展示了角色被定義和啟動角色扮演的示意圖。整個公司的完整架構在圖8中得到了全面介紹。對于每個角色，定義了一張角色卡片，包括：

1）角色名稱放在每張卡片的左上角；
2）角色所涉及的階段放在卡片的右上角；
3）在每張角色卡片上，展示了角色所參與的對話和協作角色；
4）在卡片的右側展示了角色的中間輸出；
5）最后，將對話之外的相應文件或內容放在卡片的底部。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

DreamFactory框架流程

本節介紹DreamFactory的具體流程。下圖2展示了主要階段并指出了哪些agent參與了對話。在深入探討整個流程之前，有必要首先概述其基本組成部分：階段和對話。如上圖3所示，階段代表一個完整的過程，它以一些文本或圖像內容作為輸入。由GPT組成的agent通過角色扮演、討論和協作來處理這些輸入，最終產生一些輸出。對話是一個階段的基本單元，通常一個階段包含多輪對話。在固定的對話輪次之后，一個階段接近結束，此時DreamFactory會保存該階段生成的某些中間結論，這些結論是希望保留的。例如，在“風格決策”階段，最終的結論將被保留。此外，在后續的階段中，DreamFactory將提供必要的前期成果，例如在后續設計關鍵幀時調用之前的風格和腳本。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

最近發現，大語言模型的能力受限于有限的推理能力，就像在現實生活中，過于復雜的情況會導致粗心和混亂。因此，該框架在視頻領域的主要思想是將長視頻的創作分解為特定的階段，允許特定的大型模型扮演指定的角色，發揮其在分析具體問題上的強大能力。就像現實生活中的電影制作公司一樣，DreamFactory采用經典的工作流程，從劇本創作開始，隨后是繪圖。總體而言，框架涵蓋了六個主要階段：任務定義、風格決策、故事提示、腳本設計和關鍵幀設計。最后一個階段，即關鍵幀迭代設計的方法將在下一節介紹；此方法用于保持各階段生成圖像的一致性和連續性。在前四個階段中，角色是通過對話進行的。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

關鍵幀迭代設計

在生成長視頻時，最具挑戰性的問題是視頻由一系列長序列的圖像集合組成。因此，在生成時，模型需要保持長期一致的記憶，以確保模型生成的每一幀都能連貫地組成一致的視頻。這種記憶包括兩種類型：短期記憶知識和長期記憶系統。

短期記憶知識 嵌入在固定場景的視頻中。在相鄰幀之間，每一幀中的動畫應保持連貫，角色應統一，顏色、風格等不應有顯著變化。目前，最新的視頻模型在短期記憶方面表現非常好。然而，仍然添加了一個監控器，以監督視頻模型是否表現足夠出色。如下圖4所示，每一幀生成后都有一個審查過程。因此，為了保持短期一致性，引入的監督機制解決了這個問題。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

長期記憶系統 則是困擾大多數當前模型的挑戰，也是當今視頻生成領域最緊迫的問題。特別是在基于GPT的全自動多智能體框架中，大語言模型固有的隨機性和漂移現象使得這一問題難以解決。長期記憶意味著在場景轉換之間，模型應能夠保持繪圖風格、角色連續性和敘事流程的一致性。為了維持長期記憶，引入了關鍵幀迭代設計方法，通過指導生成連續一致的圖像，將長期記憶轉化為短期記憶，并在每一步中迭代前進生成。如上圖4所示，展示了每次迭代的過程。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

在實際應用中，控制角色的細節是最具挑戰性的方面。因此，在研究者們精心修改的提示下，特別強調了在多次實驗中表現不佳的部分，關鍵幀迭代方法現在能夠生成非常一致且具有實際價值的一系列圖像。

實驗

傳統視頻質量評估

評估指標 - 為了驗證關鍵幀的連續性和框架生成視頻的質量，在架構中嵌入了各種工具模型（如Runway、Diffusion、GPT）來評估由不同工具生成的視頻的質量。在實驗中，主要采用了以下評估指標：

(1) Fréchet Inception Distance (FID) 分數：衡量生成圖像與真實圖像之間的相似性。

(2) Inception Score (IS)：評估生成圖像的質量和多樣性。
(3) CLIP 分數：評估生成圖像的文本描述準確性。
(4) Fréchet Video Distance (FVD) 分數：FID在視頻上的擴展，通過Fréchet距離比較真實視頻與合成視頻的特征分布。
(5) Kernel Video Distance (KVD)：利用核函數比較真實視頻與合成視頻的特征分布。

在常規階段，數據集包括由實驗人員從COCO數據集中隨機選擇的70個關鍵詞和簡短句子的常規提示。這被用于評估基本工具模型生成的圖像質量以及圖像與文本之間的對齊程度。在腳本階段，腳本填充階段使用了從提供的數據集中隨機提取的70個任務相關的腳本。這引導了模型根據相關情節生成內容，以評估DreamFactory框架中“動畫部門”的功能。DreamFactory標簽表示框架生成的與腳本對應的關鍵幀圖像。

輸出質量統計 - 使用DALL·E和Diffusion等模型生成的圖像質量較高，達到了各項指標的最新水平。為了定量分析生成圖像的質量，將與原始提示對應的圖像輸入GPT以獲得GPT腳本，然后使用原始提示或GPT腳本作為提示生成1400張圖像，從中計算FID、IS和CLIP分數。至于FVD和KVD，從多場景視頻數據集中選擇了100個樣本，并手動提取了每個樣本的10個關鍵幀，這些關鍵幀可用于生成多尺度視頻。

下表1中的數據表明，使用腳本生成的圖像質量平均比使用普通提示詞生成的圖像更為精細。這可能歸因于GPT作為提示的有效性，并且當代模型通常擅長處理較長的提示。然而，在DreamFactory框架中，關鍵幀迭代設計與故事板創建、角色詳細描述、場景設置、光照和風格確定的結合應用，顯著提高了圖像生成的質量。下表2中也顯示出視頻質量的類似提升。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

多場景視頻評估得分

跨場景面部距離得分 (Cross-Scene Face Distance Score, CSFD Score) - 在連續視頻的生成中，角色一致性是首要問題。角色外觀的不一致不僅會導致糟糕的視覺效果，還可能讓觀眾難以理解劇情和內容。保持角色的一致性確保了圍繞角色展開的故事情節的連貫性，并增強了視頻的視覺吸引力。尤其是在長時長視頻領域，一個視頻通常由多個場景組成。這是一個前所未有的研究領域，迫切需要強有力的評估指標來評估跨復雜多場景視頻中角色出現的一致性。在此背景下，實驗性地引入了跨場景面部距離得分（CSFD Score）的概念，旨在驗證不同場景中角色面部特征一致性的問題。在計算過程中，每個關鍵幀對應一個面部，并使用dlib庫提取面部位置。通過面部識別庫可以計算相似度得分。對于每一幀的面部部分，可以計算其與后續所有幀的相似度，然后取平均值。通過這種方法，可以準確地確定視頻中的面部是否一致。相關的示意圖和計算的偽代碼在下面算法1中提供。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

跨場景風格一致性得分 (Cross-Scene Style Consistency Score, CSSC Score) - 在長視頻的制作中，保持風格一致性同樣重要。一個一致的風格使視頻看起來像一個連貫的整體。基于這一概念，研究者們引入了跨場景風格一致性得分（CSSC Score）。然而，目前還沒有成熟的方法來快速確定視頻的風格，因此在這一階段，將依賴于大語言視覺模型的輔助。本質上，將視頻分為幾類，包括：動畫、插畫、折紙、油畫、寫實主義、賽博朋克和水墨畫。

跨場景風格 - 一致性分數的計算方法如下：對于每個關鍵幀，使用由GPT-4V扮演的分類器來確定分類。一旦所有場景都被明確分為不同類別，計算最多數量類別的關鍵幀占總關鍵幀數的比例。下圖6展示了一個部分輸出，輸入為“現實生活中一位老人制作傳統的中國燈籠”。場景4展示了一個使用Dalle生成的動畫燈籠，由GPT-4V擔任分類器。可以觀察到，在四個場景中，前三個被歸類為寫實風格，而第四個場景被分類為動漫風格。因此，不同風格的最大數量為三，導致跨場景風格一致性分數為75%。其他相關的示意圖和計算的偽代碼在算法2中提供。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

平均關鍵幀CLIP分數 - 在生成多場景的長視頻時，評估每個場景的關鍵幀與對應文本的一致性至關重要。為確保一致性，它們融入了大量額外信息，這可能在生成過程中導致與文本的偏差。這可能導致整體視頻未能遵循腳本。因此，本節提出了平均關鍵幀CLIP分數，以確保關鍵幀場景與腳本的一致性。計算方法很簡單：計算每個關鍵幀相對于場景提示期間生成場景的CLIP分數，并取平均值。

結果 - 在下表3中，本文的數據選擇包括來自多場景視頻數據集的70個以角色為中心的條目，這些條目由DreamFactory框架、GPT-4和DALL-E 3生成。基準模型使用了DALL-E 3，并輸入了來自相同數據段的腳本。評估主要集中在以下三個指標上：

（1）跨場景面部距離分數（CSFD）
（2）跨場景風格一致性分數（CSSC）
（3）平均關鍵幀CLIP分數。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

這些指標用于評估框架內面部特征的一致性、場景屬性的一致性以及框架生成的提示與敘事和圖像之間的對齊情況。

在跨場景人臉距離評分實驗中，使用了??face-recognition???庫中的面部定位方法，來定位68個面部標志點，從而將肖像照片集中在面部區域。在圖像編碼階段，使用了來自??openai-clip??庫的ViT模型對面部區域進行輸入，并計算向量表示。隨后，通過向量點積操作來確定最終的面部距離分數。由于面部圖像之間的固有相似性，所有的分數大多都在0.5以上。具體的參考面部匹配分數對如下圖7所示。在對CSSC分數和平均CLIP分數的分析中，使用了相同的一組隨機選取的七十個樣本作為數據。CSSC分數使用了GPT-4版本作為風格分析器。

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架-AI.x社區

結論

本文引入了DreamFactory：一個基于多agent的長視頻生成框架。DreamFactory將多agent的理念引入視頻生成領域，能夠生成一致、連貫且引人入勝的長視頻。DreamFactory引入了關鍵幀迭代設計方法，以確保不同幀之間風格、角色和場景的一致性，并且可以基于任何圖像或視頻生成工具構建。此外，DreamFactory還提出了新的評估指標，通過跨場景面部和風格一致性以及文本到視覺的對齊來驗證其能力。在測試集上，DreamFactory框架能夠實現高度一致的連續故事生成，標志著這一領域的重大突破。

本文轉自 AI生成未來，作者：Zhifei Xie等

原文鏈接:??https://mp.weixin.qq.com/s/U9VH7j6sc2vswFyqflk_sA??

標簽

視頻生成

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

長視頻生成又有重大突破！DreamFactory：一致、連貫且引人入勝的長視頻生成框架

DreamFactory

角色定義

DreamFactory框架流程

關鍵幀迭代設計

實驗

傳統視頻質量評估

多場景視頻評估得分

結論

目錄