CVPR 2025 多模態大一統:斯坦福 x 復旦提出符號主義建模生成式任務
共同第一作者包括:陳家棋,斯坦福大學訪問學者,復旦大學碩士,研究方向為 LLM Agent和大一統模型;朱小燁,華南理工大學本科,研究方向為 LLM Agent、LLM 和強化學習;王越,康奈爾大學本科,研究方向為 LLM Agent、多模態語言模型。指導老師:Julian McAuley(UCSD)、Li-jia Li (IEEE Fellow, LiveX AI)。
在人工智能內容創作蓬勃發展的今天,跨模態生成技術正在重塑藝術創作和視覺表達的邊界。人們對需求也日趨復雜和多樣,譬如將靜態照片轉化為動態視頻并疊加環境音效,打造沉浸式的多感官體驗。然而,現有生成系統大多受限于訓練數據的覆蓋范圍,或是因復雜的多模型協調而效率低下,難以滿足這些日益增長的創意需求。
來自復旦大學、華南理工大學、武漢大學以及 Cornell、UCSD 等機構的研究團隊提出了創新的基于符號化表征的生成任務描述框架。該框架將符號化思維引入生成任務建模。這一創新框架構建了一種生成任務的表示方式——,通過建立結構化的語義橋梁,使系統能夠像人類理解創作意圖一樣解析和執行復雜的跨模態生成需求。
- 論文標題:Symbolic Representation for Any-to-Any Generative Tasks
- 代碼鏈接:https://github.com/Jiaqi-Chen-00/Any-2-Any
- 論文地址:https://arxiv.org/abs/2504.17261
實驗證明, 在 12 類 120 項跨模態生成任務中表現出色,在文本到圖像任務中以 94% 的勝率超越現有模型,在圖像轉視頻任務中更以 67% 的勝率優于商業系統 Gen-3。該方法不僅在內容質量上與現有的最先進的統一模型相當甚至更優,還提供了更高的效率、可編輯性和可中斷性。符號化的任務表示為推進生成式人工智能的能力提供了一種成本效益高且可擴展的基礎。
問題背景
圖 1 用于 Any-to-Any 生成任務的一種符號化描述方法。
「將叢林的狂野生長與古老廢墟的神秘感融合成一個全新的場景,一定會令人驚嘆,」你的藝術家朋友沉思道。「如果還能把這張照片轉換成視頻,再疊加上鳥鳴聲和潺潺流水聲——那將營造出一種夢幻般的感官體驗。」這些日益復雜、跨模態的創作需求指向了一個根本性挑戰:如何設計一個統一模型,能夠根據自然語言指令,無縫處理任意輸入與輸出模態組合的生成任務?這樣的任務就是該研究關注的「Any-to-Any」生成任務,如圖 2 所示。
圖 2 Any-to-Any 生成任務
當前 Any-to-Any 生成任務的方法主要分為隱式神經建模和智能體方法。隱式神經建模需要大量數據訓練,雖然能處理常見任務,但對新場景適應能力差且生成過程不可控;智能體方法雖然功能靈活但結構復雜,運行不穩定且效率較低。此外,如果人類設計師用 PS 合成圖像時,需要先背誦所有濾鏡組合公式才能操作,還有創意可言嗎?當前許多方法陷入了這種「知識依賴陷阱」——而真正的 Any-to-Any 生成,應該像兒童搭積木:不需要理解木塊分子結構,只需知道它們如何拼接。
于是,研究團隊設想構建一個框架:聚焦于統一的任務表示和語言模型友好的接口,從而實現直接的任務指定。使系統能夠真正理解并執行用戶以自然語言描述的任意生成需求,同時保持執行過程的可控性和可干預性。這一設想從根本上改變了傳統生成模型的實現范式,為構建真正意義上的 Any-to-Any 生成系統提供了新的技術路線。
基于符號化表征的生成任務描述框架
框架設計的核心思路在于對生成任務本質的解構:任何復雜的多模態生成過程,本質上都可以拆解為「做什么」(函數)、「怎么做」(參數)和「執行順序」(拓撲)三個要素。基于這樣的見解,研究提出了 -Language,這是一種正式表示方法,系統地捕捉生成任務的這三個基本組成部分。此外,研究還介紹了一種無需訓練的推理引擎,它利用預訓練的語言模型作為基礎,從輸入指令和指定的關鍵函數中得出符號表示。
從本質上講,-Language 將任意生成任務形式化為一個三元組
這一統一的形式化將生成任務分解為三個核心組成部分:計算函數、對應參數,以及闡明其相互關系和數據流動態的拓撲結構。
(1)函數是構成生成任務的基本計算單元,其數學形式表示為:
其中: 表示第 i 個函數,
是該函數的輸入空間,可以包含任意模態的數據(如圖像、文本、音頻等),
是該函數的參數配置,
是該函數的輸出空間。例如,一個圖像風格遷移函數可能接收原始圖像和風格描述文本作為輸入,經過參數調節后輸出風格化圖像。
(2)參數集合定義為:
其中每個對應函數
的參數空間。參數在函數執行前必須完全指定,用于精確控制函數行為。例如,在圖像生成任務中,參數可能包括生成步數、風格強度、分辨率等。
(3)拓撲結構定義了函數之間的數據流動關系,表示為:
每個數據流是一個具體的連接關系:
其中,是源函數,
是源函數的特定輸出,
是目標函數,
是目標函數的特定輸入。
如圖 3 所示,框架提供了三種等效但風格迥異的語法形式來表達符號化表示,以滿足不同場景的使用需求:
- 聲明式語法 (Declarative Syntax):采用組件先定義后連接的范式,將函數與拓撲關系顯式分離,特別適合需要組件復用的復雜工作流。
- 數據流語法 (Dataflow Syntax):通過函數鏈式調用的方式直觀展現數據流動路徑,更契合線性順序任務的表達。
- 偽自然語法 (Pseudo-natural Syntax):創新性地采用類自然語言的結構,在保持數學嚴謹性的同時大幅提升了可讀性,為非專業用戶提供了更友好的交互界面。
這三種語法在保持完整表達能力的前提下各有側重:聲明式強調結構化,數據流突出過程性,偽自然注重易用性,后續實驗系統評估了它們在大語言模型推理場景中的實際表現。
圖 3 語法風格比較。
- 基于預訓練語言模型的符號化流程推斷為使方法靈活而穩健地適應生成任務的多樣性和復雜性,該研究將高層次的任務描述轉化為可執行的符號化流程。如圖 4 所示,提出利用語言模型 (LM) 作為推理引擎,從輸入指令和指定的關鍵函數中得出符號表示。
圖 4 利用語言模型 (LM) 生成符號化表示。
通過三階段處理實現這一目標:組件推斷階段由語言模型解析任務描述,識別所需的函數 (F) 和參數 (Φ);拓撲構建階段基于輸入輸出關系,建立函數間的數據流連接 (T);迭代優化階段通過錯誤反饋循環 (R) 持續修正流程,直至滿足所有約束條件 (C)。圖 5 完整展示了從自然語言描述到可執行工作流程的轉換過程,從而實現了跨模態和跨任務類型的任意轉換。
圖 5 推理和執行的演示。
實驗結果
在實驗中,該研究構建了一個包含 120 個真實世界生成案例的數據集,涵蓋 12 個任務類別,并通過用戶研究和可執行性評估驗證了方法的有效性。
- 跨模態生成質量評估(用戶研究)
針對不同模態轉換任務進行了系統的用戶評估,以驗證該方法在真實場景下的生成質量。實驗結果顯示,在文本到圖像任務中,該方法對 Show-o 的勝率達 94%;在圖像轉視頻任務中,對商業系統 Gen-3 的勝率達 67%;文本到音頻任務中,對齊度和質量勝率分別達 100% 和 98%。
- 復雜工作流執行測試(ComfyBench 基準)
為評估方法處理復雜任務的能力,采用包含多步驟工作流的 ComfyBench 進行測試。實驗結果顯示,總體成功率 43%,顯著優于次優方法(32.5%),在復雜任務(如包含 11 個組件的「模型合并」)上表現突出。
- 消融實驗
消融實驗證實,兩階段推理架構(組件推斷 + 拓撲構建)是系統性能的核心,移除該設計將導致任務完成率下降 35%。
- 對比實驗:符號化 v.s. 代理化方法
選取了當前最先進的代理框架 GenAgent 作為基線,在相同任務集上進行對比測試。實驗數據顯示,在編譯階段,該方法達到 98% 的通過率,相比代理方法的 84% 顯著提升 ($p \< 0.001$);執行成功率方面,該方法 87% 的表現遠超代理方法的 63%。
- 表示方法本質研究
針對「神經表示 v.s. 符號表示」這一核心問題,研究設計了控制變量實驗:在相同計算資源下,符號表示的內存占用僅為神經表示的 1/5。任務修改效率測試顯示,修改符號化流程平均耗時 23 秒,而神經方法需要重新訓練(平均 4.2 小時);但在端到端推理速度上,神經方法快 1.8 倍,這揭示了符號方法在實時性上的 trade-off。
- 顯式流程編輯與錯誤分析
通過對 120 個失敗案例的歸因分析發現,28% 的錯誤源于參數范圍越界,主要體現在跨模態任務中的單位轉換問題;22% 屬于模態不匹配錯誤,多發生在未明確指定輸入輸出類型的場景中;15% 由于函數缺失導致,這反映了現有函數庫仍需擴展。
總結
該研究提出的符號化生成任務描述語言及配套推理引擎,為多模態任務提供了一種無需專門訓練的全新高效解決方案。通過利用預訓練大語言模型將自然語言指令直接轉化為符號化工作流,該方法成功實現了 12 類跨模態生成任務的靈活合成。實驗證明,該框架不僅在生成內容質量上媲美現有的先進統一模型,更在效率、可編輯性和可中斷性等方面展現出顯著優勢。符號化任務表示方法或許能為提升生成式 AI 能力提供一條經濟高效且可擴展的技術路徑。