ICML 2025|多模態理解與生成最新進展:港科聯合SnapResearch發布ThinkDiff,為擴散模型裝上大腦
本文第一作者密振興,香港科技大學計算機科學與技術學院人工智能方向博士生,研究方向是多模態理解與生成,3D/4D 重建與生成,目前正在尋找工業界全職職位或實習職位。
自 Stable Diffusion、Flux 等擴散模型 (Diffusion models) 席卷圖像生成領域以來,文本到圖像的生成技術取得了長足進步。但它們往往只能根據精確的文字或圖片提示作圖,缺乏真正讀懂圖像與文本、在多模 態上下文中推理并創作的能力。能否讓模型像人類一樣真正讀懂圖像與文本、完成多模態推理與創作,一直是學術界和工業界關注的熱門問題。
OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規模參數和海量數據,展示了強大的多模態推理與生成能力。但在學術與產業環境中算力和數據并不充裕時,用較少數據與計算資源實現類似的功能,依然是一道難題。
在頂級學術會議 ICML2025 上,香港科技大學聯合 Snap Research 提出了多模態理解與生成新方法:ThinkDiff。該方法僅需較少的圖文對和數小時訓練,就能讓擴散模型具備思考能力,使其在復雜的圖像文本組合輸入下,完成推理式生成,為多模態理解與生成開辟了全新路徑。
- Paper:I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
- Paper link:https://arxiv.org/abs/2502.10458
- Github:https://github.com/MiZhenxing/ThinkDiff(in progress)
- Project page:https://mizhenxing.github.io/ThinkDiff
ThinkDiff 算法設計
ThinkDiff 這項工作的核心是將現有大規模的視覺語言模型 (VLM) 的推理能力遷移給擴散模型 (Diffusion model)。通過聯合 VLM 強大的多模態推理能力和 Diffusion 的高質量生成能力,使得最終的模型能夠真正理解圖像與文本提示之間的邏輯關系,以此為基礎進行高質量的圖像生成。
LLM 與 Diffusion 的共享特征空間
最新的 Text-to-image 擴散模型如 Flux 和 Stable Diffusion 3 等,都開始使用大語言模型 (LLM) 例如 T5 的文本編碼器 (Encoder) 作為擴散模型的文本編碼器 (Text Encoder)。
在這種設計下,擴散模型里的擴散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個輸入特征空間。只要把 VLM 對圖像和文本的推理對齊到該特征空間,就能讓擴散模型繼承 VLM 的推理能力。
將 VLM 對齊到 LLM 解碼器
直接對齊 VLM 與擴散解碼器需要大量復雜數據和低效的 Diffusion 訓練,因此,ThinkDiff 通過一個代理任務,將 VLM 與 LLM 解碼器做視覺-語言訓練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對齊之后,由于共享空間的存在,VLM 就自然地與 Diffusion Decoder 對齊。
在訓練過程中,對于每個訓練樣本,ThinkDiff 將圖像 + 文本輸入到 VLM,自回歸 (Autoregressive) 地生成多模態特征向量,再通過一個輕量級的對齊網絡 (Aligner),將這些特征向量映射到 LLM 解碼器的輸入空間,去自回歸地重建圖像的文字描述,用交叉熵損失進行監督。
經過訓練的對齊網絡 (Aligner),可以有效地把 VLM 的多模態推理能力傳遞給了 LLM 解碼器。而在推理階段,只要用同樣的對齊網絡,通過共享的特征空間,就可以將 VLM 的多模態推理能力傳遞給擴散解碼器,使擴散模型具備多模態理解與生成能力。
網絡結構核心設計
對齊 VLM 生成的 Token:傳統 Diffusion 在使用 LLM 時,是將 LLM 當做輸入文本的編碼器,將得到的特征送入 Diffusion 生成像素。而 VLM 的理解與推理能力,來自于它自回歸生成的 tokens,而非編碼的輸入 tokens。因此在 ThinkDiff 中,我們選擇將 VLM (大型視覺-語言模型) 自回歸生成的 tokens 的特征對齊到擴散模型,使擴散解碼器能夠真正繼承 LVLM 的多模態推理能力。
掩碼訓練 (Masked Training):為了避免對齊網絡走捷徑,而非真正對齊特征空間,ThinkDiff 在訓練階段對 VLM 輸出的 token 特征使用隨機掩碼策略,隨機丟掉一部分特征,讓對齊網絡學會僅從不完整的多模態信息中恢復語義。這種掩碼訓練使得對齊網絡深度理解圖像 + 文本,從而高效地將理解能力傳遞給擴散解碼器。
網絡變體
依據使用的 VLM 的不同,ThinkDiff 有 ThinkDiff-LVLM 和 ThinkDiff-CLIP 兩種變體。ThinkDiff-LVLM 將大規模視覺語言模型 (LVLM) 對齊到 Diffusion,使得 Diffusion 繼承 LVLM 的多模態理解能力。ThinkDiff-CLIP 將 CLIP 對齊到 Diffusion,使得 Diffusion 擁有極強的文本圖像組合能力。
實驗結果
多模態理解與生成定量結果
ThinkDiff-LVLM 在多模態理解與生成基準 CoBSAT 上,大幅領先現有方法,展現出高精度高質量的理解與生成能力。
以下是訓練資源的對比,與其他使用上百張 GPU 的方法相比,ThinkDiff-LVLM 僅使用 5 小時 × 4 × A100 GPU 的訓練,就達到了最優的效果。
多模態理解與生成圖片結果
ThinkDiff-LVLM 在 CoBSAT 上,能夠對輸入的多模態圖片與文本進行深度推理,并用高質量的圖片展現推理結果。
與 Gemini 的對比
ThinkDiff-LVLM 在日常圖片推理與生成任務上展現出與 Gemini 類似的能力。
Gemini:
Ours:
多模態組合生成結果
在輸入多張圖片時,ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。
多模態視頻生成結果
將 ThinkDiff-CLIP 的擴散解碼器改成 Cogvideo 時,ThinkDiff-CLIP 能在不重新訓練的情況下,依據輸入的圖片和文本,生成高質量的視頻。
總結
ThinkDiff 將多模態推理能力傳遞給擴散模型,創造出高質量的統一多模態理解與生成模型。它用極少的訓練資源和常見的數據,讓擴散模型具備了在多模態上下文中進行推理和創作的能力。在定量和定性實驗上,都優于現有的開源模型,并展現出與商業模型相當的潛力。無論是在科研領域還是工業應用,都對圖像生成與理解技術做出重要貢獻。