成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2025|多模態理解與生成最新進展:港科聯合SnapResearch發布ThinkDiff,為擴散模型裝上大腦

人工智能 新聞
ThinkDiff 將多模態推理能力傳遞給擴散模型,創造出高質量的統一多模態理解與生成模型。它用極少的訓練資源和常見的數據,讓擴散模型具備了在多模態上下文中進行推理和創作的能力。

本文第一作者密振興,香港科技大學計算機科學與技術學院人工智能方向博士生,研究方向是多模態理解與生成,3D/4D 重建與生成,目前正在尋找工業界全職職位或實習職位。

自 Stable Diffusion、Flux 等擴散模型 (Diffusion models) 席卷圖像生成領域以來,文本到圖像的生成技術取得了長足進步。但它們往往只能根據精確的文字或圖片提示作圖,缺乏真正讀懂圖像與文本、在多模 態上下文中推理并創作的能力。能否讓模型像人類一樣真正讀懂圖像與文本、完成多模態推理與創作,一直是學術界和工業界關注的熱門問題。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大規模參數和海量數據,展示了強大的多模態推理與生成能力。但在學術與產業環境中算力和數據并不充裕時,用較少數據與計算資源實現類似的功能,依然是一道難題。

在頂級學術會議 ICML2025 上,香港科技大學聯合 Snap Research 提出了多模態理解與生成新方法:ThinkDiff。該方法僅需較少的圖文對和數小時訓練,就能讓擴散模型具備思考能力,使其在復雜的圖像文本組合輸入下,完成推理式生成,為多模態理解與生成開辟了全新路徑。

圖片

  • Paper:I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
  • Paper link:https://arxiv.org/abs/2502.10458
  • Github:https://github.com/MiZhenxing/ThinkDiff(in progress) 
  • Project page:https://mizhenxing.github.io/ThinkDiff

ThinkDiff 算法設計

ThinkDiff 這項工作的核心是將現有大規模的視覺語言模型 (VLM) 的推理能力遷移給擴散模型 (Diffusion model)。通過聯合 VLM 強大的多模態推理能力和 Diffusion 的高質量生成能力,使得最終的模型能夠真正理解圖像與文本提示之間的邏輯關系,以此為基礎進行高質量的圖像生成。

LLM 與 Diffusion 的共享特征空間

最新的 Text-to-image 擴散模型如 Flux 和 Stable Diffusion 3 等,都開始使用大語言模型 (LLM) 例如 T5 的文本編碼器 (Encoder) 作為擴散模型的文本編碼器 (Text Encoder)。

在這種設計下,擴散模型里的擴散解碼器 (Diffusion Decoder) 與 T5 解碼器 (LLM Decoder) 共享同一個輸入特征空間。只要把 VLM 對圖像和文本的推理對齊到該特征空間,就能讓擴散模型繼承 VLM 的推理能力。

圖片

將 VLM 對齊到 LLM 解碼器

直接對齊 VLM 與擴散解碼器需要大量復雜數據和低效的 Diffusion 訓練,因此,ThinkDiff 通過一個代理任務,將 VLM 與 LLM 解碼器做視覺-語言訓練 (Vision-language Pretraining)。在將 VLM 與 LLM Decoder 對齊之后,由于共享空間的存在,VLM 就自然地與 Diffusion Decoder 對齊。

在訓練過程中,對于每個訓練樣本,ThinkDiff 將圖像 + 文本輸入到 VLM,自回歸 (Autoregressive) 地生成多模態特征向量,再通過一個輕量級的對齊網絡 (Aligner),將這些特征向量映射到 LLM 解碼器的輸入空間,去自回歸地重建圖像的文字描述,用交叉熵損失進行監督。

經過訓練的對齊網絡 (Aligner),可以有效地把 VLM 的多模態推理能力傳遞給了 LLM 解碼器。而在推理階段,只要用同樣的對齊網絡,通過共享的特征空間,就可以將 VLM 的多模態推理能力傳遞給擴散解碼器,使擴散模型具備多模態理解與生成能力。

圖片

網絡結構核心設計

對齊 VLM 生成的 Token:傳統 Diffusion 在使用 LLM 時,是將 LLM 當做輸入文本的編碼器,將得到的特征送入 Diffusion 生成像素。而 VLM 的理解與推理能力,來自于它自回歸生成的 tokens,而非編碼的輸入 tokens。因此在 ThinkDiff 中,我們選擇將 VLM (大型視覺-語言模型) 自回歸生成的 tokens 的特征對齊到擴散模型,使擴散解碼器能夠真正繼承 LVLM 的多模態推理能力。

掩碼訓練 (Masked Training):為了避免對齊網絡走捷徑,而非真正對齊特征空間,ThinkDiff 在訓練階段對 VLM 輸出的 token 特征使用隨機掩碼策略,隨機丟掉一部分特征,讓對齊網絡學會僅從不完整的多模態信息中恢復語義。這種掩碼訓練使得對齊網絡深度理解圖像 + 文本,從而高效地將理解能力傳遞給擴散解碼器。

網絡變體

依據使用的 VLM 的不同,ThinkDiff 有 ThinkDiff-LVLM 和 ThinkDiff-CLIP 兩種變體。ThinkDiff-LVLM 將大規模視覺語言模型 (LVLM) 對齊到 Diffusion,使得 Diffusion 繼承 LVLM 的多模態理解能力。ThinkDiff-CLIP 將 CLIP 對齊到 Diffusion,使得 Diffusion 擁有極強的文本圖像組合能力。

實驗結果

多模態理解與生成定量結果

ThinkDiff-LVLM 在多模態理解與生成基準 CoBSAT 上,大幅領先現有方法,展現出高精度高質量的理解與生成能力。

圖片

圖片

以下是訓練資源的對比,與其他使用上百張 GPU 的方法相比,ThinkDiff-LVLM 僅使用 5 小時 × 4 × A100 GPU 的訓練,就達到了最優的效果。

圖片

多模態理解與生成圖片結果

ThinkDiff-LVLM 在 CoBSAT 上,能夠對輸入的多模態圖片與文本進行深度推理,并用高質量的圖片展現推理結果。

圖片

與 Gemini 的對比

ThinkDiff-LVLM 在日常圖片推理與生成任務上展現出與 Gemini 類似的能力。

Gemini:

圖片

Ours:

圖片

多模態組合生成結果

在輸入多張圖片時,ThinkDiff-CLIP 能夠合理地將多張輸入圖片組合成合理的輸出圖片。

圖片

多模態視頻生成結果

將 ThinkDiff-CLIP 的擴散解碼器改成 Cogvideo 時,ThinkDiff-CLIP 能在不重新訓練的情況下,依據輸入的圖片和文本,生成高質量的視頻。

圖片

總結

ThinkDiff 將多模態推理能力傳遞給擴散模型,創造出高質量的統一多模態理解與生成模型。它用極少的訓練資源和常見的數據,讓擴散模型具備了在多模態上下文中進行推理和創作的能力。在定量和定性實驗上,都優于現有的開源模型,并展現出與商業模型相當的潛力。無論是在科研領域還是工業應用,都對圖像生成與理解技術做出重要貢獻。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-17 10:21:25

TC39JavaScript

2012-11-19 10:37:57

思杰OpenStack

2015-11-12 09:27:13

C++最新進展

2012-11-19 10:50:39

思杰CloudStack開源

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2021-06-15 14:54:23

ReactReact 18SSR

2020-07-02 16:00:53

?Flutter桌面應用代碼

2021-09-14 10:03:35

RustLinux開發工作

2012-02-09 09:49:48

2021-09-16 10:15:56

Linux內核Rust

2023-04-06 07:30:02

2024-02-22 09:26:33

AI模型

2021-08-24 10:15:35

模型人工智能計算

2023-04-19 20:30:49

Rust商標政策

2014-06-17 09:58:15

容器Google

2009-03-23 08:44:29

Windows Ser微軟操作系統

2013-04-09 17:27:19

GMIC球移動互聯網大會

2024-06-27 11:02:44

2023-04-26 16:38:08

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩无 | 久久精品国产久精国产 | 国产欧美在线 | 欧美黑人国产人伦爽爽爽 | 成人天堂 | 国产1区2区在线观看 | 欧美激情视频一区二区三区在线播放 | 亚洲综合国产精品 | 啪啪av| 日韩精品一区二区三区在线观看 | 国产在线二区 | 日韩不卡一区二区三区 | 国产一区亚洲二区三区 | 999视频| 中文字幕av网站 | 国产成人精品久久二区二区91 | 在线观看亚洲一区二区 | 久久精品中文 | 91精品国产色综合久久不卡98 | 天堂成人国产精品一区 | 亚洲国产精品一区 | 本道综合精品 | 日韩福利 | 日韩一区二区av | 欧美日韩亚洲一区 | 国产美女自拍视频 | 日韩a视频| 可以看黄的视频 | 玖玖精品 | 综合久久av | 久久99精品久久久久久 | 五月天婷婷狠狠 | 国产精品视频免费观看 | 国产成人av一区二区三区 | 久久久久久精 | av手机在线 | 三级黄色片在线播放 | 狠狠色香婷婷久久亚洲精品 | 一区二区三区亚洲精品国 | av三级| 欧美一级电影免费 |