BLIP3-o統(tǒng)一圖像生成與理解，多模態(tài)融合趨勢顯現(xiàn)

CourseAI

發(fā)布于 2025-5-26 00:50

瀏覽

0收藏

需要解決的問題

統(tǒng)一圖像理解和生成：

以前的方案沒有融合圖像理解和生成量大任務(wù)，例如:在生成復(fù)雜場景、特定對(duì)象或高質(zhì)量圖像時(shí)表現(xiàn)不足，同時(shí)在圖像理解和生成任務(wù)之間缺乏有效的協(xié)同訓(xùn)練機(jī)制。

提升生成質(zhì)量和效率：

傳統(tǒng)的基于VAE（變分自編碼器）的圖像表示方法在生成圖像時(shí)存在分辨率限制和訓(xùn)練效率低下的問題
在統(tǒng)一框架中高效地生成高質(zhì)量圖像并保持圖像理解能力，是需要解決的關(guān)鍵問題之一。

核心思想

BLIP3-o統(tǒng)一圖像生成與理解，多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

融合自回歸模型和擴(kuò)散模型：

借鑒了OpenAI的GPT-4o圖像生成架構(gòu)，采用自回歸模型生成中間視覺特征，再通過擴(kuò)散模型生成最終圖像。

這種結(jié)合方式在充分發(fā)揮了自回歸模型在語義理解和擴(kuò)散模型在高質(zhì)量圖像生成方面的優(yōu)勢。

統(tǒng)一圖像表示和任務(wù)空間：

使用CLIP（Contrastive Language-Image Pre-training）模型的圖像特征作為目標(biāo)表示，將圖像理解和圖像生成任務(wù)統(tǒng)一到同一個(gè)語義空間中。

確保模型在處理兩個(gè)任務(wù)時(shí)能夠共享語義信息，提高任務(wù)之間的協(xié)同性和一致性。

優(yōu)化訓(xùn)練策略：

通過對(duì)比不同的訓(xùn)練策略，包括聯(lián)合訓(xùn)練和順序訓(xùn)練，選擇了順序訓(xùn)練方法。

即先訓(xùn)練圖像理解模塊，凍結(jié)其參數(shù)后再訓(xùn)練圖像生成模塊，以避免任務(wù)之間的干擾并充分利用預(yù)訓(xùn)練的語言模型能力。

技術(shù)亮點(diǎn)

BLIP3-o統(tǒng)一圖像生成與理解，多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

CLIP + Flow Matching架構(gòu)：

在圖像生成模塊中，采用CLIP作為圖像編碼器，結(jié)合流匹配（Flow Matching）損失函數(shù)來訓(xùn)練擴(kuò)散模型。

CLIP能夠提取豐富的語義特征，而流匹配損失函數(shù)能夠更好地捕捉圖像分布，從而生成更高質(zhì)量和多樣化的圖像。

高效的擴(kuò)散變換器（DiT）：

基于Lumina-Next模型的擴(kuò)散變換器架構(gòu)，引入了3D旋轉(zhuǎn)位置嵌入（Rotary Position Embedding），能夠有效地編碼時(shí)空結(jié)構(gòu)，同時(shí)采用夾心歸一化（Sandwich Normalization）和分組查詢注意力（Grouped-Query Attention），提高了模型的穩(wěn)定性和生成效率。

高質(zhì)量指令微調(diào)數(shù)據(jù)集：

精心策劃了一個(gè)包含6萬個(gè)高質(zhì)量指令-圖像對(duì)的數(shù)據(jù)集（BLIP3o-60k），通過GPT-4o生成多樣化場景、對(duì)象和手勢的描述，用于指令微調(diào)。

訓(xùn)練步驟

BLIP3-o統(tǒng)一圖像生成與理解，多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

圖像理解模塊訓(xùn)練：

使用預(yù)訓(xùn)練的Qwen 2.5 VL模型作為圖像理解模塊的骨干網(wǎng)絡(luò)，跳過圖像理解任務(wù)的訓(xùn)練階段，直接構(gòu)建圖像生成模塊。

圖像生成預(yù)訓(xùn)練：

數(shù)據(jù)準(zhǔn)備：對(duì)于8B模型，結(jié)合約2500萬開源數(shù)據(jù)（如CC12M、SA-1B和JourneyDB）和額外的3000萬專有圖像，所有圖像的描述由Qwen2.5-VL-7B-Instruct生成，平均長度為120個(gè)標(biāo)記。同時(shí)，為了提高對(duì)不同長度提示的泛化能力，還混入了約10%（600萬）較短的描述（約20個(gè)標(biāo)記）。對(duì)于4B模型，僅使用開源數(shù)據(jù)進(jìn)行訓(xùn)練。

模型訓(xùn)練：凍結(jié)Qwen 2.5 VL骨干網(wǎng)絡(luò)，訓(xùn)練擴(kuò)散變換器模塊。通過自回歸模型生成中間視覺特征，再利用擴(kuò)散變換器和流匹配損失函數(shù)來生成接近真實(shí)CLIP特征的圖像特征，最終通過擴(kuò)散解碼器生成圖像。

指令微調(diào)：針對(duì)預(yù)訓(xùn)練階段未能充分覆蓋的復(fù)雜人類手勢、常見物體、地標(biāo)和簡單文本等類別，通過GPT-4o生成約10k提示-圖像對(duì)，創(chuàng)建針對(duì)性的數(shù)據(jù)集，對(duì)模型進(jìn)行指令微調(diào)，以提高模型在這些領(lǐng)域的生成能力和視覺審美質(zhì)量。

實(shí)驗(yàn)結(jié)果

BLIP3-o統(tǒng)一圖像生成與理解，多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

圖像理解任務(wù)：BLIP3-o 8B模型在多個(gè)圖像理解基準(zhǔn)測試（如VQAv2、MMBench、SeedBench等）中取得了最佳性能，顯示出其在圖像理解方面的強(qiáng)大能力。
圖像生成任務(wù)：在圖像生成基準(zhǔn)測試中，BLIP3-o 8B模型在GenEval（衡量提示對(duì)齊）上得分為0.84，在WISE（評(píng)估世界知識(shí)推理能力）上得分為0.62，雖然在DPG-Bench上的得分較低，但通過人類研究發(fā)現(xiàn)，BLIP3-o在視覺質(zhì)量和提示對(duì)齊方面均優(yōu)于Janus Pro 7B模型，表明其生成的圖像更符合人類偏好且具有更好的視覺效果。
指令微調(diào)的效果：通過僅使用60k提示-圖像對(duì)進(jìn)行指令微調(diào)，模型在提示對(duì)齊和視覺審美方面取得了顯著提升，許多生成偽影也得到了快速減少，證明了指令微調(diào)數(shù)據(jù)集的有效性。