BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)
需要解決的問題
統(tǒng)一圖像理解和生成:
- 以前的方案沒有融合圖像理解和生成量大任務(wù),例如:在生成復(fù)雜場景、特定對(duì)象或高質(zhì)量圖像時(shí)表現(xiàn)不足,同時(shí)在圖像理解和生成任務(wù)之間缺乏有效的協(xié)同訓(xùn)練機(jī)制。
提升生成質(zhì)量和效率:
- 傳統(tǒng)的基于VAE(變分自編碼器)的圖像表示方法在生成圖像時(shí)存在分辨率限制和訓(xùn)練效率低下的問題
- 在統(tǒng)一框架中高效地生成高質(zhì)量圖像并保持圖像理解能力,是需要解決的關(guān)鍵問題之一。
核心思想
- 融合自回歸模型和擴(kuò)散模型:
借鑒了OpenAI的GPT-4o圖像生成架構(gòu),采用自回歸模型生成中間視覺特征,再通過擴(kuò)散模型生成最終圖像。
這種結(jié)合方式在充分發(fā)揮了自回歸模型在語義理解和擴(kuò)散模型在高質(zhì)量圖像生成方面的優(yōu)勢。
- 統(tǒng)一圖像表示和任務(wù)空間:
使用CLIP(Contrastive Language-Image Pre-training)模型的圖像特征作為目標(biāo)表示,將圖像理解和圖像生成任務(wù)統(tǒng)一到同一個(gè)語義空間中。
確保模型在處理兩個(gè)任務(wù)時(shí)能夠共享語義信息,提高任務(wù)之間的協(xié)同性和一致性。
- 優(yōu)化訓(xùn)練策略:
通過對(duì)比不同的訓(xùn)練策略,包括聯(lián)合訓(xùn)練和順序訓(xùn)練,選擇了順序訓(xùn)練方法。
即先訓(xùn)練圖像理解模塊,凍結(jié)其參數(shù)后再訓(xùn)練圖像生成模塊,以避免任務(wù)之間的干擾并充分利用預(yù)訓(xùn)練的語言模型能力。
技術(shù)亮點(diǎn)
- CLIP + Flow Matching架構(gòu):
在圖像生成模塊中,采用CLIP作為圖像編碼器,結(jié)合流匹配(Flow Matching)損失函數(shù)來訓(xùn)練擴(kuò)散模型。
CLIP能夠提取豐富的語義特征,而流匹配損失函數(shù)能夠更好地捕捉圖像分布,從而生成更高質(zhì)量和多樣化的圖像。
- 高效的擴(kuò)散變換器(DiT):
基于Lumina-Next模型的擴(kuò)散變換器架構(gòu),引入了3D旋轉(zhuǎn)位置嵌入(Rotary Position Embedding),能夠有效地編碼時(shí)空結(jié)構(gòu),同時(shí)采用夾心歸一化(Sandwich Normalization)和分組查詢注意力(Grouped-Query Attention),提高了模型的穩(wěn)定性和生成效率。
- 高質(zhì)量指令微調(diào)數(shù)據(jù)集:
精心策劃了一個(gè)包含6萬個(gè)高質(zhì)量指令-圖像對(duì)的數(shù)據(jù)集(BLIP3o-60k),通過GPT-4o生成多樣化場景、對(duì)象和手勢的描述,用于指令微調(diào)。
訓(xùn)練步驟
- 圖像理解模塊訓(xùn)練:
使用預(yù)訓(xùn)練的Qwen 2.5 VL模型作為圖像理解模塊的骨干網(wǎng)絡(luò),跳過圖像理解任務(wù)的訓(xùn)練階段,直接構(gòu)建圖像生成模塊。
- 圖像生成預(yù)訓(xùn)練:
數(shù)據(jù)準(zhǔn)備:對(duì)于8B模型,結(jié)合約2500萬開源數(shù)據(jù)(如CC12M、SA-1B和JourneyDB)和額外的3000萬專有圖像,所有圖像的描述由Qwen2.5-VL-7B-Instruct生成,平均長度為120個(gè)標(biāo)記。同時(shí),為了提高對(duì)不同長度提示的泛化能力,還混入了約10%(600萬)較短的描述(約20個(gè)標(biāo)記)。對(duì)于4B模型,僅使用開源數(shù)據(jù)進(jìn)行訓(xùn)練。
模型訓(xùn)練:凍結(jié)Qwen 2.5 VL骨干網(wǎng)絡(luò),訓(xùn)練擴(kuò)散變換器模塊。通過自回歸模型生成中間視覺特征,再利用擴(kuò)散變換器和流匹配損失函數(shù)來生成接近真實(shí)CLIP特征的圖像特征,最終通過擴(kuò)散解碼器生成圖像。
- 指令微調(diào):針對(duì)預(yù)訓(xùn)練階段未能充分覆蓋的復(fù)雜人類手勢、常見物體、地標(biāo)和簡單文本等類別,通過GPT-4o生成約10k提示-圖像對(duì),創(chuàng)建針對(duì)性的數(shù)據(jù)集,對(duì)模型進(jìn)行指令微調(diào),以提高模型在這些領(lǐng)域的生成能力和視覺審美質(zhì)量。
實(shí)驗(yàn)結(jié)果
- 圖像理解任務(wù):BLIP3-o 8B模型在多個(gè)圖像理解基準(zhǔn)測試(如VQAv2、MMBench、SeedBench等)中取得了最佳性能,顯示出其在圖像理解方面的強(qiáng)大能力。
- 圖像生成任務(wù):在圖像生成基準(zhǔn)測試中,BLIP3-o 8B模型在GenEval(衡量提示對(duì)齊)上得分為0.84,在WISE(評(píng)估世界知識(shí)推理能力)上得分為0.62,雖然在DPG-Bench上的得分較低,但通過人類研究發(fā)現(xiàn),BLIP3-o在視覺質(zhì)量和提示對(duì)齊方面均優(yōu)于Janus Pro 7B模型,表明其生成的圖像更符合人類偏好且具有更好的視覺效果。
- 指令微調(diào)的效果:通過僅使用60k提示-圖像對(duì)進(jìn)行指令微調(diào),模型在提示對(duì)齊和視覺審美方面取得了顯著提升,許多生成偽影也得到了快速減少,證明了指令微調(diào)數(shù)據(jù)集的有效性。
??https://arxiv.org/pdf/2505.09568??
本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI
