成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)

發(fā)布于 2025-5-26 00:50
瀏覽
0收藏

需要解決的問題

統(tǒng)一圖像理解和生成:

  • 以前的方案沒有融合圖像理解和生成量大任務(wù),例如:在生成復(fù)雜場景、特定對(duì)象或高質(zhì)量圖像時(shí)表現(xiàn)不足,同時(shí)在圖像理解和生成任務(wù)之間缺乏有效的協(xié)同訓(xùn)練機(jī)制。

提升生成質(zhì)量和效率:

  • 傳統(tǒng)的基于VAE(變分自編碼器)的圖像表示方法在生成圖像時(shí)存在分辨率限制和訓(xùn)練效率低下的問題
  • 在統(tǒng)一框架中高效地生成高質(zhì)量圖像并保持圖像理解能力,是需要解決的關(guān)鍵問題之一。

核心思想

BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

  • 融合自回歸模型和擴(kuò)散模型

借鑒了OpenAI的GPT-4o圖像生成架構(gòu),采用自回歸模型生成中間視覺特征,再通過擴(kuò)散模型生成最終圖像。

這種結(jié)合方式在充分發(fā)揮了自回歸模型在語義理解和擴(kuò)散模型在高質(zhì)量圖像生成方面的優(yōu)勢。

  • 統(tǒng)一圖像表示和任務(wù)空間

使用CLIP(Contrastive Language-Image Pre-training)模型的圖像特征作為目標(biāo)表示,將圖像理解和圖像生成任務(wù)統(tǒng)一到同一個(gè)語義空間中。

確保模型在處理兩個(gè)任務(wù)時(shí)能夠共享語義信息,提高任務(wù)之間的協(xié)同性和一致性。

  • 優(yōu)化訓(xùn)練策略

通過對(duì)比不同的訓(xùn)練策略,包括聯(lián)合訓(xùn)練和順序訓(xùn)練,選擇了順序訓(xùn)練方法。

即先訓(xùn)練圖像理解模塊,凍結(jié)其參數(shù)后再訓(xùn)練圖像生成模塊,以避免任務(wù)之間的干擾并充分利用預(yù)訓(xùn)練的語言模型能力。

技術(shù)亮點(diǎn)

BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

  • CLIP + Flow Matching架構(gòu)

在圖像生成模塊中,采用CLIP作為圖像編碼器,結(jié)合流匹配(Flow Matching)損失函數(shù)來訓(xùn)練擴(kuò)散模型。

CLIP能夠提取豐富的語義特征,而流匹配損失函數(shù)能夠更好地捕捉圖像分布,從而生成更高質(zhì)量和多樣化的圖像。

  • 高效的擴(kuò)散變換器(DiT)

基于Lumina-Next模型的擴(kuò)散變換器架構(gòu),引入了3D旋轉(zhuǎn)位置嵌入(Rotary Position Embedding),能夠有效地編碼時(shí)空結(jié)構(gòu),同時(shí)采用夾心歸一化(Sandwich Normalization)和分組查詢注意力(Grouped-Query Attention),提高了模型的穩(wěn)定性和生成效率。

  • 高質(zhì)量指令微調(diào)數(shù)據(jù)集

精心策劃了一個(gè)包含6萬個(gè)高質(zhì)量指令-圖像對(duì)的數(shù)據(jù)集(BLIP3o-60k),通過GPT-4o生成多樣化場景、對(duì)象和手勢的描述,用于指令微調(diào)。

訓(xùn)練步驟

BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

  1. 圖像理解模塊訓(xùn)練

使用預(yù)訓(xùn)練的Qwen 2.5 VL模型作為圖像理解模塊的骨干網(wǎng)絡(luò),跳過圖像理解任務(wù)的訓(xùn)練階段,直接構(gòu)建圖像生成模塊。

  1. 圖像生成預(yù)訓(xùn)練

數(shù)據(jù)準(zhǔn)備:對(duì)于8B模型,結(jié)合約2500萬開源數(shù)據(jù)(如CC12M、SA-1B和JourneyDB)和額外的3000萬專有圖像,所有圖像的描述由Qwen2.5-VL-7B-Instruct生成,平均長度為120個(gè)標(biāo)記。同時(shí),為了提高對(duì)不同長度提示的泛化能力,還混入了約10%(600萬)較短的描述(約20個(gè)標(biāo)記)。對(duì)于4B模型,僅使用開源數(shù)據(jù)進(jìn)行訓(xùn)練。

模型訓(xùn)練:凍結(jié)Qwen 2.5 VL骨干網(wǎng)絡(luò),訓(xùn)練擴(kuò)散變換器模塊。通過自回歸模型生成中間視覺特征,再利用擴(kuò)散變換器和流匹配損失函數(shù)來生成接近真實(shí)CLIP特征的圖像特征,最終通過擴(kuò)散解碼器生成圖像。

  1. 指令微調(diào):針對(duì)預(yù)訓(xùn)練階段未能充分覆蓋的復(fù)雜人類手勢、常見物體、地標(biāo)和簡單文本等類別,通過GPT-4o生成約10k提示-圖像對(duì),創(chuàng)建針對(duì)性的數(shù)據(jù)集,對(duì)模型進(jìn)行指令微調(diào),以提高模型在這些領(lǐng)域的生成能力和視覺審美質(zhì)量。

實(shí)驗(yàn)結(jié)果

BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

BLIP3-o統(tǒng)一圖像生成與理解,多模態(tài)融合趨勢顯現(xiàn)-AI.x社區(qū)

  • 圖像理解任務(wù):BLIP3-o 8B模型在多個(gè)圖像理解基準(zhǔn)測試(如VQAv2、MMBench、SeedBench等)中取得了最佳性能,顯示出其在圖像理解方面的強(qiáng)大能力。
  • 圖像生成任務(wù):在圖像生成基準(zhǔn)測試中,BLIP3-o 8B模型在GenEval(衡量提示對(duì)齊)上得分為0.84,在WISE(評(píng)估世界知識(shí)推理能力)上得分為0.62,雖然在DPG-Bench上的得分較低,但通過人類研究發(fā)現(xiàn),BLIP3-o在視覺質(zhì)量和提示對(duì)齊方面均優(yōu)于Janus Pro 7B模型,表明其生成的圖像更符合人類偏好且具有更好的視覺效果。
  • 指令微調(diào)的效果:通過僅使用60k提示-圖像對(duì)進(jìn)行指令微調(diào),模型在提示對(duì)齊和視覺審美方面取得了顯著提升,許多生成偽影也得到了快速減少,證明了指令微調(diào)數(shù)據(jù)集的有效性。

??https://arxiv.org/pdf/2505.09568??

??https://github.com/JiuhaiChen/BLIP3o??

??https://huggingface.co/BLIP3o/BLIP3o-Model??

本文轉(zhuǎn)載自??CourseAI??,作者:CourseAI

標(biāo)簽
已于2025-5-26 00:54:38修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产男女猛烈无遮掩视频免费网站 | 天天艹日日干 | 欧美freesex黑人又粗又大 | 亚洲一区二区三区四区五区午夜 | 99精品一区| 中文在线a在线 | 鸡毛片 | 国产成人精品综合 | 中文字幕av一区二区三区 | 中文字幕亚洲精品 | 91在线中文字幕 | 欧美日韩专区 | 成人综合一区二区 | 亚洲精品久久久久久久久久久 | 亚洲天堂av在线 | 国产探花在线精品一区二区 | 欧美精品一区二区三区蜜臀 | 新超碰97 | 欧美一级免费看 | 一级黄色大片 | 国产中文| 黑人粗黑大躁护士 | 精品免费视频 | 欧美影院 | 国产欧美一区二区三区免费 | 国产精品美女www爽爽爽视频 | 久久精品欧美视频 | 日韩国产精品一区二区三区 | 精品国模一区二区三区欧美 | 国产精品成人一区二区 | 天天综合国产 | 中文在线一区二区 | 日本高清中文字幕 | 成人免费一级 | 天堂一区 | 夜夜夜久久 | 国产亚洲一区在线 | caoporn国产精品免费公开 | 国产不卡视频在线 | 精品国产乱码久久久久久牛牛 | 天天操天天摸天天干 |