成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 原創(chuàng)

發(fā)布于 2024-6-3 08:29
瀏覽
0收藏

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC框架概述,這是一個(gè)專注于LVLM圖像理解能力的兩階段自我訓(xùn)練算法。 第1階段,基礎(chǔ)LVLM使用精心設(shè)計(jì)的提示、設(shè)計(jì)不良的提示和扭曲的圖像自我構(gòu)建其圖像描述偏好數(shù)據(jù)集。在第2階段,之前使用過的監(jiān)督微調(diào)(SFT)數(shù)據(jù)的一小部分被回收利用,并與模型生成的圖像描述進(jìn)一步微調(diào)基礎(chǔ)LVLM。

大型視覺語言模型(LVLMs)將大型語言模型(LLMs)與預(yù)訓(xùn)練的視覺編碼器結(jié)合在一起,從而激活了模型的感知能力,以理解不同查詢的圖像輸入并進(jìn)行后續(xù)推理。改進(jìn)這種能力需要高質(zhì)量的視覺語言數(shù)據(jù),這種數(shù)據(jù)獲取成本高且需要大量的人力資源。自我訓(xùn)練方法在單模態(tài)環(huán)境中通過利用模型自身的生成來減輕對(duì)標(biāo)記數(shù)據(jù)的需求已經(jīng)被證明是有效的。然而,有效的自我訓(xùn)練對(duì)LVLMs的獨(dú)特視覺感知和推理能力仍然是一個(gè)挑戰(zhàn)。

為了解決這個(gè)問題,研究人員開發(fā)了Self-Training on Image Comprehension(STIC),強(qiáng)調(diào)了一種專門用于圖像理解的自我訓(xùn)練方法。首先,模型使用未標(biāo)記的圖像自構(gòu)建了一個(gè)圖像描述的偏好數(shù)據(jù)集。通過逐步的提示生成首選響應(yīng),而不良響應(yīng)則是從扭曲的圖像或誤導(dǎo)性提示中生成的。為了進(jìn)一步自我改進(jìn)對(duì)提取的視覺信息的推理,研究人員讓模型重用一小部分現(xiàn)有的指導(dǎo)微調(diào)數(shù)據(jù),并將其自動(dòng)生成的圖像描述附加到提示中。

在七個(gè)不同的基準(zhǔn)測(cè)試中驗(yàn)證了STIC的有效性,研究人員展示了平均性能提升4.0%的顯著性能增益,同時(shí)使用的監(jiān)督微調(diào)數(shù)據(jù)比當(dāng)前方法少70%。進(jìn)一步的研究探討了STIC的各個(gè)組成部分,并突出了它利用大量未標(biāo)記圖像進(jìn)行自我訓(xùn)練的潛力。

STIC:自構(gòu)建的偏好數(shù)據(jù)

STIC特別強(qiáng)調(diào)了LVLM圖像理解的自我訓(xùn)練,其中模型生成了自己的偏好數(shù)據(jù),重點(diǎn)是圖像描述。通過收集模型響應(yīng)而得到自動(dòng)生成的不良響應(yīng),其來源可能是(1)可能導(dǎo)致不準(zhǔn)確響應(yīng)的提示或(2)扭曲的圖像。首選響應(yīng)通過詳細(xì)的提示收集,該提示引導(dǎo)模型通過逐步的圖像描述過程。

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC:兩階段自我訓(xùn)練

研究人員開發(fā)了STIC,一個(gè)設(shè)計(jì)用于增強(qiáng)圖像理解能力的兩階段自我訓(xùn)練算法。第一階段構(gòu)建了自己的偏好數(shù)據(jù)集,第二階段將使用的監(jiān)督微調(diào)(SFT)數(shù)據(jù)與自動(dòng)生成的圖像描述混合以進(jìn)行微調(diào)。

STIC特別強(qiáng)調(diào)了LVLM圖像理解的自我訓(xùn)練,其中模型生成了自己的偏好數(shù)據(jù),重點(diǎn)是圖像描述。通過收集模型響應(yīng)而得到自動(dòng)生成的不良響應(yīng),其來源可能是(1)可能導(dǎo)致不準(zhǔn)確響應(yīng)的提示或(2)扭曲的圖像。首選響應(yīng)通過詳細(xì)的提示收集,該提示引導(dǎo)模型通過逐步的圖像描述過程。

在微調(diào)過程中,研究人員考慮了直接偏好優(yōu)化(DPO)損失,并增加了一個(gè)額外的正則化項(xiàng),明確強(qiáng)調(diào)了首選響應(yīng)。最后,允許模型根據(jù)自己提取的圖像信息自我改進(jìn)其推理能力,方法是重新使用少量現(xiàn)有的指導(dǎo)微調(diào)數(shù)據(jù),并將其自動(dòng)生成的圖像描述附加到提示中。研究人員將這個(gè)第二階段稱為描述注入微調(diào)。值得注意的是,STIC方法不需要圖像的預(yù)標(biāo)記信息,這與依賴此類信息構(gòu)建視覺語言偏好數(shù)據(jù)的最近工作形成對(duì)比。

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC: 主要結(jié)果

為了展示STIC的有效性,研究人員在七個(gè)視覺語言基準(zhǔn)測(cè)試上進(jìn)行了廣泛的實(shí)驗(yàn),包括ScienceQA、TextVQA、ChartQA、LLaVA-Bench、MMBench、MM-Vet和MathVista。這些基準(zhǔn)測(cè)試涵蓋了科學(xué)推理、數(shù)學(xué)推理、光學(xué)字符識(shí)別(OCR)和基于視覺輸入的對(duì)話能力,涵蓋了各種圖像來源,如自然圖像、圖表和文本豐富的圖像。研究人員將LLaVA-v1.6作為實(shí)驗(yàn)的主要基礎(chǔ)LVLM,并使用來自MSCOCO的6000張圖像來構(gòu)建圖像描述偏好數(shù)據(jù)。

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC在這些基準(zhǔn)測(cè)試中實(shí)現(xiàn)了一致且顯著的性能改進(jìn),基于基礎(chǔ)LVLM的平均準(zhǔn)確率提高了4.0%,在ScienceQA上的顯著增益為6.4%。這些結(jié)果表明了圖像理解自我訓(xùn)練方法在增強(qiáng)LVLM的視覺感知能力方面的顯著有效性。

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

STIC:t-SNE可視化

為了進(jìn)一步洞察STIC在不同基準(zhǔn)測(cè)試中的有效性,研究人員進(jìn)行了t-SNE可視化分析,比較了用于偏好數(shù)據(jù)構(gòu)建的MSCOCO圖像分布與四個(gè)基準(zhǔn)測(cè)試的圖像分布:ScienceQA、TextVQA、MathVista和ChartQA。

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

分析揭示了一個(gè)普遍趨勢(shì):MSCOCO圖像分布與基準(zhǔn)測(cè)試之間的重疊越大,STIC在該基準(zhǔn)測(cè)試上實(shí)現(xiàn)的性能增益就越高。這一觀察結(jié)果在ScienceQA和TextVQA上得到了驗(yàn)證,這兩個(gè)基準(zhǔn)測(cè)試與MSCOCO存在大量的分布重疊,并分別實(shí)現(xiàn)了6.4%和4.9%的最高性能增益。相反,MathVista由于其多樣的圖像類型和與MSCOCO的有限重疊,看到了更為適度的增益,為2.4%。有趣的是,ChartQA是一個(gè)離群值,盡管與MSCOCO的重疊程度較小,但實(shí)現(xiàn)了5.1%的高增益,這表明STIC改進(jìn)的圖像理解在理解和推理圖表方面發(fā)揮了基礎(chǔ)作用。

STIC:自我訓(xùn)練增強(qiáng)LVLM對(duì)圖像理解的能力 -AI.x社區(qū)

譯自(有刪改):https://stic-lvlm.github.io


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/hsk4VBH_EM__dNpd74P2qQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日日夜夜免费精品视频 | 亚洲三区在线播放 | 欧美亚洲一区二区三区 | 欧美视频1区 | 国产欧美一级二级三级在线视频 | 中文字幕国产一区 | 9色网站 | 国产精品婷婷 | 在线日韩欧美 | 亚洲 91| 亚洲一区在线免费观看 | 91亚洲国产精品 | 久久99久久98精品免观看软件 | 欧美在线成人影院 | 欧美一级免费看 | 性色视频在线观看 | 国产午夜精品理论片a大结局 | 一区二区三区四区国产 | 精品三区| 91 在线 | 91性高湖久久久久久久久_久久99 | 国产一区二区三区日韩 | a级毛片基地 | 欧美性大战久久久久久久蜜臀 | 999久久精品 | 又黑又粗又长的欧美一区 | 欧美高清视频 | 亚洲国产一区二区三区在线观看 | 久久久久久久久毛片 | 成人免费在线播放视频 | 人成在线视频 | 日韩 欧美 二区 | 久久久蜜桃 | 精品视频一区二区三区在线观看 | 免费黄色片视频 | 日日夜夜精品视频 | 台湾a级理论片在线观看 | 色眯眯视频在线观看 | 女同久久 | 国产精品久久国产精品99 | 成人小视频在线 |