成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

融合語(yǔ)言模型的多模態(tài)大模型研究

發(fā)布于 2025-4-8 00:32
瀏覽
0收藏

近年來(lái),大語(yǔ)言模型(Large language model, LLM)取得了顯著進(jìn)展。以ChatGPT為代表的LLM在自然語(yǔ)言任務(wù)上展現(xiàn)出驚人的智能涌現(xiàn)能力。盡管LLM在很多推理任務(wù)上表現(xiàn)出前所未有的接近人類(lèi)的性能,但是單純的LLM只能處理文本類(lèi)任務(wù)。與此同時(shí),在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺(jué)基礎(chǔ)模型也在快速發(fā)展。盡管在視覺(jué)領(lǐng)域還沒(méi)有出現(xiàn)“ChatGPT時(shí)刻”,但是預(yù)訓(xùn)練視覺(jué)基礎(chǔ)模型已經(jīng)可以在很多真實(shí)視覺(jué)場(chǎng)景、數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的零樣本、少樣本性能。如何將兩者在各自領(lǐng)域的優(yōu)秀性能結(jié)合起來(lái),實(shí)現(xiàn)在視覺(jué)-語(yǔ)言領(lǐng)域具有推理能力的通用大模型是當(dāng)前一個(gè)熱門(mén)研究課題。

1.模型介紹

GPT-4在技術(shù)報(bào)告中展示了驚艷的多模態(tài)能力,如圖1、2、3所示。但是GPT-4還沒(méi)開(kāi)放多模態(tài)能力的接口。很多研究者已經(jīng)基于開(kāi)源LLM進(jìn)行了相關(guān)的研究,力圖達(dá)到GPT-4展示的強(qiáng)大多模態(tài)性能。

下面以發(fā)布時(shí)間為順序,介紹主流的融合LLM的多模態(tài)模型各自的一些特點(diǎn),以此窺見(jiàn)此類(lèi)技術(shù)的發(fā)展趨勢(shì)。

融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖1 讓GPT-4描述圖中有趣的地方

GPT-4可以識(shí)別出VGA接口和lightning接口,而且判斷出VGA接口與手機(jī)是不匹配的。


融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖2 GPT-4GPT-4既可以識(shí)別出熨燙衣服,也能夠識(shí)別出租車(chē)在行駛,最終識(shí)別出這兩個(gè)場(chǎng)景出現(xiàn)在一個(gè)畫(huà)面中是不正常的。 

融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖3 GPT-4推理能力

GPT-4在這個(gè)畫(huà)面的識(shí)別中展現(xiàn)出了較為強(qiáng)大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內(nèi)容的反差形成了一個(gè)幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺(jué)編碼器“這種多模態(tài)模型構(gòu)想的工作,整體結(jié)構(gòu)如圖5。這個(gè)工作主要提出了Q-former這個(gè)跨視覺(jué)語(yǔ)言模態(tài)的連接結(jié)構(gòu)。如圖4所示,Q-former結(jié)構(gòu)設(shè)計(jì)包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對(duì)齊語(yǔ)言和視覺(jué)特征的設(shè)計(jì)主要來(lái)源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語(yǔ)言模型,這些模型在語(yǔ)言生成方面的能力不是特別強(qiáng)。BLIP2的預(yù)訓(xùn)練分為兩階段,第一階段Q-former與一個(gè)凍結(jié)參數(shù)的image encoder訓(xùn)練,學(xué)習(xí)視覺(jué)語(yǔ)言表征;第二階段Q-former與凍結(jié)的LLM訓(xùn)練,學(xué)習(xí)視覺(jué)到文本的生成能力。在進(jìn)行一些下游任務(wù),如image caption,visual question answering(VQA),BLIP2模型仍需要微調(diào)Q-former和image-encoder的模型權(quán)重。BLIP2模型的一個(gè)缺陷是,沒(méi)有in context learning能力,上下文關(guān)聯(lián)對(duì)話能力較差。作者認(rèn)為原因是BLIP2的訓(xùn)練數(shù)據(jù)是單對(duì)的圖文對(duì),數(shù)據(jù)本身就缺少多輪對(duì)話相關(guān)性。

融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖4 Q-former結(jié)構(gòu)

融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖5 Q-former兩階段預(yù)訓(xùn)練

MiniGPT-4是作者場(chǎng)景復(fù)現(xiàn)GPT-4強(qiáng)大的多模態(tài)能力提出的工作。MiniGPT-4將Q-former & ViT視為一個(gè)參數(shù)凍結(jié)的整體。LLM也保持參數(shù)凍結(jié)。如圖所示,MiniGPT-4通過(guò)一個(gè)線性層來(lái)跨模態(tài)連接這兩個(gè)部分。Mini-GPT4使用語(yǔ)言生成能力較強(qiáng)的Vicuna模型(基于開(kāi)源LLaMA模型構(gòu)建)作為L(zhǎng)LM,生成文本質(zhì)量進(jìn)一步提高。MiniGPT-4性能表現(xiàn)的提高也得益于訓(xùn)練數(shù)據(jù)的質(zhì)量。作者表示只使用來(lái)自公開(kāi)數(shù)據(jù)集的圖文對(duì)數(shù)據(jù)是無(wú)法訓(xùn)練出優(yōu)秀的多模態(tài)語(yǔ)言模型的。MiniGPT-4使用了3500對(duì)高質(zhì)量圖文數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)。MiniGPT-4模型的訓(xùn)練分為兩階段,第一階段是在大量圖文對(duì)數(shù)據(jù)集上預(yù)訓(xùn)練,獲得視覺(jué)語(yǔ)言對(duì)齊能力。第二階段是在高質(zhì)量圖文數(shù)據(jù)上微調(diào)以獲得較強(qiáng)的對(duì)話能力。這種兩階段的訓(xùn)練方法也成為了未來(lái)一些工作的主流訓(xùn)練范式。MiniGPT-4使用的3500對(duì)高質(zhì)量數(shù)據(jù)集是來(lái)源于作者使用第一階段預(yù)訓(xùn)練完成的模型,通過(guò)提示工程的方法為每張圖片生成長(zhǎng)度更長(zhǎng),描述信息更加豐富、細(xì)節(jié)的文本。這些文本通常具有很多噪聲和內(nèi)容錯(cuò)誤,作者利用ChatGPT對(duì)第一階段的生成文本進(jìn)行再優(yōu)化。MiniGPT4這個(gè)工作進(jìn)一步說(shuō)明了數(shù)據(jù)質(zhì)量對(duì)于模型對(duì)話能力的重要性。

融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖6 MiniGPT-4模型結(jié)構(gòu)

微軟團(tuán)隊(duì)在MiniGPT-4發(fā)布相近的時(shí)間點(diǎn)提出了LLaVA模型這篇工作。兩篇工作都提升了多模態(tài)語(yǔ)言模型在復(fù)雜對(duì)話方面的能力,具有一定相似性,實(shí)現(xiàn)技術(shù)方案各有特點(diǎn)。LLaVA使用線性層連接連接image encoder的視覺(jué)特征和語(yǔ)言指令,共同送入到LLM的輸入。LLaVA沒(méi)有保留Q-former這種比較重型的結(jié)構(gòu),直接使用線性層連接視覺(jué)語(yǔ)言模態(tài),第一次將跨模態(tài)連接結(jié)構(gòu)簡(jiǎn)化至這個(gè)程度。LLaVA模型的訓(xùn)練也分為兩個(gè)階段。第一階段使用圖文對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,這一階段是為了對(duì)齊視覺(jué)和圖像特征,這個(gè)階段視覺(jué)編碼器和LLM的參數(shù)均凍結(jié),僅訓(xùn)練連接層。第二階段使用多輪對(duì)話圖文數(shù)據(jù)進(jìn)行訓(xùn)練,在這個(gè)階段訓(xùn)練連接層和LLM的參數(shù)。LLaVA在多模態(tài)推理評(píng)測(cè)數(shù)據(jù)集Science QA上達(dá)到了最高水平。LLaVA強(qiáng)大的性能來(lái)自于作者構(gòu)造的一套指令跟隨數(shù)據(jù)集(instruction-following)。與MiniGPT-4主要利用一階段訓(xùn)練模型進(jìn)行微調(diào)數(shù)據(jù)生成,還需要進(jìn)行文本噪聲、錯(cuò)誤后處理不同,LLaVA調(diào)用GPT-4接口,結(jié)合人類(lèi)標(biāo)注的圖文信息,進(jìn)行高質(zhì)量的多輪對(duì)話圖文數(shù)據(jù)生成。作者將這個(gè)高質(zhì)量圖文對(duì)話數(shù)據(jù)集命名為L(zhǎng)LaVA-150K并且開(kāi)源。LLaVA-150K包含了基于圖像信息構(gòu)造的“對(duì)話、細(xì)節(jié)描述、復(fù)雜推理”三種類(lèi)型的文本內(nèi)容。

融合語(yǔ)言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖7 InstructBLIP使用的多種數(shù)據(jù)集及其任務(wù)類(lèi)型

BLIP2團(tuán)隊(duì)后來(lái)推出了InstructBLIP這個(gè)工作[3],通過(guò)指令微調(diào)的方式解決BLIP2模型的一些缺陷。相比BLIP2,InstructBLIP已經(jīng)具有較強(qiáng)的多輪對(duì)話能力。InstructBLIP復(fù)用了BLIP2的模型架構(gòu),即模型由LLM,visual encoder,Q-former組成。相比BLIP2,InstructBLIP使用了較新的T5、Vicuna語(yǔ)言模型。在指令微調(diào)過(guò)程中,模型中的視覺(jué)編碼器和LLM參數(shù)凍結(jié),只訓(xùn)練Q-former參數(shù)。InstructBLIP使用的數(shù)據(jù)類(lèi)型非常廣泛,一共包括11個(gè)任務(wù)場(chǎng)景、26個(gè)數(shù)據(jù)集(圖7)。這些數(shù)據(jù)集包含的內(nèi)容特別廣,經(jīng)過(guò)微調(diào)訓(xùn)練后,InstructBLIP可以回答單選、多選、短答案、長(zhǎng)答案等多種形式的類(lèi)型問(wèn)題。

2.總結(jié)


從以上這些融合了LLM的多模態(tài)模型,我們可以得到一些發(fā)現(xiàn)。這些工作主要都是集中在23年,可能是受GPT4所展示的多模態(tài)能力的啟發(fā)。目前融合LLM和視覺(jué)模型的方式還相對(duì)簡(jiǎn)單粗暴,但是已經(jīng)展現(xiàn)出了優(yōu)秀的效果,未來(lái)多模態(tài)通用模型可能成為人工智能的下一個(gè)發(fā)展目標(biāo)。視覺(jué)研究者和語(yǔ)言大模型研究者的研究范式呈現(xiàn)出越來(lái)越相近的趨勢(shì)。

參考文獻(xiàn)

[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.

[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.

[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.

本文轉(zhuǎn)載自??AI遇見(jiàn)云???,作者:張燚鈞

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 青青草在线视频免费观看 | 欧美在线观看一区 | 成人久久 | 国产精品夜夜春夜夜爽久久电影 | 久久人人爽人人爽人人片av免费 | 自拍偷拍亚洲视频 | 91视在线国内在线播放酒店 | 一区二区三区不卡视频 | 欧美日韩亚洲在线 | 国产乱码一区 | 日韩精品在线观看网站 | 色视频网站 | 一区二区三区影院 | 久久精品亚洲精品国产欧美 | 日本啊v在线 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 亚洲色欲色欲www | 国产成人在线播放 | 亚洲性视频 | 欧美精品啪啪 | 日本一区二区三区在线观看 | 欧美成人一区二区三区 | 亚洲电影专区 | 我要看黄色录像一级片 | 久久久久久久成人 | 午夜视频一区 | 国产成人网 | 欧美一区二区三区日韩 | 久久久91 | 97精品超碰一区二区三区 | 亚洲精品99999| 久久久久久久国产 | 日韩国产中文字幕 | 777777777亚洲妇女 | 欧美a级成人淫片免费看 | 成人免费一级 | 日韩在线免费播放 | 91精品国产色综合久久 | 美女视频一区二区三区 | 国产精品国产成人国产三级 | 性生活毛片 |