成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM

發(fā)布于 2024-8-30 09:39
瀏覽
0收藏

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2408.11795

亮點(diǎn)直擊

  • 本文重新審視了多模態(tài)大型語言模型中的模態(tài)對齊問題,指出了基于自注意力和交叉注意力方法的效率和效果問題。
  • 本文為EE-MLLM提出了一種復(fù)合注意力機(jī)制,以提高數(shù)據(jù)和計(jì)算效率。
  • 本文的EE-MLLM在各種基準(zhǔn)測試中表現(xiàn)出色,同時(shí)推理速度得到了很大提升。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

在多模態(tài)研究領(lǐng)域,許多研究利用大量圖文對進(jìn)行模態(tài)對齊學(xué)習(xí),將大型語言模型(LLMs)轉(zhuǎn)變?yōu)槎嗄B(tài)LLMs,并在各種視覺語言任務(wù)中表現(xiàn)出色?,F(xiàn)有的方法主要分為兩類:基于自注意力的方法和基于交叉注意力的方法。雖然基于自注意力的方法由于其簡單的MLP架構(gòu)具有較高的數(shù)據(jù)效率,但由于將視覺和文本token連接為LLM的輸入,通常在計(jì)算效率上較低。相反,基于交叉注意力的方法雖然由于額外的可學(xué)習(xí)參數(shù)而數(shù)據(jù)效率較低,但通過避免LLM的長序列輸入表現(xiàn)出較高的計(jì)算效率。為解決這些權(quán)衡,本文引入了數(shù)據(jù)高效和計(jì)算高效的多模態(tài)大型語言模型(EE-MLLM)。在不引入額外模塊或可學(xué)習(xí)參數(shù)的情況下,EE-MLLM實(shí)現(xiàn)了數(shù)據(jù)和計(jì)算效率。具體來說,本文將MLLM中的原始自注意力機(jī)制修改為復(fù)合注意力機(jī)制。該機(jī)制有兩個(gè)關(guān)鍵特征:1)消除視覺token內(nèi)部自注意力的計(jì)算開銷以實(shí)現(xiàn)計(jì)算效率,2)重用LLM每一層的權(quán)重以促進(jìn)視覺和語言之間的有效模態(tài)對齊,實(shí)現(xiàn)數(shù)據(jù)效率。實(shí)驗(yàn)結(jié)果表明,EE-MLLM在一系列基準(zhǔn)測試中表現(xiàn)出色,包括諸如MMBench和SeedBench等通用數(shù)據(jù)集,以及如TextVQA和DocVQA等細(xì)粒度任務(wù)。

方法

模型結(jié)構(gòu)

EE-MLLM 包括一個(gè)視覺編碼器、一個(gè)作為投影器的兩層 MLP,以及帶有復(fù)合解碼層的大型語言模型(LLM)。本文提出了一種復(fù)合注意力機(jī)制,并為 EE-MLLM 設(shè)計(jì)了一個(gè)復(fù)合解碼層,以實(shí)現(xiàn)數(shù)據(jù)效率和計(jì)算效率。復(fù)合解碼層由一個(gè)對齊器和一個(gè)復(fù)合注意力模塊組成。


復(fù)合注意力模塊。 原始的自注意力機(jī)制包括視覺token之間的自注意力、文本token之間的自注意力,以及文本token和視覺token之間的交叉注意力。本文觀察到視覺token之間的自注意力是多余的,原因有兩個(gè):

  • 視覺token之間的交互已經(jīng)在視覺編碼器中得到了良好的學(xué)習(xí);
  • 大型語言模型(LLM)可以通過信息聚合特性實(shí)現(xiàn)視覺token之間的隱式交互。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

這可以被視為一個(gè)沒有注意力機(jī)制的解碼器塊。

計(jì)算開銷分析

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)

模型配置。 本文采用 Vicuna-7b-v1.5作為本文的 LLM,并使用 SigLIP作為視覺編碼器。具體來說,SigLIP 從 Idefics2 初始化,該模型支持動(dòng)態(tài)分辨率,最大可達(dá)980X980 。投影器由一個(gè)兩層的 MLP 組成,與 LLaVA 相同。


數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

評(píng)估基準(zhǔn)

本文使用VLMEvalKit 進(jìn)行評(píng)估,其他最新模型的結(jié)果也來自同一來源。

通用基準(zhǔn)

  1. MMBench-EN 是一個(gè)綜合的多模態(tài)基準(zhǔn),專門設(shè)計(jì)用于評(píng)估多模態(tài)語言模型(MLLMs)的性能。它包含超過3,000個(gè)多項(xiàng)選擇題,涵蓋20個(gè)能力類別。本文在MMBench-ENV1.1上評(píng)估了EE-MLLM。
  2. MME 評(píng)估高級(jí)MLLMs的感知和認(rèn)知能力,總共包括14個(gè)子任務(wù)。為了盡量減少提示工程對MLLMs的影響,MME的指令設(shè)計(jì)為引導(dǎo)簡單的二元回答,例如“請回答是或否”。本文報(bào)告了MME的感知部分的結(jié)果。
  3. ScienceQA 來源于小學(xué)和高中的科學(xué)課程。ScienceQA中的問題涵蓋三門學(xué)科:自然科學(xué)、語言科學(xué)和社會(huì)科學(xué)。
  4. HallusionBench 旨在評(píng)估圖像-上下文推理,包含346張圖像和1,129個(gè)由人類專家制作的問題。HallusionBench考慮了語言幻覺和視覺錯(cuò)覺,涉及多種主題。
  5. MMMU (Yue et al. 2023) 收集了來自大學(xué)考試、測驗(yàn)和教科書的11,500個(gè)多模態(tài)問題,涵蓋六個(gè)核心學(xué)科,跨越30個(gè)主題和183個(gè)子領(lǐng)域,包括30種異構(gòu)圖像類型。
  6. CCBench 由MMBench團(tuán)隊(duì)開發(fā),專門用于評(píng)估MLLMs在中國文化領(lǐng)域的表現(xiàn)。
  7. SeedBench 包含19,000個(gè)多項(xiàng)選擇題,涵蓋12個(gè)評(píng)估維度,包括圖像和視頻。本文僅使用帶有圖像的問題進(jìn)行評(píng)估。
  8. BLINK 包含14個(gè)視覺感知任務(wù),對當(dāng)前的多模態(tài)LLMs構(gòu)成重大挑戰(zhàn)。

細(xì)粒度基準(zhǔn)

  1. AI2D 強(qiáng)調(diào)圖解的解釋和推理,包含5,000個(gè)圖解和15,000個(gè)問答。
  2. OCRBench 旨在促進(jìn)對MLLM OCR能力的評(píng)估,包括29個(gè)數(shù)據(jù)集。
  3. TextVQA  包含45,336個(gè)問題和28,408張需要通過文本推理回答的圖像。本文使用包含5,000張圖像的驗(yàn)證集進(jìn)行評(píng)估。
  4. ChartQA  是一個(gè)大規(guī)模基準(zhǔn),包含20,882個(gè)圖表,問題集中于邏輯和視覺推理。
  5. DocVQA 專注于文檔圖像理解,包含50,000個(gè)問題和超過12,000張圖像。本文使用包含5,349個(gè)問題和1,286張圖像的驗(yàn)證集進(jìn)行評(píng)估。
  6. Seed2 Plus 專門為MLLMs的文本豐富視覺理解評(píng)估設(shè)計(jì),包括2,300個(gè)多項(xiàng)選擇題,涵蓋圖表、地圖和網(wǎng)頁。

與最先進(jìn)模型的比較

通用基準(zhǔn)測試。 在下表2中,本文將EE-MLLM與各種最先進(jìn)的MLLM 在八個(gè)通用基準(zhǔn)上進(jìn)行了比較。這些基準(zhǔn)測試評(píng)估了MLLM的綜合能力,包括理解和感知,以及幻覺的嚴(yán)重程度。這些因素共同反映了MLLM在現(xiàn)實(shí)場景中的泛化能力和適用性。EE-MLLM在通用基準(zhǔn)測試中與最先進(jìn)的MLLM表現(xiàn)相當(dāng)。具體來說,EE-MLLM在MMBench中獲得了70.4的得分,在MME中獲得了1528.1的得分,這些分?jǐn)?shù)明顯高于同樣支持高分辨率圖像輸入的LLaVA-v1.6。這表明EE-MLLM具備綜合的感知和推理能力。此外,EE-MLLM在CCBench和SeedBench上也取得了可喜的成績。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

細(xì)粒度基準(zhǔn)測試。 在下表3中,本文在七個(gè)細(xì)粒度基準(zhǔn)上進(jìn)行了評(píng)估。這些基準(zhǔn)測試要求MLLM具備出色的視覺感知能力,因?yàn)樗鼈冃枰剿鲌D像中的細(xì)粒度信息來回答問題。在傳統(tǒng)的VQA基準(zhǔn)測試中,例如TextVQA、ChartQA和DocVQA,EE-MLLM表現(xiàn)非常出色,相較于同樣支持高分辨率的LLaVA-v1.6,在TextVQA上高出4.6分,在ChartQA上高出13.0分。在專門設(shè)計(jì)用于評(píng)估MLLM OCR能力的OCRBench中,EE-MLLM比LLaVA-v1.6高出4.2分。這些結(jié)果表明,盡管EE-MLLM顯著減少了與視覺token相關(guān)的計(jì)算開銷,但它仍然有效地保持了模型的細(xì)粒度能力。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

推理速度比較

盡管EE-MLLM在FLOPs方面表現(xiàn)出了顯著的減少,但在實(shí)際場景中,通常會(huì)在部署時(shí)采用KVCache和Batch Inference等先進(jìn)技術(shù)。因此,有必要在這些技術(shù)下進(jìn)行推理速度的比較。本文在單個(gè)NVIDIA H800上進(jìn)行了推理速度的比較。輸入圖像的分辨率設(shè)置為980X980,生成的tokens數(shù)量從2到256不等。本文在下圖4中展示了EE-MLLM與LLaVA的速度比。本文的研究發(fā)現(xiàn),當(dāng)生成8個(gè)tokens時(shí),EE-MLLM的推理速度是LLaVA的三倍。然而,隨著生成tokens數(shù)量的增加,速度比下降。當(dāng)生成64個(gè)tokens時(shí),EE-MLLM的推理速度是LLaVA的1.6倍。出現(xiàn)這種現(xiàn)象的原因在于本文的EE-MLLM主要在預(yù)填充階段減少了計(jì)算成本,該階段計(jì)算視覺tokens的KV緩存。第一個(gè)token的生成比基于自注意力的方法(如LLaVA)更快。然而,推理速度的優(yōu)勢在第一個(gè)token之后減小。具體來說,對于兩個(gè)輸入圖像,EE-MLLM的推理速度幾乎是LLaVA的四倍。這清楚地表明,EE-MLLM在多圖像輸入場景中(包括交錯(cuò)的圖像-文本對話和多模態(tài)上下文學(xué)習(xí))顯著更高效。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

EE-MLLM 的 GPU 內(nèi)存開銷

本文評(píng)估了EE-MLLM在預(yù)訓(xùn)練和微調(diào)階段的GPU內(nèi)存開銷。同樣,本文在分辨率為336X336時(shí),將EE-MLLM與LLaVA進(jìn)行了比較。本文在8×H800上進(jìn)行實(shí)驗(yàn),預(yù)訓(xùn)練的全局批量大小為256,微調(diào)時(shí)為128。

內(nèi)存使用情況的比較詳見下表5。在預(yù)訓(xùn)練階段,EE-MLLM的內(nèi)存使用顯著較低,為32G,而LLaVA的內(nèi)存使用為75G。在微調(diào)階段,由于主要內(nèi)存使用集中在可訓(xùn)練的LLM上,內(nèi)存使用優(yōu)勢變得不太明顯,EE-MLLM消耗66G,而LLaVA-v1.6使用69G。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

消融研究

實(shí)施細(xì)節(jié)

根據(jù)LLaVA-v1.5,本文采用Vicuna-7b-v1.5 作為本文的基礎(chǔ)LLM。訓(xùn)練數(shù)據(jù)與LLaVA-v1.5一致,包括預(yù)訓(xùn)練數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)。

與LLaVA的比較

在下表4中,本文在相同的設(shè)置下比較了EE-MLLM和LLaVA在一般和細(xì)粒度基準(zhǔn)測試中的表現(xiàn)。對于分辨率為336X336的情況,本文使用CLIP-ViT-L-14作為視覺編碼器,確保與LLaVA-v1.5完全對齊。EE-MLLM在一般基準(zhǔn)測試中表現(xiàn)與LLaVA相當(dāng)。在細(xì)粒度基準(zhǔn)測試中,EE-MLLM在分辨率為336X336時(shí)在AI2D和ChartQA上表現(xiàn)出色,但在OCRBench和TextVQA上略遜于LLaVA。對于336X336分辨率的平均得分為47.1,是LLaVA的48.1的98%。對于分辨率為672X672的情況,本文使用SigLIP作為視覺編碼器。如表4所示,EE-MLLM在AI2D和TextVQA上獲得了相當(dāng)?shù)慕Y(jié)果,平均得分保持在LLaVA性能的98%。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

對齊器的消融實(shí)驗(yàn)

在下表6中,本文評(píng)估了具有不同映射權(quán)重的對齊器變體。本文使用從Idefics2(Lauren?on等人,2024)初始化的SigLIP在不同的輸入分辨率下進(jìn)行實(shí)驗(yàn)。本文移除了對齊器中的不同權(quán)重,并在分辨率為336X336下訓(xùn)練模型。對勾token表示在對齊器中使用的權(quán)重。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

本文有三個(gè)發(fā)現(xiàn):1)如第一行所示,移除整個(gè)對齊器會(huì)顯著降低多個(gè)基準(zhǔn)測試的性能。具體而言,TextVQA的得分從46.1降至44.8,五個(gè)基準(zhǔn)測試的平均得分從34.5降至33.5。這個(gè)結(jié)果突顯了對齊器在將視覺特征與LLM特征空間對齊方面的有效性,使文本tokens能夠通過因果交叉注意模塊捕捉關(guān)鍵的視覺信息并解決問題。2)當(dāng)消融對齊器中的個(gè)別權(quán)重時(shí),本文發(fā)現(xiàn)保持結(jié)構(gòu)更為重要。缺少V或O對低分辨率輸入的影響相對較小,甚至在缺少V時(shí)表現(xiàn)略有提升。然而,當(dāng)缺少FFN時(shí),對齊器的結(jié)構(gòu)不再類似于transformer塊,導(dǎo)致顯著的性能損失。3)本文直接將輸入圖像分辨率提高到672X672,而無需額外訓(xùn)練,并比較具有不同對齊器類型的變體。本文觀察到,在高分辨率輸入下,缺少V或O權(quán)重會(huì)導(dǎo)致細(xì)粒度基準(zhǔn)測試(如TextVQA、ChartQA和DocVQA)出現(xiàn)顯著下降。這個(gè)發(fā)現(xiàn)表明在應(yīng)用于高分辨率圖像時(shí),完整的對齊器是多么重要。

可視化

本文從BLINK 和RealWorldQA 中采樣了四個(gè)示例,以評(píng)估下圖3中架構(gòu)變化的影響。第一個(gè)示例展示了EE-MLLM能夠感知圖像中的細(xì)粒度視覺上下文,例如交通信號(hào)燈的顏色。第二和第三個(gè)示例強(qiáng)調(diào)了EE-MLLM理解物體位置的能力。具體而言,EE-MLLM可以準(zhǔn)確識(shí)別吉他相對于桌子的位置以及狗的位置。最后一個(gè)示例揭示了EE-MLLM能夠區(qū)分視覺內(nèi)容中的細(xì)微差別。

數(shù)據(jù)高效和計(jì)算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM-AI.x社區(qū)

結(jié)論

在本文中,本文重新審視了多模態(tài)大語言模型的先前研究,并將其分為兩類:基于自注意力的方法和基于交叉注意力的方法。前者數(shù)據(jù)效率高但計(jì)算效率低,而后者計(jì)算效率高但數(shù)據(jù)效率低。為了在保持計(jì)算效率的同時(shí)確保數(shù)據(jù)效率,本文為EE-MLLM提出了復(fù)合注意力機(jī)制,該機(jī)制結(jié)合了復(fù)合注意力模塊以提高計(jì)算效率,以及對齊器以提高數(shù)據(jù)效率。本文在一般基準(zhǔn)和細(xì)粒度基準(zhǔn)上進(jìn)行了全面實(shí)驗(yàn),發(fā)現(xiàn)EE-MLLM在大多數(shù)基準(zhǔn)上實(shí)現(xiàn)了最先進(jìn)的性能。本文還評(píng)估了EE-MLLM在實(shí)際場景中的推理速度,結(jié)果表明EE-MLLM在推理方面具有顯著優(yōu)勢。


本文轉(zhuǎn)自AI生成未來,作者:Feipeng Ma等


原文鏈接:??https://mp.weixin.qq.com/s/MyId76rf7UpiskK_jUR87A??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 一区二区在线 | 午夜免费福利电影 | 国产成人99久久亚洲综合精品 | 国产三区四区 | 999久久| 久久久久成人精品 | 五月婷婷激情网 | 亚洲欧美第一视频 | 国产特级毛片aaaaaa | 亚洲综合一区二区三区 | 天天操天天摸天天干 | 午夜av电影 | 97国产精品视频人人做人人爱 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 欧美一级特黄aaa大片在线观看 | 在线中文字幕亚洲 | 中文字幕中文字幕 | 久久久久se | 在线观看第一页 | 亚洲欧美在线观看 | 国产综合精品一区二区三区 | 国产精品日韩欧美一区二区 | 国产欧美在线 | 日韩成人高清 | 一级毛片免费看 | 久久久久久久久久久久久久久久久久久久 | 国产一区二区在线免费播放 | 中文字幕乱码一区二区三区 | 欧美成人免费电影 | 91中文字幕在线观看 | 欧美色影院 | 91色视频在线观看 | 欧美国产日韩在线 | 亚洲午夜精品 | av在线播放一区二区 | 亚洲一区二区在线视频 | 久精品久久 | 毛片一区二区 | 日韩av成人在线 | 日韩在线中文 | 中文二区|