成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)訓(xùn)練后模型能力雪崩,上海AI Lab全面探索MLLM偏好對(duì)齊與模態(tài)融合

人工智能 新聞
MLLM的回復(fù)質(zhì)量下降可能是因?yàn)榻?jīng)過(guò)了多模態(tài)數(shù)據(jù)訓(xùn)練之后,LLM本身的能力退化。

在實(shí)際應(yīng)用過(guò)程中,閉源模型(GPT-4o)等在回復(fù)的全面性、完備性、美觀性等方面展示出了不俗的表現(xiàn)。

與之相反的是,在General VQA任務(wù)上表現(xiàn)最好的開(kāi)源模型(如InternVL2-78B)在面對(duì)開(kāi)放式、需要知識(shí)儲(chǔ)備的問(wèn)題時(shí),表現(xiàn)不盡人意:

圖片InternVL2-78B和GPT-4o在回復(fù)的完備性和美觀性上有較大差距

上述現(xiàn)象引發(fā)了上海交大、上海AI Lab等聯(lián)合團(tuán)隊(duì)的思考。

他們首先猜測(cè):MLLM的回復(fù)質(zhì)量下降可能是因?yàn)榻?jīng)過(guò)了多模態(tài)數(shù)據(jù)訓(xùn)練之后,LLM本身的能力退化

因此分別測(cè)試了多個(gè)主流開(kāi)源模型在主流的純語(yǔ)言對(duì)齊Benchmark(AlignBench/AlpacaEval2/ArenaHard)上的性能:

圖片得分由Qwen2.5-72B進(jìn)行judge

結(jié)果顯示,經(jīng)過(guò)多模態(tài)訓(xùn)練的大語(yǔ)言模型在語(yǔ)言主觀基準(zhǔn)上的性能簡(jiǎn)直可以用雪崩來(lái)形容。

既然如此,那是不是說(shuō),在多模態(tài)數(shù)據(jù)中加入更多更好的語(yǔ)言數(shù)據(jù)就可以了呢?團(tuán)隊(duì)又進(jìn)一步做了如下實(shí)驗(yàn):

采用LLaVA框架,使用最新的語(yǔ)言模型Internlm2.5-7B作為base,用LLaVANext-780k高質(zhì)量多模態(tài)數(shù)據(jù)作為Baseline。已知在LLaVANext-780k中,包含40k左右的來(lái)自ShareGPT的數(shù)據(jù)。

由于ShareGPT年代較為久遠(yuǎn),所以選擇了最新的兩個(gè)開(kāi)源語(yǔ)言sft數(shù)據(jù)集,Magpie-LLaMA3.3以及Condor。將原始的ShareGPT數(shù)據(jù)分別更換為Magpie以及Condor進(jìn)行了實(shí)驗(yàn),并在語(yǔ)言對(duì)齊基準(zhǔn)、多模態(tài)對(duì)齊基準(zhǔn)(WildVison)、General VQA基準(zhǔn)(MMVet/MMBench/AI2D/OCRBench)上進(jìn)行了全面評(píng)測(cè):

圖片為了展示性能差異,此處AlpacaEval2和Arenahard的結(jié)果均與GPT3.5進(jìn)行對(duì)比

加入了高質(zhì)量的語(yǔ)言數(shù)據(jù)之后,模型在語(yǔ)言基準(zhǔn)上的能力確實(shí)提升了;但是,無(wú)論是多模態(tài)主觀對(duì)齊還是普通VQA任務(wù),都出現(xiàn)了性能下降的情況。

因此推測(cè):語(yǔ)言數(shù)據(jù)對(duì)多模態(tài)對(duì)齊能力的影響是十分有限的,在General VQA任務(wù)以外,仍然需要帶有開(kāi)放式問(wèn)題以及完備回答的多模態(tài)訓(xùn)練數(shù)據(jù)。

Dataset Construction

基于以上觀察,當(dāng)前的多模態(tài)數(shù)據(jù)過(guò)于看重VQA任務(wù)的能力,因此數(shù)據(jù)面臨答案過(guò)于簡(jiǎn)短、單一,缺少對(duì)預(yù)訓(xùn)練知識(shí)的運(yùn)用與理解的問(wèn)題。基于以上觀點(diǎn)以及從純語(yǔ)言數(shù)據(jù)組成中吸取的經(jīng)驗(yàn),團(tuán)隊(duì)提出多模態(tài)數(shù)據(jù)還應(yīng)包含以下特點(diǎn):

  1. 開(kāi)放式,創(chuàng)造性,需要預(yù)訓(xùn)練知識(shí)的問(wèn)題。
  2. 全面,完備,美觀,符合指令跟隨的回答。

基于以上兩點(diǎn)提出了OmniAlign-V數(shù)據(jù)構(gòu)建Pipeline:

圖片Pipeline of OmniAlign-V

根據(jù)圖片場(chǎng)景,首先將圖片分為自然圖片(Natural)以及信息圖片(Infographic)。鑒于希望得到包含豐富信息的數(shù)據(jù),因此首先對(duì)自然圖片進(jìn)行了圖像復(fù)雜度以及物體種類數(shù)目的兩輪篩選,確保篩選出的圖片具有豐富的語(yǔ)義信息。

其次,將Natural圖片分為Knowledge/Creation/Inferential三類任務(wù),將信息圖片分為Chart/Diagram/Poster/Art四類任務(wù),對(duì)不同任務(wù)分別應(yīng)用對(duì)應(yīng)的精心設(shè)計(jì)的Pipeline以及GPT-4o生成對(duì)話數(shù)據(jù)。而后,對(duì)Knowledge/Inferential/Chart分別應(yīng)用不同的后處理優(yōu)化,增強(qiáng)了Inferencial和Chart數(shù)據(jù)的完備性和準(zhǔn)確性,在Knowledge基礎(chǔ)上額外添加了Instruction-Following指令,將其作為Instruction-Following任務(wù)。最終,OmniAlign-V-SFT包含了205k高質(zhì)量的多模態(tài)數(shù)據(jù)。

團(tuán)隊(duì)發(fā)現(xiàn)OmniAlign-V-SFT中的回復(fù)質(zhì)量較高,很適合作為DPO數(shù)據(jù)中的positive sample。因此通過(guò)對(duì)LLaVANext-Internlm2.5-7B模型的輸出應(yīng)用reject sampling,得到了對(duì)應(yīng)的negative sample,并由此生成了OmniAlign-V-DPO數(shù)據(jù)集。

此外還發(fā)現(xiàn)當(dāng)前缺少高質(zhì)量的多模態(tài)主觀對(duì)齊基準(zhǔn)。當(dāng)前的基準(zhǔn)當(dāng)中面臨圖像質(zhì)量差,問(wèn)題模糊/多樣性差等問(wèn)題。因此構(gòu)建了MM-AlignBench多模態(tài)對(duì)齊基準(zhǔn)。從經(jīng)過(guò)預(yù)篩選的3000+張圖片中人工挑選了252張分布多樣且高質(zhì)量的圖片,每張圖片以及對(duì)應(yīng)的問(wèn)題都經(jīng)過(guò)人工審查,確保圖片和任務(wù)問(wèn)題的多樣性以及準(zhǔn)確性,合理性。

圖片

實(shí)驗(yàn)結(jié)果

在LLaVA/LLaVA-Next上分別采用Internlm2.5-7B/Qwen2.5-32B進(jìn)行了實(shí)驗(yàn),并在三個(gè)多模態(tài)對(duì)齊基準(zhǔn)以及五個(gè)主流VQA基準(zhǔn)上進(jìn)行了評(píng)測(cè),結(jié)果如下:

圖片SFT多模態(tài)評(píng)測(cè)結(jié)果

可以看出,在添加了OmniAlign-V-SFT數(shù)據(jù)集后,MLLM在三個(gè)多模態(tài)對(duì)齊基準(zhǔn)上的表現(xiàn)均有大幅提升;并且在多個(gè)General VQA Benchmark上均有不同程度的漲點(diǎn),尤其是在MMVet和MMMU上漲點(diǎn)十分顯著;LLaVANext-Qwen2.5-32B甚至在MMVet和MMMU上分別增加了+9.2和+5.5。這有力驗(yàn)證了OmniAlign-V數(shù)據(jù)集的有效性。

此外還發(fā)現(xiàn),經(jīng)過(guò)OmniAlign-V-SFT訓(xùn)練后,模型在語(yǔ)言對(duì)齊基準(zhǔn)上也有一定程度的上漲:

圖片

△SFT語(yǔ)言評(píng)測(cè)結(jié)果

這也驗(yàn)證了,當(dāng)添加部分高質(zhì)量的多模態(tài)對(duì)齊數(shù)據(jù)后,能夠有效減少LLM在多模態(tài)訓(xùn)練當(dāng)中面臨的語(yǔ)言能力退化問(wèn)題。

此外,采用OmniAlign-V-DPO進(jìn)行DPO訓(xùn)練后,模型的對(duì)齊能力進(jìn)一步增強(qiáng):

圖片DPO實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示,當(dāng)模型完全沒(méi)有接受長(zhǎng)上下文類似的數(shù)據(jù)訓(xùn)練時(shí),在DPO階段應(yīng)用OmniAlign-V-DPO并不能顯著地提升模型的對(duì)齊;而對(duì)于經(jīng)過(guò)高質(zhì)量長(zhǎng)上下文訓(xùn)練的模型而言,OmniAlign-V-DPO可以進(jìn)一步顯著激發(fā)模型的對(duì)齊能力。尤其是在經(jīng)過(guò)大規(guī)模訓(xùn)練的開(kāi)源模型(InternVL2-8B)上,模型的性能提升尤其明顯。

MM-AlignBench已經(jīng)支持到VLMEvalkit,用于在多個(gè)MLLM上進(jìn)行快捷評(píng)測(cè)。團(tuán)隊(duì)測(cè)試了當(dāng)前主流MLLM在MM-AlignBench上的結(jié)果:

圖片

MM-AlignBench Leaderboard

經(jīng)過(guò)SFT+DPO數(shù)據(jù)后,LLaVANext-OA-32B-DPO的對(duì)齊性能提升明顯,在MMAlignBench上的性能已經(jīng)超越了QwenVL2-72B。

與此同時(shí)也可以看出,即使是QwenVL2-72B和InternVL2-78B,在MMAlignBench上的表現(xiàn)距離閉源模型(GPT/Gemini/Claude Series)也有較大的差距

進(jìn)一步對(duì)MM-AlignBench和其他General VQA Benchmark計(jì)算相關(guān)度,SRCC score如下所示:

圖片

MM-AlignBench與其他基準(zhǔn)的相關(guān)性統(tǒng)計(jì)

可以發(fā)現(xiàn),MM-AlignBench 與現(xiàn)有的多模態(tài)評(píng)測(cè)基準(zhǔn)(如 MMBench、OCRBench 等 VQA Benchmark)之間的相關(guān)性極低,但卻與 MMMU 表現(xiàn)出極高的相關(guān)性。作為一項(xiàng)涵蓋大量跨學(xué)科任務(wù)的評(píng)測(cè)基準(zhǔn),MMMU 對(duì)模型的知識(shí)先驗(yàn)深度和廣度提出了極高的要求。盡管 MMMU 采用選擇題形式,答案具有唯一正確解,而 MM-AlignBench 則以開(kāi)放式問(wèn)答為主,兩者的題型設(shè)計(jì)存在顯著差異,但它們所考察的核心能力卻高度相似。這一現(xiàn)象表明,MM-AlignBench 不僅覆蓋了廣泛的任務(wù)領(lǐng)域,還深入挖掘了模型在知識(shí)先驗(yàn)上的表現(xiàn),進(jìn)一步驗(yàn)證了其評(píng)測(cè)維度的全面性與挑戰(zhàn)性。

Future Work

上述研究不僅深入探討了多模態(tài)大語(yǔ)言模型的對(duì)齊能力,更引發(fā)了作者團(tuán)隊(duì)對(duì)一個(gè)核心問(wèn)題的全新思考:

究竟什么才是通向真正模態(tài)融合的正確路徑?在多模態(tài)微調(diào)過(guò)程中,大語(yǔ)言模型往往會(huì)面臨一個(gè)棘手的問(wèn)題——語(yǔ)言能力的“災(zāi)難性遺忘”。然而,像GPT-4o等閉源模型卻能夠成功實(shí)現(xiàn)文本與圖像模態(tài)的深度融合,充分釋放其龐大的預(yù)訓(xùn)練語(yǔ)言知識(shí)潛能。這背后的技術(shù)路線究竟是如何設(shè)計(jì)的?又是怎樣做到如此高效且精準(zhǔn)的模態(tài)融合的?

這些問(wèn)題無(wú)疑為我們指明了未來(lái)探索的重要方向。

Paper: https://arxiv.org/abs/2502.18411
Github: https://github.com/PhoenixZ810/OmniAlign-V

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-07 00:00:00

多模態(tài)大模型

2024-11-04 13:30:00

模型AI

2024-10-25 14:30:00

模型AI

2025-01-08 08:21:16

2024-11-13 09:39:13

2025-06-03 08:22:00

模型評(píng)估視頻

2025-05-21 08:47:00

2024-05-21 07:54:30

視頻多模態(tài)語(yǔ)義檢索算法

2024-12-09 08:15:43

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-06-08 11:32:00

模型論文

2022-09-01 16:58:52

DTW算法鴻蒙

2024-05-10 06:59:06

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2023-12-23 23:35:13

語(yǔ)言視覺(jué)

2024-07-29 08:47:00

2023-04-13 15:25:14

模型

2025-03-19 09:30:00

2023-09-02 12:49:01

2024-12-12 00:25:09

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美日韩最新 | 久草热播 | 国产午夜在线 | 97视频在线免费 | 国产综合网站 | 亚洲第一av | 一区二区电影 | 日韩精品视频一区二区三区 | 无码一区二区三区视频 | 在线观看黄免费 | 成人1区 | 欧美一区二区小视频 | 国产蜜臀97一区二区三区 | 国产亚洲精品综合一区 | 国产精品免费一区二区三区 | 日韩av在线一区 | 国产成人久久精品一区二区三区 | 久久国产高清视频 | 日韩中文字幕视频在线观看 | 一区免费视频 | 伊人久久综合 | 九九九视频 | 成人欧美一区二区 | 四虎在线播放 | 欧美a√| 青青草原精品99久久精品66 | 精品欧美一区二区三区精品久久 | 精品一区电影 | 精品免费av | 三级视频在线观看 | 欧美精品一区二区在线观看 | 欧美区日韩区 | 黄网站在线播放 | 欧美精品一区二区三区一线天视频 | 日韩欧美在线不卡 | 久久69精品久久久久久久电影好 | 一区二区福利视频 | 综合色久 | 91精品国产高清一区二区三区 | 久久久久亚洲 | av天天澡天天爽天天av |