成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)競(jìng)技場(chǎng)對(duì)標(biāo)90B Llama 3.2!Pixtral 12B技術(shù)報(bào)告全公開

人工智能 新聞
以開源極客之姿殺入江湖的Mistral AI,在9月份甩出了自家的首款多模態(tài)大模型Pixtral 12B,如今,報(bào)告之期已至,技術(shù)細(xì)節(jié)全公開。

作為歐洲的OpenAI,Mistral最近壓力不小。

端側(cè)小模型端不出來(lái),對(duì)比評(píng)測(cè)的結(jié)果又遭到質(zhì)疑。

上個(gè)月震撼登場(chǎng)的自家首款多模態(tài)大模型Pixtral 12B,也疑似遇到了成績(jī)不如人的窘境。

圖片

不過(guò)世間紛擾,留待時(shí)間之中去見分曉。

畢竟Mistral AI當(dāng)年也是以開源極客之姿殺入江湖的,以后的以后,圈內(nèi)人總會(huì)想起有個(gè)一言不合就甩出磁力鏈的公司吧。

按照慣例,在9月份甩出多模態(tài)Pixtral 12B的開源鏈接之后,Mistral會(huì)在一段時(shí)間后放出技術(shù)報(bào)告。

我們來(lái)看一下Mistral家的第一個(gè)MMLM有什么新花樣。

圖片

論文地址:https://arxiv.org/abs/2410.07073

開源代碼:https://github.com/mistralai

首先,許多開源模型一般有個(gè)問(wèn)題,就是為了多模態(tài)的性能而犧牲了本身的自然語(yǔ)言性能,之前英偉達(dá)的NVLM 1.0也談到了這點(diǎn)。

Pixtral本次也是成功避開了這個(gè)缺陷,單單比較文本模型的性能,也在同等尺寸的模型中居于前列。

圖片

另一點(diǎn)與大多數(shù)模型不同的是,Pixtral選擇從頭開始訓(xùn)練了一個(gè)全新的視覺編碼器。

基于此,Pixtral 12B輸入圖片的分辨率和長(zhǎng)寬比不受任何限制,并且在128K的上下文窗口范圍內(nèi),想放多少?gòu)垐D片都行!

圖片

從論文的測(cè)試結(jié)果來(lái)看,Pixtral 12B明顯優(yōu)于其他類似大小的開源模型(比如Llama-3.2 11B和Qwen-2-VL 7B),

甚至在一些評(píng)測(cè)中,表現(xiàn)比Meta家的多模態(tài)老大哥Llama-3.2 90B還要好。

圖片

最后,與開源模型一起,Mistral還貢獻(xiàn)了一個(gè)開源基準(zhǔn)測(cè)試MM-MT-Bench,用于在實(shí)際場(chǎng)景中評(píng)估視覺語(yǔ)言模型。

技術(shù)細(xì)節(jié)

當(dāng)前的多模態(tài)大模型基本上都是:模態(tài)編碼器 + 投影模塊 + 大語(yǔ)言模型主干。

如果需要多模態(tài)輸出,后面還會(huì)對(duì)稱地拼接投影層和各種解碼器。

所以,在模型結(jié)構(gòu)方面,我們可以分部分來(lái)看Pixtral都做了哪些工作。

模型結(jié)構(gòu)

Pixtral 12B整體為Transformer架構(gòu),在大規(guī)模交錯(cuò)圖像和文本文檔上進(jìn)行了預(yù)訓(xùn)練,具備多輪、多圖像對(duì)話的能力。

多模態(tài)解碼器

Pixtral的大語(yǔ)言模型主干選擇了自家的Mistral Nemo 12B,decoder-only架構(gòu)。

圖片

內(nèi)部維度14336,層數(shù)40,32個(gè)頭分為4組(GQA),詞表大小131072。

視覺編碼器

視覺編碼器部分是隨Pixtral 12B一起新鮮出爐的PixtralViT。

顧名思義,采用ViT架構(gòu)打底,4億參數(shù)量。同時(shí)為了能夠處理各種分辨率和縱橫比的圖像,作者對(duì)標(biāo)準(zhǔn)架構(gòu)進(jìn)行了四項(xiàng)關(guān)鍵更改:

Break tokens:為了幫助模型區(qū)分具有相同patch數(shù)量(相同區(qū)域)但縱橫比不同的圖像,需要在圖像行之間加入[IMAGE BREAK],在圖像序列的末尾加上[IMAGE END]。


FFN中的門控:在隱藏層中使用門控,而非注意力塊中的標(biāo)準(zhǔn)前饋層。

序列打包:為了在單個(gè)批次中有效地處理圖像,作者沿序列維度將圖像展平并連接起來(lái),并構(gòu)建了一個(gè)塊對(duì)角掩碼,以確保來(lái)自不同圖像的patch之間沒有注意力泄漏。


RoPE-2D:在自注意層中用相對(duì)旋轉(zhuǎn)位置編碼代替?zhèn)鹘y(tǒng)的絕對(duì)位置嵌入。雖然必須對(duì)學(xué)習(xí)到的位置嵌入進(jìn)行插值以處理新的圖像大小(通常以犧牲性能為代價(jià)),但相對(duì)位置編碼自然而然地適合可變的圖像大小。

圖片

RoPE-2D的變換可以表示為:

圖片

這樣的設(shè)計(jì)可以自然地以原始縱橫比適應(yīng)高分辨率和低分辨率圖像,從而顯著提高多模態(tài)任務(wù)的性能。

相比之下,傳統(tǒng)的編碼器一般就是針對(duì)ImageNet訓(xùn)練的,分辨率為224 × 224或336 × 336。

當(dāng)應(yīng)用到多模態(tài)語(yǔ)言模型(需要靈活執(zhí)行標(biāo)準(zhǔn)分類任務(wù),或者光學(xué)字符識(shí)別等任務(wù))時(shí),通常會(huì)將圖像分解成更小的方塊,然后再獨(dú)立地將圖塊饋送到視覺編碼器。

完整架構(gòu)

Pixtral的視覺編碼器通過(guò)兩層全連接網(wǎng)絡(luò)連接到多模態(tài)解碼器(LLM)。MLP層維度不變,用于將視覺編碼器的輸出轉(zhuǎn)換為解碼器所需的輸入嵌入大小,激活函數(shù)為GeLU。

圖片

多模態(tài)解碼器對(duì)圖像token的處理方式與文本token相同,包括所有token的RoPE-1D位置編碼。解碼器使用了因果自注意力機(jī)制,能夠平滑地促進(jìn)多圖像對(duì)話等能力。

MM-MT-Bench

大多數(shù)現(xiàn)有的多模態(tài)基準(zhǔn)測(cè)試,衡量的是模型在給定輸入圖像的情況下執(zhí)行某種形式的多項(xiàng)選擇問(wèn)答的能力。

這種能力有用,但還不夠。

大模型說(shuō)到底是給人用的,比如有多模態(tài)能力的小助手或者聊天機(jī)器人。

在純文本領(lǐng)域,MT-Bench可以很好衡量這種性能,它采用獨(dú)立LLM裁判根據(jù)參考答案對(duì)模型的輸出進(jìn)行評(píng)分。

圖片

本文中,研究人員構(gòu)建并發(fā)布了一個(gè)名為多模態(tài)MT-Bench(MM-MT-Bench)的新基準(zhǔn)測(cè)試,風(fēng)格與純文本的MT-Bench類似,以評(píng)估指令調(diào)整的多模態(tài)模型的性能。

MM-MT-Bench總共包含92個(gè)對(duì)話(單回合對(duì)話69個(gè),2回合對(duì)話18個(gè),3回合對(duì)話4個(gè),4回合對(duì)話1個(gè)),涵蓋了廣泛的實(shí)際使用案例,包括五類圖像:圖表、表格、PDF頁(yè)面 、示意圖和雜項(xiàng)。

圖片

為了評(píng)估模型,研究人員在對(duì)話的所有輪次中并行查詢模型,為過(guò)去的輪次提供參考答案作為歷史記錄。裁判會(huì)獨(dú)立對(duì)每個(gè)回合進(jìn)行評(píng)分,并提供整個(gè)對(duì)話歷史記錄。

評(píng)分依據(jù)正確性(提取的信息是否正確)和完整性(標(biāo)準(zhǔn)答案是否涵蓋了參考文獻(xiàn)中提出的所有要點(diǎn))以1到10的等級(jí)為對(duì)話進(jìn)行評(píng)分。

圖片

MM-MT-Bench旨在模擬視覺語(yǔ)言模型的實(shí)際使用,用于提取、總結(jié)和推理圖像內(nèi)容。

作者手動(dòng)整理了圖像、提示和答案,并驗(yàn)證了標(biāo)簽編寫者的答案,確保所有提示都需要參考圖像輸入才能正確回答。

實(shí)驗(yàn)測(cè)試結(jié)果表明,MM-MT-Bench的性能與LMSys Vision排行榜上的ELO排名高度相關(guān)。

實(shí)驗(yàn)結(jié)果

在評(píng)估Pixtral和基線的過(guò)程中,作者發(fā)現(xiàn)多模態(tài)模型的評(píng)估協(xié)議沒有標(biāo)準(zhǔn)化,設(shè)置中的微小變化可能會(huì)極大地改變某些模型的性能(比如要求模型生成與參考答案完全匹配時(shí),6.0和6就可能是不同的)。

圖片

為了緩解這個(gè)問(wèn)題,作者建議使用「Explicit」提示來(lái)明確指定參考答案所需的格式。

多模態(tài)性能

圖片

上表顯示,在多模態(tài)基準(zhǔn)測(cè)試中,Pixtral的性能大大優(yōu)于所有同尺寸的開源模型,以及Claude-3 Haiku和Gemini-1.5 Flash 8B等閉源模型。

值得注意的是,Pixtral在針對(duì)實(shí)際用例的MM-MT-Bench上的表現(xiàn)優(yōu)于所有同等尺寸的模型,而在LMSys Vision排行榜上,Pixtral 12B的性能接近最大的開源模型,Qwen2-VL 72B和Llama-3.2 90B。

不過(guò),由于「Explicit」提示的原因,一些開源模型的性能遠(yuǎn)低于其報(bào)告的數(shù)字,這主要是由于模型沒有遵循答案格式說(shuō)明(例如,生成「The answer is 6.」而不是「Final answer:6」)。

為了與這些模型進(jìn)行透明的比較,下面使用更寬松的指標(biāo)進(jìn)一步評(píng)估。

圖片

語(yǔ)言性能

圖片

上表展示了在常見的純文本基準(zhǔn)測(cè)試(使用常見的提示和評(píng)估協(xié)議)中,Pixtral 12B與同等大小開源模型的比較結(jié)果。Pixtral沒有為了追求多模態(tài)功能而犧牲文本理解,可以作為文本和視覺任務(wù)的通用模型。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-09-26 14:40:45

2024-09-12 14:19:59

2012-05-31 14:20:14

2024-05-31 14:23:15

2025-04-09 03:33:00

2024-12-16 07:00:00

2025-04-08 08:50:00

AI模型測(cè)試

2025-04-14 09:06:00

2013-09-12 11:17:02

2024-12-17 08:05:34

大型語(yǔ)言模型MetaAILLM

2024-09-26 14:07:30

2025-04-07 09:35:00

Meta模型開源

2025-02-18 15:09:07

2022-04-12 18:35:03

元宇宙

2024-07-22 07:50:00

模型英偉達(dá)

2024-07-31 15:05:33

2025-06-30 08:48:50

2014-10-31 15:43:02

華為智慧

2025-06-06 14:23:48

谷歌模型AI

2025-06-27 15:50:36

2G顯存谷歌模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一区精品 | 97人人超碰 | 天天干成人网 | 能免费看的av | 欧美在线国产精品 | 99国产精品99久久久久久 | 国产1区在线 | 一区在线播放 | 草草草网站 | 国产精品三级 | 久久精品视频9 | 久久久做 | 国产女人第一次做爰毛片 | 国产在线播放一区二区三区 | 蜜臀久久| 成人18亚洲xxoo | 在线免费观看成年人视频 | 久久国产精品-国产精品 | 在线观看国产视频 | 亚洲一区二区三区在线 | 欧美激情综合 | 国产精品久久久久久久久久久免费看 | 国产精品国产成人国产三级 | 欧美一区二区三区精品免费 | 久久成人免费观看 | 亚洲精品66 | 亚洲国产成人在线观看 | www国产亚洲精品久久网站 | www国产亚洲精品久久网站 | 网站黄色av | 欧美日韩久久 | 青草青草久热精品视频在线观看 | 午夜视频一区二区三区 | 成人免费福利视频 | 亚洲一区二区电影在线观看 | 美女天天干 | 欧美网站一区二区 | 精品久久久久久久久久久院品网 | 日本免费在线观看视频 | 777zyz色资源站在线观看 | av片免费|