成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生! 原創(chuàng) 精華

發(fā)布于 2024-11-19 15:47
瀏覽
0收藏

最近在HuggingFace上有一個(gè)開(kāi)源多模態(tài)模型引起了廣泛關(guān)注:Omnivision-968M。這款模型以其不到1B參數(shù)量的小巧體積(僅968M參數(shù)量)脫穎而出,成為目前市場(chǎng)上最小的視覺(jué)語(yǔ)言模型之一。

Blog: ???https://nexa.ai/blogs/omni-vision???

Model: https://huggingface.co/NexaAIDev/omnivision-968M

Omnivision-968M

?? Omnivision-968M是由Nexa AI這家創(chuàng)業(yè)公司推出(與國(guó)內(nèi)做CMOS聞名的同名半導(dǎo)體企業(yè)Omnivision無(wú)關(guān))。Nexa AI的愿景是打造先進(jìn)的端側(cè)AI模型,讓AI技術(shù)不再局限于云端,而是能夠直接在本地設(shè)備上運(yùn)行。這不僅意味著成本的降低,更重要的是,它能夠更好地保護(hù)用戶的隱私安全。

??Omnivision-968M由于體積較小,所以模型在推理速度上,有著非常不錯(cuò)的表現(xiàn)。在Apple最新M4 Pro處理器的MacBook上,它能夠以不到2秒的驚人速度,生成一張1046×1568像素圖像的語(yǔ)言描述。它在處理過(guò)程中僅占用988MB的統(tǒng)一內(nèi)存空間。

??Omnivision在LLaVA架構(gòu)的基礎(chǔ)上進(jìn)行了改進(jìn),帶來(lái)了以下兩大改進(jìn):【9倍Token縮減】:Omnivision將圖像Token從729減少到81,這一改進(jìn)大幅降低了延遲和計(jì)算成本,讓模型運(yùn)行更加高效。【更少幻覺(jué)】:通過(guò)使用來(lái)自可信數(shù)據(jù)的DPO訓(xùn)練,Omnivision減少了幻覺(jué)現(xiàn)象,提高了結(jié)果的可靠性。

模型結(jié)構(gòu)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

OmniVision的架構(gòu)由以下三個(gè)關(guān)鍵組件構(gòu)成:

基礎(chǔ)語(yǔ)言模型:Qwen2.5-0.5B-Instruct作為基礎(chǔ)語(yǔ)言模型,用于自回歸輸出文本。這款強(qiáng)大的語(yǔ)言模型為OmniVision提供了強(qiáng)大的文本處理能力。

視覺(jué)編碼器:SigLIP-400M,分辨率384,以14×14的patch大小生成圖像embedding。這一組件負(fù)責(zé)將輸入的圖像轉(zhuǎn)換成embedding。

投影層:MLP將視覺(jué)編碼器的嵌入與語(yǔ)言模型的Token空間對(duì)齊。與標(biāo)準(zhǔn)的LLaVA架構(gòu)相比,能夠?qū)D像Token數(shù)目減少9倍。

視覺(jué)編碼器首先將輸入的圖像轉(zhuǎn)換成嵌入,然后這些嵌入通過(guò)投影層處理,以匹配Qwen2.5-0.5B-Instruct的Token空間,從而實(shí)現(xiàn)端到端的視覺(jué)-語(yǔ)言理解。

訓(xùn)練方法

預(yù)訓(xùn)練階段:OmniVision的訓(xùn)練始于預(yù)訓(xùn)練階段,這一階段的核心任務(wù)是建立基本的視覺(jué)-語(yǔ)言對(duì)齊。我們使用圖像-文本描述對(duì)來(lái)進(jìn)行訓(xùn)練,僅解凍MLP投影層參數(shù),以便學(xué)習(xí)圖像文本Token空間映射關(guān)系。

SFT:在預(yù)訓(xùn)練的基礎(chǔ)上,通過(guò)圖像問(wèn)答數(shù)據(jù)集來(lái)增強(qiáng)模型的上下文理解能力。在SFT階段,模型會(huì)在包含圖像的結(jié)構(gòu)化聊天記錄上進(jìn)行訓(xùn)練,以生成更符合上下文的響應(yīng)。

DPO:訓(xùn)練流程的最后階段是直接偏好優(yōu)化(DPO)。首先,基礎(chǔ)模型會(huì)針對(duì)圖像生成響應(yīng)。然后,教師模型會(huì)產(chǎn)生最小編輯的修正,同時(shí)保持與原始響應(yīng)的高語(yǔ)義相似性,特別關(guān)注準(zhǔn)確性至關(guān)重要的元素。這些原始和修正后的輸出形成選擇-拒絕對(duì)(chosen-rejected pair)。微調(diào)的目標(biāo)是在不改變模型核心響應(yīng)特征的情況下,針對(duì)模型輸出進(jìn)行必要的改進(jìn)。糾正預(yù)測(cè)分布,減少模型幻覺(jué)。

特色方法

上述模型結(jié)構(gòu)和訓(xùn)練方法和主流方法比沒(méi)有太多特殊之處,Omnivision除了模型參數(shù)量小之外,還應(yīng)用了這些方法:

9x圖像Token壓縮: 在邊緣設(shè)備部署多模態(tài)模型時(shí),處理太大的圖像Token數(shù)目會(huì)產(chǎn)生顯著的計(jì)算開(kāi)銷,因?yàn)橛?jì)算復(fù)雜度為O(N**2)的序列長(zhǎng)度。標(biāo)準(zhǔn)LLaVA架構(gòu)中,每張圖像生成729個(gè)Token(27x27),導(dǎo)致高延遲和高計(jì)算成本。OmniVision使用了和InternVL類似的方法,在投影階段使用pixel unshuffle機(jī)制,將圖像嵌入從[batch_size, 729, hidden_size]轉(zhuǎn)換為[batch_size, 81, hidden_size*9],這樣減少了9倍的Token數(shù)量,但保持信息量沒(méi)有被減少,只是挪動(dòng)到了通道上,不犧牲模型性能。實(shí)驗(yàn)表明,這種壓縮方法極大地提高了模型推理速度。分析表明,這種改進(jìn)源于基礎(chǔ)Qwen模型對(duì)較短序列的處理能力,其中壓縮格式提供了更集中的信息表示。

最小編輯DPO: 傳統(tǒng)的DPO方法可能導(dǎo)致模型行為的顯著變化。OmniVision的DPO實(shí)現(xiàn)使用最小編輯對(duì)進(jìn)行訓(xùn)練。教師模型在保持原始結(jié)構(gòu)的同時(shí),對(duì)基礎(chǔ)模型的輸出進(jìn)行小的、有針對(duì)性的改進(jìn)。這種方法確保了精確的質(zhì)量改進(jìn),而不破壞模型的核心能力。

性能評(píng)測(cè)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

在所有任務(wù)中,OmniVision的表現(xiàn)都優(yōu)于之前世界上最小的視覺(jué)語(yǔ)言模型nanoLLAVA。但略遜于Qwen2-VL-2B

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision生成圖像描述)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision可以尋找圖像中出現(xiàn)的目標(biāo))

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision分析食物圖像并生成食譜)

Omnivision-968M:最小多模態(tài)模型,為邊緣設(shè)備而生!-AI.x社區(qū)

(OmniVision確定了正確的HDMI端口位置)


本文轉(zhuǎn)載自公眾號(hào)思源數(shù)據(jù)科學(xué) 作者:思源Source

原文鏈接:??https://mp.weixin.qq.com/s/IclLU-FQd2X6zRZgg4zVtg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩在线中文字幕 | 在线高清免费观看视频 | 欧美一级欧美三级在线观看 | 天天操天天插 | 欧美aⅴ| 蜜桃传媒一区二区 | 精品国产乱码久久久久久老虎 | 国产精品久久久久久久久久久久久 | 久久美女视频 | 夏同学福利网 | 日本精品一区二区三区在线观看视频 | 日韩欧美一区二区三区免费观看 | 精产国产伦理一二三区 | 91久久精品 | 午夜在线视频一区二区三区 | 国产精品色哟哟网站 | 亚洲一区中文 | 日韩中出 | 日本免费黄色 | 国产在线精品一区二区三区 | 久久久xxx | 色屁屁在线观看 | 国产精品日产欧美久久久久 | 精品久久国产 | 国产一区二区精品在线观看 | 成人自拍视频 | 一区二区免费 | 国产区精品| 亚洲情综合五月天 | 精品一区二区视频 | 国产95在线 | 国产日韩欧美中文 | 久久精品二区亚洲w码 | 在线成人 | 很黄很污的网站 | 91视频入口 | 日韩在线资源 | 九九热国产精品视频 | 日日草天天干 | 久久久91 | 天天操天天射天天舔 |