成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗 原創

發布于 2025-5-9 06:51
瀏覽
0收藏

基于視覺編碼器的MLLM的基本構成:MLLM通常由預訓練的模態編碼器、預訓練的LLM和一個連接它們的模態接口三個模塊組成。模態編碼器(如:CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息(如圖像或音頻)壓縮成更緊湊的表示。預訓練的LLM則負責理解和推理處理過的信號。模態接口用于對齊不同的模態,實現異構模態表征空間的語義對齊。下面這張圖概括的比較好。

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

上述工作都是基于視覺編碼器的多模態大模型,下面來看一個Encoder-free VLMs(無視覺編碼器的多模態大模型)的思路,供參考。

模型架構

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

視覺和文本編碼

極簡的patch嵌入層:構建了一個極簡的patch嵌入層,從零開始生成視覺嵌入,以消除預訓練視覺編碼器的強歸納偏差。給定一個圖像輸入

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

 ,首先通過一個卷積層(Conv1)和高斯誤差線性單元(GELU)激活函數進行處理,得到一個二維特征圖。然后,再通過另一個卷積層(Conv2)來進一步處理特征圖,以靈活控制計算復雜度。公式如下:

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

其中,Conv1和Conv2分別表示兩個卷積層,具有不同的步幅和輸出維度。

patch嵌入層支持任意比例的圖像,最多可處理約2.5M像素(即2.5K個patch標記)。使用Qwen2.5的文本標記器將文本T編碼為標記嵌入Xt ,其維度為3584。

多模態編碼:為了在視覺和文本之間建立有效的交互,提出了一個分而治之的設計,通過引入模態感知組件來顯式解耦關鍵模塊。包括獨立的注意力矩陣(查詢、鍵和值)、歸一化層和前饋模塊,每個都有不同的參數,以適應不同模態的需求。

分而治設計

通過分而治之的架構設計,EVEv2.0能夠有效地減少模態間的干擾,提高模型的訓練效率和性能。

使用多頭自注意力(Multi-Head Self-Attention, ATTN)來跨所有模態進行建模,以在統一特征空間中模擬跨模態關系。公式如下:

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

其中

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

,模態特定的查詢、鍵和值是從各自的注意力權重矩陣  中派生的。

通過完全解耦架構,最小化表示空間中的干擾。每個Transformer塊的總體操作定義如下:

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

這種設計允許在保持預訓練知識的同時,獨立地進行單模態編碼和跨模態對應,從而實現靈活的建模模式,以理解和推理多模態信息。

視覺特征與語言輸入的融合方式

從代碼上看,融合時,會遍歷輸入序列中的每個樣本,根據 IMAGE_TOKEN_INDEX 確定圖像特征的插入位置。將語言輸入的嵌入和圖像特征按順序拼接在一起,形成新的輸入嵌入 new_input_embeds,同時更新標簽 new_labels 和視覺標記掩碼 visual_token_mask。

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

??https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py??

訓練方式

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

訓練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓練圖像塊嵌入層,以在不同模態間建立初始對齊。之后,我們僅更新大型語言模型(LLM)內的視覺層,逐步增強視覺感知能力。值得注意的是,我們將圖像分辨率從 800×800 逐步提高到 1600×1600,并保持原始圖像的寬高比。最后,我們通過問答(QA)和指令數據對整個模型進行訓練,以加強跨模態對應和復雜理解能力。

訓練過程分為四個連續階段。訓練數據包括公開可用的圖像數據集,以及表 1 中的各種問答(QA)數據集和多模態對話數據。

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

第2.2階段和第3階段的訓練數據集詳細信息,用于微調E VEv2.0,FL表示過濾后的訓練數據集

階段1:DenseFusion++

  1. DenseFusion++:通過大規模的合成數據來增強模型的視覺感知能力。使用LLaVA-1.6(7B)為基礎,結合多個視覺專家(如標簽、檢測、OCR等)來學習GPT-4V的融合策略。通過這種方式,可以在不依賴高質量標注的情況下,擴展合成數據的規模,從而提高訓練效率。

階段2:LLM引導的對齊

凍結大型語言模型(LLM)的權重,僅訓練patch嵌入層。使用公開的網頁數據進行訓練,以防止模型崩潰并加速后續階段的收斂。通過這種方式,確保模型在初始階段能夠快速對齊視覺和語言信息。

階段3:視覺感知學習和視覺-文本完全對齊

  1. 視覺感知學習(Vision Perception Learning):加載LLM的權重并初始化LLM內部的視覺層。僅訓練patch嵌入層和視覺層,而凍結Qwen2.5模型,以便在大規模合成數據上進行視覺表示的學習。通過逐步增加數據量和圖像分辨率,促進視覺感知能力的提升。
  2. 視覺-文本完全對齊(Vision-Text Fully-aligning):更新整個模型架構以進一步改善圖像-文本的關聯。使用多樣化的指令數據集進行訓練,以增強模型的視覺感知能力和視覺-語言對齊。通過這種方式,確保模型在處理復雜的多模態任務時能夠表現出色。

階段4:監督微調

進一步優化模型以理解復雜的指令和對話模式。使用高質量的指令數據集進行訓練,以提高模型在實際應用中的表現。通過這種方式,確保模型能夠處理各種真實世界的應用場景。

實驗效果

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

Encoder-free無編碼器多模態大模型EVEv2模型架構、訓練方法淺嘗-AI.x社區

參考文獻:EVEv2: Improved Baselines for Encoder-Free Vision-Language Models,https://arxiv.org/pdf/2502.06788


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/HaWOukk-uYo0YLVs5kfAVg??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-9 06:51:28修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 激情婷婷 | 精品欧美乱码久久久久久 | 男女爱爱网站 | 98久久 | 在线高清免费观看视频 | 九色在线 | 国产日韩精品在线 | 精品久久久久久国产 | 欧美综合网| 成人精品久久 | 欧美jizzhd精品欧美巨大免费 | 亚洲精品自在在线观看 | 亚洲精品一区二区网址 | 精品国产欧美一区二区三区成人 | 色精品视频 | 精品久久久久久久久久久院品网 | 亚洲欧美高清 | 亚洲免费在线视频 | 亚洲国产精品一区二区三区 | 日韩有码在线播放 | 天天爽综合网 | 一本色道精品久久一区二区三区 | 91精产国品一二三区 | 国产精品2区 | 中文字幕第一页在线 | 91成人免费电影 | 成人免费淫片aa视频免费 | 在线播放中文字幕 | www国产成人免费观看视频,深夜成人网 | 99国产在线| 久久小视频 | 欧美一级在线 | 一区二区三区在线 | 龙珠z国语版在线观看 | 国产精品亚洲一区二区三区在线 | 国产成人精品a视频一区www | 久久日韩粉嫩一区二区三区 | 欧美无乱码久久久免费午夜一区 | 国产精品一区二区在线 | 羞羞视频网站免费观看 | 香蕉婷婷 |