成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果

發布于 2024-6-17 12:43
瀏覽
0收藏

當前主流的視覺語言模型(VLM)主要基于大語言模型(LLM)進一步微調。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間,然后使用自回歸方式根據圖像 token 預測答案。


在這個過程中,模態的對齊是通過文本 token 隱式實現的,如何做好這一步的對齊非常關鍵。


針對這一問題,武漢大學、字節跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種基于對比學習的文本 token 篩選方法(CAL),從文本中篩選出與圖像高度相關的 token,并加大其損失函數權重,從而實現更精準的多模態對齊。


字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區



CAL 有以下幾個亮點:


  • 可以直接嵌套到訓練過程,無需額外預訓練階段。
  • 在 OCR 和 Caption benchmarks 上獲得了明顯的提升,從可視化中可以發現 CAL 使得圖片模態對齊效果更好。
  • CAL 使得訓練過程對噪聲數據抵抗能力更強。


研究動機


目前視覺語言模型依賴于圖片模態的對齊,如何做好對齊非常關鍵。目前主流的方法是通過文本自回歸的方式進行隱式對齊,但是每個文本 token 對圖像對齊的貢獻是不一致的,對這些文本 token 進行區分是非常有必要的。


CAL 提出,在現有的視覺語言模型(VLM)訓練數據中,文本 token 可以被分為三類:


  • 與圖片高度相關的文本:如實體(例如人、動物、物體)、數量、顏色、文字等。這些 token 與圖像信息直接對應,對多模態對齊至關重要。
  • 與圖片低相關度的文本:如承接詞或可以通過前文推斷出的內容。這些 token 實際上主要是在訓練 VLM 的純文本能力。
  • 與圖片內容相悖的文本:這些 token 與圖像信息不一致,甚至可能提供誤導信息,對多模態對齊過程產生負面影響。


字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖一:綠色標記為與圖片高度相關 token,紅色為內容相悖,無色為中性 token


在訓練過程中,后兩類 token 整體而言實際上占據了較大比例,但由于它們并不強依賴于圖片,對圖片的模態對齊作用不大。因此,為了實現更好的對齊,需要加大第一類文本 token,即與圖片高度相關部分 token 的權重。如何找出這一部分 token 成為了解決這個問題的關鍵所在。


方法


找出與圖片高度相關 token 這個問題可以通過 condition contrastive 的方式來解決。


  • 對于訓練數據中的每個圖文對,在沒有圖片輸入的情況下,每個文本 token 上的 logit 代表著 LLM 基于上下文情況和已有知識對這種情況出現的估計值。
  • 如果在前面添加圖片輸入,相當于提供額外的上下文信息,這種情況下每個 text token 的 logit 會基于新的情況進行調整。這兩種情況的 logit 變化量代表著圖片這個新的條件對每個文本 token 的影響大小。


具體來說,在訓練過程中,CAL 將圖文序列和單獨的文本序列分別輸入到大語言模型(LLM)中,得到每個文本 token 的 logit。通過計算這兩種情況下的 logit 差值,可以衡量圖片對每個 token 的影響程度。logit 差值越大,說明圖片對該 token 的影響越大,因此該 token 與圖像越相關。下圖展示了文本 token 的 logit diff 和 CAL 方法的流程圖。


字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖二:左圖是對兩種情形下 token logit diff 的可視化,右圖是 CAL 方法流程的可視化


實驗


CAL 在 LLaVA 和 MGM 兩個主流模型上進行了實驗驗證,在不同規模的模型下均實現了性能提升。


包含以下四個部分的驗證:


(1)使用 CAL 的模型在各項基準測試指標上表現更佳。


字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區


字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區


(2) 通過按比例隨機交換兩個圖文對中的文本來制造一批噪聲數據(圖文錯配),并用于模型訓練,CAL 使得訓練過程具有更強的數據抗噪性能。

字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖三:在不同強度訓練噪聲情況下,CAL 與基線的性能表現


(3)對 QA case 中的答案部分計算其與圖片 token 的注意力分數分布,并將其繪制在原圖上,CAL 訓練的模型擁有更清晰的注意力分布圖。


字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖四:基線與 CAL 的 attention map 可視化,每對中的右邊為 CAL


(4)將每個圖片 token 映射為它最相似 LLM 詞表中的文本 token,將其繪制到原圖上,CAL 訓練的模型映射內容更接近圖片內容。

字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖五:將 image token 映射為最相似詞表 token,并對應到原圖上


團隊介紹:


字節跳動豆包大模型團隊成立于 2023 年,致力于開發業界最先進的 AI 大模型技術,成為世界一流的研究團隊,為科技和社會發展作出貢獻。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/CkfSefskLPJwT8-JnBSWcg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品综合久久 | 韩国欧洲一级毛片 | 99久久精品免费看国产小宝寻花 | 日本国产精品视频 | 亚洲精品乱码久久久久v最新版 | 久久久成人一区二区免费影院 | 亚洲精品www| www.免费看片.com | 国产欧美视频一区 | 涩涩鲁亚洲精品一区二区 | 中文字幕在线免费观看 | 国产激情99 | 欧美国产日韩在线 | 日韩在线一区视频 | 在线播放国产一区二区三区 | 国产在线中文 | 中文在线播放 | 精品久久99 | 国产精品久久久久久久午夜片 | 亚洲综合色视频在线观看 | 99精品欧美一区二区三区综合在线 | 国产日韩欧美一区 | 欧美精品久久久 | 中文字幕成人在线 | 精品伊人 | 中文字幕视频在线观看 | 亚洲精品片 | 91在线视频在线观看 | 亚洲成人一区二区三区 | 久久久久亚洲精品 | 成人在线视频观看 | 91精品久久久久久久99 | 91电影在线播放 | 国产成人在线视频 | 婷婷久久精品一区二区 | 免费观看www7722午夜电影 | 久久中文字幕一区 | av永久免费 | 手机av在线| 91精品国产自产在线老师啪 | 国产高清一区二区三区 |