字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果

輕薄滴假象

發布于 2024-6-17 12:43

瀏覽

0收藏

當前主流的視覺語言模型（VLM）主要基于大語言模型（LLM）進一步微調。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間，然后使用自回歸方式根據圖像 token 預測答案。

在這個過程中，模態的對齊是通過文本 token 隱式實現的，如何做好這一步的對齊非常關鍵。

針對這一問題，武漢大學、字節跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種基于對比學習的文本 token 篩選方法（CAL），從文本中篩選出與圖像高度相關的 token，并加大其損失函數權重，從而實現更精準的多模態對齊。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

論文鏈接：???https://arxiv.org/pdf/2405.17871???
代碼鏈接：???https://github.com/foundation-multimodal-models/CAL???

CAL 有以下幾個亮點：

可以直接嵌套到訓練過程，無需額外預訓練階段。
在 OCR 和 Caption benchmarks 上獲得了明顯的提升，從可視化中可以發現 CAL 使得圖片模態對齊效果更好。
CAL 使得訓練過程對噪聲數據抵抗能力更強。

研究動機

目前視覺語言模型依賴于圖片模態的對齊，如何做好對齊非常關鍵。目前主流的方法是通過文本自回歸的方式進行隱式對齊，但是每個文本 token 對圖像對齊的貢獻是不一致的，對這些文本 token 進行區分是非常有必要的。

CAL 提出，在現有的視覺語言模型（VLM）訓練數據中，文本 token 可以被分為三類：

與圖片高度相關的文本：如實體（例如人、動物、物體）、數量、顏色、文字等。這些 token 與圖像信息直接對應，對多模態對齊至關重要。
與圖片低相關度的文本：如承接詞或可以通過前文推斷出的內容。這些 token 實際上主要是在訓練 VLM 的純文本能力。
與圖片內容相悖的文本：這些 token 與圖像信息不一致，甚至可能提供誤導信息，對多模態對齊過程產生負面影響。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區

圖一：綠色標記為與圖片高度相關 token，紅色為內容相悖，無色為中性 token

在訓練過程中，后兩類 token 整體而言實際上占據了較大比例，但由于它們并不強依賴于圖片，對圖片的模態對齊作用不大。因此，為了實現更好的對齊，需要加大第一類文本 token，即與圖片高度相關部分 token 的權重。如何找出這一部分 token 成為了解決這個問題的關鍵所在。

方法

找出與圖片高度相關 token 這個問題可以通過 condition contrastive 的方式來解決。

對于訓練數據中的每個圖文對，在沒有圖片輸入的情況下，每個文本 token 上的 logit 代表著 LLM 基于上下文情況和已有知識對這種情況出現的估計值。
如果在前面添加圖片輸入，相當于提供額外的上下文信息，這種情況下每個 text token 的 logit 會基于新的情況進行調整。這兩種情況的 logit 變化量代表著圖片這個新的條件對每個文本 token 的影響大小。

具體來說，在訓練過程中，CAL 將圖文序列和單獨的文本序列分別輸入到大語言模型（LLM）中，得到每個文本 token 的 logit。通過計算這兩種情況下的 logit 差值，可以衡量圖片對每個 token 的影響程度。logit 差值越大，說明圖片對該 token 的影響越大，因此該 token 與圖像越相關。下圖展示了文本 token 的 logit diff 和 CAL 方法的流程圖。

字節豆包、武大提出 CAL：通過視覺相關的 token 增強多模態對齊效果-AI.x社區