LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決？

shizhi02

發(fā)布于 2025-6-24 06:03

瀏覽

0收藏

MLLM中”模態(tài)懶惰“和”模態(tài)偏差“問題常見解決方案總結。

本篇繼續(xù)說明MLLM中多模態(tài)對齊的難點以及現(xiàn)有的解決方法，本系列要說明的主要難點有：

多模態(tài)數(shù)據(jù)構建
跨模態(tài)差異影響融合效果
模態(tài)對齊評估效率比較低

上一篇中講到了多模態(tài)數(shù)據(jù)構建的難點和解決方法，???大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點？有什么解決方法？??

本篇開始總結跨模態(tài)差異影響融合效果部分。具體來說就是不同模態(tài)特征分布差異顯著（如圖像與文本的嵌入空間不匹配），會阻礙深度融合從而影響MLLM的效果。

這塊部分在多模態(tài)學習中也叫“模態(tài)懶惰”問題。在多模態(tài)學習中，不同的數(shù)據(jù)模態(tài)（如文本、圖像、音頻等）可能在信息貢獻上存在不平衡，導致一些模態(tài)在學習過程中顯得更為主導，而其他模態(tài)則被忽視，這種現(xiàn)象就被稱為模態(tài)懶惰。這會導致多模態(tài)學習系統(tǒng)的性能不佳。

另外除了“模態(tài)懶惰”外，“模態(tài)偏差”也常常跟著被一起提到，MLLMs在處理多模態(tài)數(shù)據(jù)時，往往會過度依賴于某一模態(tài)（如語言或視覺），而忽視其他模態(tài)中的關鍵信息，從而導致模型生成不準確或不相關的回答。目前這種模態(tài)偏差主要表現(xiàn)為語言偏差（language bias）和視覺偏差（vision bias）。

語言偏差：比如在回答“熊的顏色是什么？”時，模型可能基于大多數(shù)熊是棕色的常識，忽略了輸入圖像中顯示的北極熊是白色的。
視覺偏差：指模型過度關注圖像細節(jié)，而忽略了文本問題的真正意圖。例如，在回答“房子在左邊嗎？”時，模型可能提供了過多的圖像細節(jié)，而沒有準確理解文本問題。體現(xiàn)出來可能覺得模型回答過于冗余但并沒有回答到點上。

下面是具體的解決方法，主要分為訓練方式、算法設計和訓練數(shù)據(jù)分布優(yōu)化。

訓練方式這里就不做贅述了，比較常見的是漸進式解凍訓練：先fix住某一模態(tài)編碼器權重，再訓練另一模態(tài)權重，最后全網(wǎng)絡整體訓練。

本篇主要講述算法細節(jié)設計和訓練數(shù)據(jù)分布優(yōu)化的詳細內(nèi)容，下面是一個快捷目錄。

一、算法細節(jié)設計

1. 最小化模態(tài)間投影誤差

2. 模態(tài)間交叉引導融合不同模態(tài)特征差異

二、訓練數(shù)據(jù)分布優(yōu)化

1. 在不同模態(tài)的不同語義層級設計對齊約束

2. 主動學習實現(xiàn)更平衡的數(shù)據(jù)選擇

3. 引導偏好優(yōu)化（BPO），懲罰某一模態(tài)的依賴行為

注意這里的訓練數(shù)據(jù)優(yōu)化相對于于上一篇中的數(shù)據(jù)構建有所區(qū)別，主要強調(diào)基于已有數(shù)據(jù)進行分布優(yōu)化以及不同模態(tài)鏈接，更便于緩解跨模態(tài)差異實現(xiàn)深度融合。

算法細節(jié)設計

1. 最小化模態(tài)間投影誤差（如文本→圖像映射的均方誤差）

結合最優(yōu)傳輸理論（Optimal Transport）建模分布對齊，解決語義密度差異問題。

這里舉一個ICLR 2024的論文《Multimodal Representation Learning with Alternating Unimodal Adaptation》的例子。這篇論文提出了一種名為MLA（Multimodal Learning with Alternating Unimodal Adaptation）的方法：

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決？-AI.x社區(qū)

主要包括下面四個核心步驟，筆者覺得實際中都很實用。

1）交替單模態(tài)學習：把傳統(tǒng)的多模態(tài)聯(lián)合優(yōu)化過程轉變?yōu)榻惶娴膯文B(tài)學習過程。在每個訓練步驟中，只優(yōu)化一個模態(tài)的編碼器，從而減少模態(tài)之間的干擾，使每個模態(tài)都能獨立地被優(yōu)化。

2）共享頭部：每個模態(tài)獨立優(yōu)化，但用一個跨所有模態(tài)的共享頭部來捕獲跨模態(tài)的交互信息。共享頭部在不同模態(tài)之間持續(xù)優(yōu)化，有助于整合多模態(tài)信息。

3）梯度修改機制：為了防止共享頭部在遇到新模態(tài)時丟失之前學習到的信息（即模態(tài)遺忘問題），通過正交化梯度方向來減少不同模態(tài)之間的干擾。

4）推理階段動態(tài)模態(tài)融合：在inference階段，基于不確定性的模型融合機制來整合多模態(tài)信息;評估每個模態(tài)在預測中的重要性，并根據(jù)這個評估來分配權重，然后結合所有模態(tài)的預測結果。

2. 模態(tài)間交叉引導融合不同模態(tài)特征差異

比較常見的是跨模態(tài)交叉注意力（Cross-modal Cross-Attention）顯式建模不同模態(tài)特征的融合，Query來自一模態(tài)，Key/Value來自另一模態(tài)；或者基于輸入內(nèi)容自適應調(diào)整各模態(tài)貢獻權重，抑制低質量模態(tài)噪聲。

另外時間與空間交叉引導對齊也開始有一些論文在提到：

CVPR 2025中的論文《Magma: A Foundation Model for Multimodal AI Agents》中的預訓練學習任務SoM和ToM。

Set-of-Mark (SoM) for Action Grounding，在圖像中標注可操作區(qū)域（如 GUI 中的可點擊按鈕），幫助模型學習如何定位和識別這些區(qū)域；在每個圖像中，提取一組候選區(qū)域或點，并在這些位置上標注數(shù)字標簽，形成一個新的標記圖像。模型需要從這些標記中選擇正確的標記，從而顯著簡化了行動定位任務。

Trace-of-Mark (ToM) for Action Planning，在視頻中標注動作軌跡，幫助模型學習如何預測未來的動作。在視頻序列中，提取每個幀中的標記位置，并預測這些標記在未來幀中的軌跡。這不僅使模型能夠理解視頻中的時間動態(tài)，還能“提前規(guī)劃”未來的動作。

訓練數(shù)據(jù)分布優(yōu)化

1. 在不同模態(tài)的不同語義層級設計對齊約束

論文《DenseFusion-1M: Fusing Multi-visual Experts for Fine-grained Understanding》提出了一種名為“Perceptual Fusion”的方法，使用低成本但高效的字幕引擎生成詳盡準確的圖像描述，便于生成不同語義粒度的更高質量的圖像-文本數(shù)據(jù)集。

有一個非常關鍵的視覺專家集成（Mixture of Visual Experts），可以利用多種視覺專家模型來提供圖像理解的中間信息。視覺專家一共包括下面四類：

圖像標注模型（Image Tagging Model）：提供場景級別的理解。
目標檢測模型（Object Detection Model）：精確檢測圖像中的物體。
文本識別模型（Text Recognition Model）：識別圖像中的所有文本元素。
世界知識（World Knowledge）：提供背景信息和細節(jié)，增強模型的知識密度。

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決？-AI.x社區(qū)

那么在做對齊的時候從局部和全局入手，局部可以對齊圖像區(qū)域與文本單詞（如目標檢測框與名詞短語）；從全局對齊整體圖像與句子語義，避免細節(jié)丟失。

2. 主動學習實現(xiàn)更平衡的數(shù)據(jù)選擇

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決？-AI.x社區(qū)

這里之前的文章也有提過，使用Shapley值來估計每個模態(tài)對最終多模態(tài)預測的貢獻，不需要真實標簽。

通過計算模型輸出（即預測概率）在包含和不包含某個模態(tài)特征時的變化，來估計該模態(tài)特征的邊際貢獻，然后對所有可能的子集選擇取平均值，從而得到該模態(tài)的Shapley值。

論文《Towards Balanced Active Learning for Multimodal Classification》把模態(tài)貢獻定義為該模態(tài)的Shapley值的絕對值與所有模態(tài)的Shapley值絕對值之和的比值。并且提出了三個原則：

1）優(yōu)先選擇貢獻更平衡的樣本：如果兩個多模態(tài)數(shù)據(jù)樣本的傳統(tǒng)主動學習（CAL）策略的獲取分數(shù)相等，那么具有更平衡單模態(tài)貢獻的樣本應具有更高的平衡多模態(tài)主動學習（BMMAL）策略的獲取分數(shù)。

2）減少強模態(tài)和弱模態(tài)數(shù)據(jù)樣本平均獲取分數(shù)的差距：為了避免偏向強模態(tài)的數(shù)據(jù)選擇，應減少強模態(tài)主導的數(shù)據(jù)樣本和弱模態(tài)主導的數(shù)據(jù)樣本之間的平均獲取分數(shù)的差距。

3）保持模態(tài)貢獻與獲取分數(shù)的正比關系：為了防止偏向弱模態(tài)的數(shù)據(jù)選擇，需要確保每個模態(tài)對獲取分數(shù)函數(shù)的貢獻與其對模型輸出在樣本級別的貢獻成正比。

因此在訓練時結合此原則可以調(diào)整訓練方法進行選擇：

1）調(diào)整梯度嵌入：首先計算多模態(tài)分類器的梯度嵌入，然后根據(jù)每個模態(tài)的貢獻比例，分別對每個單模態(tài)的梯度嵌入進行縮放。具體來說，對于兩個模態(tài)的情況，如果一個模態(tài)的貢獻大于另一個模態(tài)，那么其對應的梯度嵌入會被乘以一個權重，該權重小于1且與模態(tài)貢獻的差異成正比。這樣，不平衡的樣本的梯度嵌入的幅度會被抑制，從而降低它們被K-Means++算法選擇的可能性。

2）樣本選擇：最后，使用K-Means++算法對調(diào)整后的梯度嵌入進行聚類，選擇具有顯著影響的多樣化多模態(tài)數(shù)據(jù)樣本用于模型訓練。

3. 引導偏好優(yōu)化（BPO），懲罰某一模態(tài)的依賴行為

可以通過引入擾動來減少某些模態(tài)的信息內(nèi)容，迫使模型在生成負面響應時依賴特定模態(tài)。比如前面提到的兩個”模態(tài)偏差“的例子，棕色的北極熊和對于”房子在左邊嗎？“問題的不精準回答，把這些生成的偏差響應都作為負面樣本，形成了一個新的偏好優(yōu)化數(shù)據(jù)集。

論文《 Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization》提出了噪聲感知偏好優(yōu)化算法（NaPO）動態(tài)識別噪聲數(shù)據(jù)并減少對這些樣本的優(yōu)化權重。具體實現(xiàn)如下：

1）結合MAE和BCE：NaPO通過負Box-Cox變換將DPO中的二元交叉熵（BCE）與噪聲魯棒的平均絕對誤差（MAE）結合起來。BCE收斂速度快但容易過擬合噪聲數(shù)據(jù)，而MAE具有更好的噪聲魯棒性但收斂速度慢。通過調(diào)整噪聲魯棒性系數(shù)q，可以在兩者之間取得平衡。

2）動態(tài)調(diào)整噪聲魯棒性系數(shù)：基于數(shù)據(jù)噪聲水平動態(tài)調(diào)整q，通過分析數(shù)據(jù)的獎勵邊際（reward margin），可以評估數(shù)據(jù)的質量，并據(jù)此調(diào)整q的值。具體公式為：

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決？-AI.x社區(qū)