成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決?

發(fā)布于 2025-6-24 06:03
瀏覽
0收藏

MLLM中”模態(tài)懶惰“和”模態(tài)偏差“問題常見解決方案總結。

本篇繼續(xù)說明MLLM中多模態(tài)對齊的難點以及現(xiàn)有的解決方法,本系列要說明的主要難點有:

  • 多模態(tài)數(shù)據(jù)構建
  • 跨模態(tài)差異影響融合效果
  • 模態(tài)對齊評估效率比較低

上一篇中講到了多模態(tài)數(shù)據(jù)構建的難點和解決方法,???大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點?有什么解決方法???

本篇開始總結跨模態(tài)差異影響融合效果部分。具體來說就是不同模態(tài)特征分布差異顯著(如圖像與文本的嵌入空間不匹配),會阻礙深度融合從而影響MLLM的效果。

這塊部分在多模態(tài)學習中也叫“模態(tài)懶惰”問題。在多模態(tài)學習中,不同的數(shù)據(jù)模態(tài)(如文本、圖像、音頻等)可能在信息貢獻上存在不平衡,導致一些模態(tài)在學習過程中顯得更為主導,而其他模態(tài)則被忽視,這種現(xiàn)象就被稱為模態(tài)懶惰。這會導致多模態(tài)學習系統(tǒng)的性能不佳。

另外除了“模態(tài)懶惰”外,“模態(tài)偏差”也常常跟著被一起提到,MLLMs在處理多模態(tài)數(shù)據(jù)時,往往會過度依賴于某一模態(tài)(如語言或視覺),而忽視其他模態(tài)中的關鍵信息,從而導致模型生成不準確或不相關的回答。目前這種模態(tài)偏差主要表現(xiàn)為語言偏差(language bias)和視覺偏差(vision bias)。

  • 語言偏差:比如在回答“熊的顏色是什么?”時,模型可能基于大多數(shù)熊是棕色的常識,忽略了輸入圖像中顯示的北極熊是白色的。
  • 視覺偏差:指模型過度關注圖像細節(jié),而忽略了文本問題的真正意圖。例如,在回答“房子在左邊嗎?”時,模型可能提供了過多的圖像細節(jié),而沒有準確理解文本問題。體現(xiàn)出來可能覺得模型回答過于冗余但并沒有回答到點上。

下面是具體的解決方法,主要分為訓練方式、算法設計和訓練數(shù)據(jù)分布優(yōu)化。

訓練方式這里就不做贅述了,比較常見的是漸進式解凍訓練:先fix住某一模態(tài)編碼器權重,再訓練另一模態(tài)權重,最后全網(wǎng)絡整體訓練。

本篇主要講述算法細節(jié)設計和訓練數(shù)據(jù)分布優(yōu)化的詳細內(nèi)容,下面是一個快捷目錄。

一、算法細節(jié)設計

1. 最小化模態(tài)間投影誤差

2. 模態(tài)間交叉引導融合不同模態(tài)特征差異

二、訓練數(shù)據(jù)分布優(yōu)化

1. 在不同模態(tài)的不同語義層級設計對齊約束

2. 主動學習實現(xiàn)更平衡的數(shù)據(jù)選擇

3.  引導偏好優(yōu)化(BPO),懲罰某一模態(tài)的依賴行為

注意這里的訓練數(shù)據(jù)優(yōu)化相對于于上一篇中的數(shù)據(jù)構建有所區(qū)別,主要強調(diào)基于已有數(shù)據(jù)進行分布優(yōu)化以及不同模態(tài)鏈接,更便于緩解跨模態(tài)差異實現(xiàn)深度融合。

算法細節(jié)設計

1. 最小化模態(tài)間投影誤差(如文本→圖像映射的均方誤差)

結合最優(yōu)傳輸理論(Optimal Transport)建模分布對齊,解決語義密度差異問題。

這里舉一個ICLR 2024的論文《Multimodal Representation Learning with Alternating Unimodal Adaptation》的例子。這篇論文提出了一種名為MLA(Multimodal Learning with Alternating Unimodal Adaptation)的方法:

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

主要包括下面四個核心步驟,筆者覺得實際中都很實用。

1) 交替單模態(tài)學習:把傳統(tǒng)的多模態(tài)聯(lián)合優(yōu)化過程轉變?yōu)榻惶娴膯文B(tài)學習過程。在每個訓練步驟中,只優(yōu)化一個模態(tài)的編碼器,從而減少模態(tài)之間的干擾,使每個模態(tài)都能獨立地被優(yōu)化。

2)共享頭部:每個模態(tài)獨立優(yōu)化,但用一個跨所有模態(tài)的共享頭部來捕獲跨模態(tài)的交互信息。共享頭部在不同模態(tài)之間持續(xù)優(yōu)化,有助于整合多模態(tài)信息。

3)梯度修改機制:為了防止共享頭部在遇到新模態(tài)時丟失之前學習到的信息(即模態(tài)遺忘問題),通過正交化梯度方向來減少不同模態(tài)之間的干擾。

4)推理階段動態(tài)模態(tài)融合:在inference階段,基于不確定性的模型融合機制來整合多模態(tài)信息;評估每個模態(tài)在預測中的重要性,并根據(jù)這個評估來分配權重,然后結合所有模態(tài)的預測結果。

2. 模態(tài)間交叉引導融合不同模態(tài)特征差異

比較常見的是跨模態(tài)交叉注意力(Cross-modal Cross-Attention)顯式建模不同模態(tài)特征的融合,Query來自一模態(tài),Key/Value來自另一模態(tài);或者基于輸入內(nèi)容自適應調(diào)整各模態(tài)貢獻權重,抑制低質量模態(tài)噪聲。

另外時間與空間交叉引導對齊也開始有一些論文在提到:

CVPR 2025中的論文《Magma: A Foundation Model for Multimodal AI Agents》中的預訓練學習任務SoM和ToM。

Set-of-Mark (SoM) for Action Grounding,在圖像中標注可操作區(qū)域(如 GUI 中的可點擊按鈕),幫助模型學習如何定位和識別這些區(qū)域;在每個圖像中,提取一組候選區(qū)域或點,并在這些位置上標注數(shù)字標簽,形成一個新的標記圖像。模型需要從這些標記中選擇正確的標記,從而顯著簡化了行動定位任務。

Trace-of-Mark (ToM) for Action Planning,在視頻中標注動作軌跡,幫助模型學習如何預測未來的動作。在視頻序列中,提取每個幀中的標記位置,并預測這些標記在未來幀中的軌跡。這不僅使模型能夠理解視頻中的時間動態(tài),還能“提前規(guī)劃”未來的動作。

訓練數(shù)據(jù)分布優(yōu)化 

1. 在不同模態(tài)的不同語義層級設計對齊約束

論文《DenseFusion-1M: Fusing Multi-visual Experts for Fine-grained Understanding》提出了一種名為“Perceptual Fusion”的方法,使用低成本但高效的字幕引擎生成詳盡準確的圖像描述,便于生成不同語義粒度的更高質量的圖像-文本數(shù)據(jù)集。

有一個非常關鍵的視覺專家集成(Mixture of Visual Experts),可以利用多種視覺專家模型來提供圖像理解的中間信息。視覺專家一共包括下面四類:

  • 圖像標注模型(Image Tagging Model):提供場景級別的理解。
  • 目標檢測模型(Object Detection Model):精確檢測圖像中的物體。
  • 文本識別模型(Text Recognition Model):識別圖像中的所有文本元素。
  • 世界知識(World Knowledge):提供背景信息和細節(jié),增強模型的知識密度。

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

那么在做對齊的時候從局部和全局入手,局部可以對齊圖像區(qū)域與文本單詞(如目標檢測框與名詞短語);從全局對齊整體圖像與句子語義,避免細節(jié)丟失。

2. 主動學習實現(xiàn)更平衡的數(shù)據(jù)選擇

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

這里之前的文章也有提過,使用Shapley值來估計每個模態(tài)對最終多模態(tài)預測的貢獻,不需要真實標簽。

通過計算模型輸出(即預測概率)在包含和不包含某個模態(tài)特征時的變化,來估計該模態(tài)特征的邊際貢獻,然后對所有可能的子集選擇取平均值,從而得到該模態(tài)的Shapley值。

論文《Towards Balanced Active Learning for Multimodal Classification》  把模態(tài)貢獻定義為該模態(tài)的Shapley值的絕對值與所有模態(tài)的Shapley值絕對值之和的比值。并且提出了三個原則:

1)優(yōu)先選擇貢獻更平衡的樣本:如果兩個多模態(tài)數(shù)據(jù)樣本的傳統(tǒng)主動學習(CAL)策略的獲取分數(shù)相等,那么具有更平衡單模態(tài)貢獻的樣本應具有更高的平衡多模態(tài)主動學習(BMMAL)策略的獲取分數(shù)。

2)減少強模態(tài)和弱模態(tài)數(shù)據(jù)樣本平均獲取分數(shù)的差距:為了避免偏向強模態(tài)的數(shù)據(jù)選擇,應減少強模態(tài)主導的數(shù)據(jù)樣本和弱模態(tài)主導的數(shù)據(jù)樣本之間的平均獲取分數(shù)的差距。

3)保持模態(tài)貢獻與獲取分數(shù)的正比關系:為了防止偏向弱模態(tài)的數(shù)據(jù)選擇,需要確保每個模態(tài)對獲取分數(shù)函數(shù)的貢獻與其對模型輸出在樣本級別的貢獻成正比。

因此在訓練時結合此原則可以調(diào)整訓練方法進行選擇:

1)調(diào)整梯度嵌入:首先計算多模態(tài)分類器的梯度嵌入,然后根據(jù)每個模態(tài)的貢獻比例,分別對每個單模態(tài)的梯度嵌入進行縮放。具體來說,對于兩個模態(tài)的情況,如果一個模態(tài)的貢獻大于另一個模態(tài),那么其對應的梯度嵌入會被乘以一個權重,該權重小于1且與模態(tài)貢獻的差異成正比。這樣,不平衡的樣本的梯度嵌入的幅度會被抑制,從而降低它們被K-Means++算法選擇的可能性。

2)樣本選擇:最后,使用K-Means++算法對調(diào)整后的梯度嵌入進行聚類,選擇具有顯著影響的多樣化多模態(tài)數(shù)據(jù)樣本用于模型訓練。

3.  引導偏好優(yōu)化(BPO),懲罰某一模態(tài)的依賴行為

可以通過引入擾動來減少某些模態(tài)的信息內(nèi)容,迫使模型在生成負面響應時依賴特定模態(tài)。比如前面提到的兩個”模態(tài)偏差“的例子,棕色的北極熊和對于”房子在左邊嗎?“問題的不精準回答,把這些生成的偏差響應都作為負面樣本,形成了一個新的偏好優(yōu)化數(shù)據(jù)集。

論文 《 Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization》提出了噪聲感知偏好優(yōu)化算法(NaPO)動態(tài)識別噪聲數(shù)據(jù)并減少對這些樣本的優(yōu)化權重。具體實現(xiàn)如下:

1)結合MAE和BCE:NaPO通過負Box-Cox變換將DPO中的二元交叉熵(BCE)與噪聲魯棒的平均絕對誤差(MAE)結合起來。BCE收斂速度快但容易過擬合噪聲數(shù)據(jù),而MAE具有更好的噪聲魯棒性但收斂速度慢。通過調(diào)整噪聲魯棒性系數(shù)q,可以在兩者之間取得平衡。

2)動態(tài)調(diào)整噪聲魯棒性系數(shù):基于數(shù)據(jù)噪聲水平動態(tài)調(diào)整q,通過分析數(shù)據(jù)的獎勵邊際(reward margin),可以評估數(shù)據(jù)的質量,并據(jù)此調(diào)整q的值。具體公式為:

LLM面經(jīng)——多模態(tài)大模型訓練中”模態(tài)懶惰“問題如何解決?-AI.x社區(qū)

其中,ψ(x,yw,yl)是獎勵邊際公式,α是歸一化因子,σ是sigmoid函數(shù)。通過這種方式,NaPO能夠根據(jù)數(shù)據(jù)的噪聲水平自適應地調(diào)整其噪聲魯棒性。

需要注意的是,不同模態(tài)的數(shù)據(jù)融合的處理方法存在較大差異,比如文本與圖像、圖像與點云、視頻與軌跡等,細分領域的專業(yè)性較強;本篇只總結了一些比較常見的方法。


本文轉載自??瓦力算法學研所??,作者:喜歡瓦力的卷卷

已于2025-6-24 06:03:37修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91精品国产777在线观看 | 久久av网 | 久久之精品 | 欧美日韩精品一区二区三区蜜桃 | 亚洲成人精品一区 | 久久一及片 | 免费久久视频 | 污视频免费在线观看 | 欧美1区2区| 一区二区三区视频在线免费观看 | 噜啊噜在线 | 美国一级片在线观看 | 精品av| 日韩欧美在线视频 | 在线第一页 | 欧美视频三区 | 午夜在线免费观看 | 久久一级| 成人综合久久 | 一级特黄网站 | 欧美激情五月 | 一区二区三区中文字幕 | 欧美一区二区三区在线观看 | 浮生影院免费观看中文版 | 国产精品一区二区三区在线 | 免费黄色大片 | 在线观看亚洲精品 | 国产一区 | 日韩亚洲欧美一区 | 国产97碰免费视频 | 日本欧美黄色片 | 视频一区在线观看 | 久久欧美精品 | 99热视| 欧美中文字幕在线观看 | 亚洲成人在线免费 | 91在线成人 | 国产福利资源在线 | 成人久久网 | 天天精品综合 | 免费视频一区二区 |