成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一招緩解LLM偏科!調整訓練集組成,“秘方”在此 | 上交大&上海AI Lab等

人工智能 新聞
上海交大&上海AI Lab聯合團隊提出創新方法IDEAL,可顯著提升LLM在多種不同領域上的綜合性能。

大幅緩解LLM偏科,只需調整SFT訓練集的組成。

本來不擅長coding的Llama 3.1-8B,代碼能力明顯提升。

上海交大&上海AI Lab聯合團隊提出創新方法IDEAL,可顯著提升LLM在多種不同領域上的綜合性能。

圖片

此外,研究還有一些重要發現,比如:

  • SFT階段訓練數據的數量不是關鍵
  • 配比不合適,訓練數據越多,反而會加劇模型“偏科”

具體來看——

SFT后LLM部分能力甚至退化

大型語言模型 (LLM) 憑借其強大的理解和邏輯推理能力,在多個領域展現了驚人的能力。除了模型參數量的增大,高質量的數據是公認的LLM性能提升最關鍵的影響因素。

當對模型進行監督微調(SFT)時,研究人員發現LLM在多任務場景下常出現“偏科”現象——部分能力突出而部分能力并未漲進,甚至退化。這種不平衡的現象導致大模型在不同的領域上能力不同,進而影響用戶體驗。

上海交大和上海AI Lab的研究者迅速將目光聚焦到SFT訓練的訓練集上,是否可以通過調整訓練集的組成來緩解LLM偏科的情況?直覺上來看,直接將LLM的弱勢科目的訓練數據增加一倍,就可以讓最后的結果發生變化。但是,由于訓練數據之間的耦合關系,研究者通過建模量化每個領域數據對于最終結果的影響情況,科學地調整訓練數據集的組成,最終提高了模型的。

IDEAL方法

問題建模:

首先按照不同的領域準備高質量的訓練數據集:圖片

并給出對應的用于驗證的驗證集:圖片。通過在訓練集上面訓練模型θ,獲得訓練集上的最優參數:θ*。

論文希望在驗證集上的損失達到最小。為了能夠方便的調整訓練集,論文引入了對應的變量β,并將這個優化問題顯示地建模了出來:


論文從理論角度給出了各個領域數據調整對于最優模型在驗證集上影響的大小(具體可見原論文中的Lemma 1):

高效計算:

由于式子中存在參數二階矩陣的逆的操作,計算的資源消耗非常大。為了能夠擴展到LLM的參數量級,論文采用了K-FAC的理論來近似簡化計算Hessian矩陣的逆。通過挑選模型參數中的“重要”層的數值來近似刻畫各個領域數據對于最后模型性能的影響,并最后通過合理的放縮超參數m來控制最后的調整比例大小:

整體的算法流程圖如下所示:

圖片

實驗結果

論文主要以Llama3.1 8B模型作為Base model,測試了IDEAL對四個典型領域上多任務訓練的模型的提升效果。可以看到,無論是epoch1還是epoch3,IDEAL都能夠在2輪迭代后將原先不擅長的Coding能力顯著提升。

圖片

除此之外,論文還有其他的發現:

  • 一般隨機初始的訓練集分布都是有進一步優化的空間:文章中,無論在在四個領域四個benchmark,還是5個領域8個benchmark上,無論初始分布是各個領域是數量相等的或者不等的分布上,IDEAL都實現了對于平均結果的提升。
  • SFT階段訓練數據的數量不是關鍵:因為以往的re-weighting工作會控制整體的訓練數據量,研究團隊將對比的方法DoReMi和DOGE,都提升了整體的數據量到IDEAL對應的數量,但實驗結果證明,提升數據量而沒有改變數據混合分布,對于模型的提升效果甚微。
  • 如果數據分布配比不合適,更多數據量,訓練地更久,反而會導致更加不均衡的模型效果。團隊發現相比訓練epoch1,訓練同樣的數據3epoch會導致數據之間的負面沖突被放大,導致最終的模型性能更加不均衡。
  • 論文還指導了超參數m的選取:m的取值最好選在0.15。因為理論要求,應該在原始分布的周圍優化數據配比,所以m應該選取不大的步長。而選取過小的步長,對于模型最終的效果影響也會較小。綜上所述,論文在m=0.1,0.15,和0.3三個設定的實驗中更加推薦0.15的取值。

應用價值

IDEAL解決了得到各個領域高質量訓練數據之后如何配比組合成為統一的訓練集的問題。通過迭代優化的方式優化訓練集的各個領域數據數量。避免了之前研究者需要按經驗,人工調整各個數據集配比的dirty work,具有較大的實用價值。

論文信息:

標題:IDEAL: Data Equilibrium Adaptation for Multi-Capability Language Model Alignment

作者:上海交通大學、上海AI實驗室、清華大學等

GitHub代碼庫:https://anonymous.4open.science/r/IDEAL-678C520/README.md

arxiv:https://arxiv.org/abs/2505.12762

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-03 12:12:33

訓練模型

2025-02-10 14:05:00

訓練模型AI

2013-07-30 11:24:33

SAP“簡化IT 一招

2021-11-22 11:30:37

JavaScript代碼瀏覽器

2024-12-16 07:05:00

大模型LLM指紋識別

2024-02-04 12:22:28

模型數據

2025-06-23 08:56:00

2022-12-12 11:31:39

數據學習

2025-06-24 08:50:00

模型數據AI

2024-08-30 12:58:43

AI多模態技術

2025-05-09 08:19:00

2022-05-12 13:39:48

AI研究模型

2023-11-16 12:36:00

AI數據

2013-05-03 11:21:27

2021-06-28 20:01:07

電腦性能Windows 7

2022-09-06 11:53:00

開發計算

2022-05-30 08:53:47

PycharmPython

2011-04-19 09:47:14

2023-03-03 13:14:46

2012-02-01 15:41:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美aⅴ| 最新中文字幕在线 | 超碰av人人 | 午夜精品久久久久久久久久久久 | 国产综合av | 日韩欧美亚洲 | 在线播放亚洲 | 精品久久久久久久人人人人传媒 | 爱爱视频在线观看 | 女人牲交视频一级毛片 | 久久小视频 | 成人国产在线观看 | 久久久久久久一区二区 | 一级黄在线观看 | 成人av鲁丝片一区二区小说 | 久久久久国色av免费观看性色 | 羞羞的视频免费看 | 亚洲成人精选 | 亚洲日本一区二区三区四区 | 激情网五月天 | 中文亚洲视频 | 综合一区二区三区 | 国产亚洲人成a在线v网站 | 国产成人jvid在线播放 | 黄色大片网 | 精品视频免费 | 欧美一级二级视频 | 国产精品v | 人妖av| 日韩一区中文字幕 | 国产色网站 | 亚洲网站在线观看 | 精品欧美一区二区三区久久久 | 播放一级黄色片 | 国产精品一区二区在线播放 | 91av视频在线免费观看 | 波多野结衣在线观看一区二区三区 | 久久综合一区二区三区 | 精品一区国产 | 毛片在线免费 | av一区二区三区在线观看 |