單卡即可微調大模型!內存占用僅1/8,性能依然拉滿 | ICML 2025
諸如Qwen,GPT,DeepSeek R1等基礎大模型已成為現代深度學習的基石。
然而,在應用于具體下游任務時,它們龐大的參數規模使得額外微調成本較高。
為了解決這一問題,近期的研究聚焦于低秩適應 (LoRA) 方法,通過保持基座模型參數凍結,僅對新增的小型輕量級適配器進行微調,從而降低微調成本。
盡管LoRA具有較高的效率,然而其微調性能往往不及全量微調。
面對這一挑戰,華中科技大學和香港中文大學團隊提出了一項全新的LoRA微調框架——GOAT,該工作已成功被ICML 2025正式接收。
這項研究提出了一套自適應奇異值初始化與混合專家梯度對齊策略,成功緩解低秩適應(LoRA)性能不足的難題,在25個多領域任務中實現接近甚至超越全參數微調(Full FT)的效果,同時僅需調整極小比例參數。
低秩適應效果不如預期
傳統LoRA通過在預訓練權重矩陣中添加低秩適配器(如BA矩陣),大幅減少可訓練參數(通常僅需調整0.1%-5%參數),但其性能往往顯著落后于全參數微調。
現有方法通常通過隨機初始化或者靜態奇異值分解(Singular Value Decomposition, SVD)子空間進行初始化,以優化LoRA性能,但這類方式未能充分挖掘預訓練模型中已有的知識。
另一條提升LoRA表現的路徑是引入混合專家架構(Mixture-of-Experts, MoE)。然而,復雜的梯度動態使得在LoRA MoE架構中應用SVD初始化方法面臨較大挑戰。
取最大/小分量不一定好?重新審視SVD初始化
先前基于SVD初始化的方法通常會對最大或最小奇異值對應的子空間進行微調:PiSSA僅對具有最大范數的部分進行微調,而MiLoRA和KaSA則凍結較大的分量,對較小的部分進行低秩適應。如圖所示:
實際使用中,由于忽略了其他的SVD片段,PISSA和MiLoRA的方法并不能保證其有較好的效果,尤其是在秩較低的情況下。
作者針對不同數據集,使用不同的SVD片段來初始化進行分析發現,不同任務對應的最佳SVD片段不同,同時其很可能在中間片段表現最好。
利用MoE的動態選擇特性,研究人員提出了一種自適應SVD初始化,設計一個LoRA MoE的結構實現收斂速度和最終收斂性能的權衡。
首先對預訓練大模型權重做奇異值分解,將其分解為多段,由MoE路由動態選擇最相關的奇異值組合,靈活適配不同任務需求。其中每個和的expert由均勻切片的SVD片段構成,,使其能捕獲 的更全面的先驗信息。
縮放因子過小?LoRA的低秩梯度偏差
先前的LoRA方法中,常見的做法是使用縮放形式,且通常設為2。
基于SVD的方法則通過將和同時除以,從而在權重大小不依賴于。
通過實驗分析,僅通過調整 能對LoRA的收斂速度和最終性能產生較大影響,尤其是極度低秩的場景下(在LoRA MoE中非常常見)。
為詳細研究這一點,研究人員引入理論對齊假設:
使用全量微調的Upcycled MoE(也即直接使用預訓練權重初始化)作為性能上界。
如果在微調LoRA MoE的過程中,對每個專家,在初始化時保證LoRA專家的等效權重與全量微調MoE的專家權重一致,并在每次更新中使LoRA專家等效梯度與MoE全秩微調梯度對齊,LoRA MoE就可以與全秩微調的 Upcycled MoE 在每一步優化都實現對齊,理論上能達成相同的性能。
利用該假設,對于等效權重對齊,研究人員推導出SVD初始化中使接近,需要減去額外減去矩陣最優期望為:
對于等效梯度對齊,研究人員通過代數分析,聯立每個專家的LoRA等效梯度與全量微調(Full Fine-Tuning, FFT)的梯度,近似推導出一個閉式解。
其中,表示模型維度,表示FFT與LoRA學習率的比值,表示LoRA的秩,通常該秩遠小于模型維度,使得推導出的明顯大于經驗取值2。
這一結果從理論上證明了當前廣泛采用的經驗縮放因子過小的問題,同時也提供了一種與模型架構無關的偏差調整機制——即通過合理設置縮放因子來彌補LoRA在低秩子空間中梯度偏移所帶來的性能差距,從而更貼近全量微調的行為表現。
這種方法為提升LoRA的微調效果提供了一個理論驅動的改進方向。
實驗結果:25項任務全面領先
團隊在自然語言生成(GSM8K, HumanEval, Mt-Bench)、自然語言理解(GLUE)、常識推理(CommonsenseQA)、圖像分類(ImageNet子集)等4個領域25個數據集上驗證GOAT的優越性:
自然語言生成:比主流的LoRA MoE變體,在Mt-Bench中超越4.2%,GSM8K中超越6.3%,HumanEval中超越3.1%,逼近全量微調水平;
圖像分類:在CLIP-ViT微調中,僅用2.24%參數即達到全參數微調99%性能,超越主流LoRA變體6%,主流LoRA MoE變體2.4%;
常識推理:平均準確率82.73%,超越ChatGPT7.42%,展現強大知識遷移能力;
自然語言理解:領先于全量微調,和FT MOE的差距縮小至0.1%;
GOAT無需修改模型架構或訓練算法,僅通過初始化策略與梯度縮放即可實現性能飛躍,具備極強實用性:
內存占用降低8倍:訓練LLaMA7B時,相比全參數微調MoE,GOAT內存需求從640GB壓縮至35GB,單卡即可訓練;
收斂速度快效果好:比起其他的LoRA MoE,收斂有著更快的收斂速度和更好的效果;
靈活擴展:支持動態調整專家數量與激活比例,平衡性能與效率。
未來,GOAT優化方法有望在后訓練階段提供有效指導,同時為預訓練場景開辟新的思路,從而進一步挖掘和釋放人工智能性能的潛能。
論文地址: https://arxiv.org/pdf/2502.16894v3Github地址: https://github.com/Facico/GOAT-PEFT