7B智能體僅憑9個任務訓練即超越R1!上交大打造AI-for-AI新范式
盡管人工智能(AI)在飛速發展,當前 AI 開發仍嚴重依賴人類專家大量的手動實驗和反復的調參迭代,過程費時費力。這種以人為中心的方式已成為制約創新速度和通向通用人工智能(AGI)的關鍵瓶頸。為突破限制,AI-for-AI(AI4AI)應運而生。AI4AI 旨在讓 AI 作為智能體來自主設計、優化和改進 AI 算法,大幅減少人類干預,加速迭代開發周期,推動 AGI 發展進程。
最近,上海交通大學與上海人工智能實驗室聯合團隊最新研究表明,一個僅依賴 7B 參數大模型的 AI 智能體(ML-Agent),采用 “經驗學習” 新范式,只在 9 個機器學習任務上持續探索學習,迭代進化,最終就能設計出超越 671B Deepseek-R1 驅動的智能體設計的 AI 模型,首次實現了在自主機器學習領域從 “提示工程” 到 “經驗學習” 的范式躍遷,開創了 AI4AI 的新路徑。
- 論文標題:
ML-Agent: Reinforcing LLM Agents for Autonomous Machine Learning Engineering - 論文地址:
https://arxiv.org/pdf/2505.23723 - 代碼地址:
https://github.com/MASWorks/ML-Agent
傳統自主機器學習:費時低效的困境
傳統機器學習工程繁瑣低效,研究人員常需數天至數月進行模型設計、參數調優,與反復試錯,限制了 AI 創新發展的速度。最近,基于大語言模型(LLM)的智能體(Agent)的出現給該領域帶來顯著變革。它們能理解自然語言指令,生成代碼并與環境交互,實現自主機器學習(Autonomous Machine Learning,AI4AI),提升 AI 開發效率。
然而,這些智能體仍高度依賴人工設計的提示詞(Prompt Engineering),缺乏從經驗中自主學習與泛化的能力。其能力提升仍需研究人員根據數小時的執行結果不斷調整提示詞形成 "等待 - 修改 - 重試" 的低效循環,仍難以擺脫對人力的依賴與效率瓶頸。
AI4AI 破局之路:從指令遵循到自我進化
為解決這一關鍵限制,該研究首次探索了基于學習的智能體自主機器學習范式,其中智能體可以通過在線強化學習從機器學習任務的執行軌跡中進行學習。這種方式使得智能體能夠主動探索不同的策略,跨任務積累知識,逐步優化決策,持續從自身經驗中學習,并通過訓練不斷提升其設計優化 AI 的能力。
自主機器學習流程
ML-Agent:首個經驗學習的 AI4AI 智能體
利用提出的訓練框架,研究人員訓練了一個由 7B 規模的 Qwen2.5 大模型驅動的自主機器學習智能體。在訓練過程中,智能體能夠高效地探索機器學習的環境,從經驗中學習,并通過對各種機器學習任務的迭代探索實現持續的性能提升。令人驚喜的是,只在 9 個機器學習任務上反復學習,7B 的智能體不僅超越了 671B 規模的 DeepSeek-R1 智能體,還表現出了卓越的跨任務泛化能力。這項研究標志著 AI 智能體在設計 AI 中從 "工具執行者" 向 "自主學習者" 的轉變,帶來了 “AI 自主設計 AI” 的新范式。
自主機器學習訓練框架
三大核心突破,解鎖 AI 自進化
研究團隊提出全新訓練框架,攻克自主機器學習三大難題:
1?? 敢想敢試:探索增強微調
- 問題:傳統自主機器學習智能體重復相似操作,創新受限!
- 解法:探索增強微調 (Exploration-enriched fine-tuning),通過精心設計的多樣化的專家軌跡數據集,訓練智能體嘗試不同策略,大幅提升探索能力。
- 效果:拓寬智能體的探索范圍,增強后續強化學習階段多樣化策略生成能力,不再局限局部最優解,而是具備更廣泛的策略選擇空間!
探索增強微調助力強化學習訓練
2?? 快速迭代:逐步強化學習范式
- 問題:完整迭代機器學習實驗需數小時,傳統 RL 方法在機器學習實驗中采樣效率低下!
- 解法:逐步強化學習范式(Step-wise RL paradigm),重構訓練目標函數,每次只優化單步動作,數據收集效率提升數倍。
- 效果:RL 訓練階段可擴展性提高,訓練時間顯著縮短!
逐步強化學習(紅線,每訓練 5 步進行一次評測)比基于整條軌跡的強化學習(藍線,每訓練 1 步進行一次評測)更高效
3?? 聽懂反饋:定制化獎勵模塊
- 問題:實驗反饋復雜(如代碼錯誤、資源溢出、性能提升),難以統一!
- 解法:機器學習定制化獎勵模塊(Agentic ML-Specific Reward Module) 懲罰錯誤、鼓勵改進,將機器學習多樣執行結果轉換為統一反饋。
- 效果:為 RL 優化提供一致有效的獎勵信號,推動智能體在自主機器學習訓練中進行持續迭代改進!
機器學習定制化獎勵模塊每一組成部分的有效性
ML-Agent 持續進化,展現泛化能力!
研究團隊利用所提訓練框架訓練了一個由開源大模型 Qwen2.5-7B 驅動的自主機器學習智能體 ——ML-Agent,并開展廣泛的實驗以評估其性能。結果表明:
? ML-Agent 具有強大泛化能力
研究將 ML-Agent 與 5 個強大的開源 / 閉源 LLM 驅動的智能體進行了比較。下表說明,ML-Agent 在見過 / 未見過的機器學習任務中的平均和最好性能都達到了最高。令人驚喜的是,只在 9 個機器學習任務上不斷學習,7B 大模型驅動的 ML-Agent 就在所有 10 個未見過的機器學習任務上超過了 671B 的 Deepseek-R1 驅動的自主機器學習智能體,展現出了強大的泛化能力。
ML-Agent 具有強大泛化能力
? ML-Agent 優于最先進方法
為了進一步證明訓練框架的有效性,研究人員將 ML-Agent 與一個專門為自主機器學習設計的 LLM 智能體(AIDE)作比較。結果顯示,ML-Agent 總體優于 AIDE 智能體,凸顯了所提訓練框架的有效性。
ML-Agent 優于最先進的自主機器學習智能體
? ML-Agent 持續進化
隨著訓練的進行,ML-Agent 不斷自我探索,從自主機器學習的經驗中學習,在訓練過 / 未經訓練過的機器學習任務上性能持續提升,最終超越所有基線方法。
ML-Agent 的自主機器學習能力在訓練中持續提升
ML-Agent 引領了 AI4AI 的新范式,將自主機器學習從依賴人類優化的、提示工程的低效模式,轉變為智能體自主探索的、基于自我經驗學習的設計方式。這一轉變大幅減少人類干預,加速了 AI 算法的設計迭代。隨著 ML-Agent 在更多的機器學習任務上持續自我學習與探索,其能力有望不斷提升,設計出更高效智能的 AI,為構建強大的 AI4AI 系統奠定堅實基礎,為實現通用人工智能的長遠目標貢獻關鍵力量。
MASWorks 大模型多智能體開源社區
ML-Agent 也是最近剛發起的大模型多智能體開源社區 MASWorks 的拼圖之一。MASWorks 社區致力于連接全球研究者,匯聚頂尖智慧,旨在打造一個開放、協作的平臺,共同分享、貢獻知識,推動多智能體系統(MAS)領域的蓬勃發展。
作為社區啟動的首個重磅活動,MASWorks 將在 ICML 2025 舉辦聚焦大語言模型多智能體的 Workshop:MAS-2025!期待全球廣大學者的積極參與,共同探討、碰撞思想,描繪 MAS 的未來藍圖!
- MASWorks 地址:https://github.com/MASWorks
- MAS-2025 地址:https://mas-2025.github.io/MAS-2025/