RL 驅(qū)動(dòng) LLM 智能體：ML-Agent 創(chuàng)新自主機(jī)器學(xué)習(xí)工程

作者：肆零柒 2025-06-10 04:00:00

在機(jī)器學(xué)習(xí)工程領(lǐng)域，自主智能體的研究正逐漸成為焦點(diǎn)。ML-Agent 為這一領(lǐng)域帶來了新思路。它憑借創(chuàng)新的學(xué)習(xí)型 agentic ML 范式和高效的訓(xùn)練框架，實(shí)現(xiàn)了智能體在自主機(jī)器學(xué)習(xí)中的高效探索與優(yōu)化。

大家好，我是肆〇柒。這兩天看到一篇關(guān)于自主進(jìn)化智能體的論文，本篇就讓我們一起了解一下這個(gè)機(jī)器學(xué)習(xí)工程的的研究 ——ML-Agent。在當(dāng)下，機(jī)器學(xué)習(xí)工程已成為科技創(chuàng)新的關(guān)鍵驅(qū)動(dòng)力。然而，傳統(tǒng)機(jī)器學(xué)習(xí)工程模式面臨著諸多困境，它是一個(gè)高度復(fù)雜且耗費(fèi)人力的過程，專家研究人員往往需要投入大量時(shí)間進(jìn)行模型架構(gòu)設(shè)計(jì)、超參數(shù)調(diào)整以及通過反復(fù)試驗(yàn)來優(yōu)化模型，整個(gè)流程可能持續(xù)數(shù)天甚至數(shù)月。以開發(fā)一個(gè)高性能的語音識(shí)別模型為例，研究人員需要手動(dòng)篩選合適的聲學(xué)模型架構(gòu)、精心調(diào)整語言模型的權(quán)重，并通過無數(shù)次試驗(yàn)來驗(yàn)證模型在不同口音、噪聲條件下的魯棒性和準(zhǔn)確性。這種手動(dòng)試錯(cuò)的方式不僅浪費(fèi)了大量的時(shí)間和計(jì)算資源，而且很難保證模型的最終性能能夠達(dá)到預(yù)期，嚴(yán)重制約了機(jī)器學(xué)習(xí)技術(shù)的廣泛應(yīng)用和快速發(fā)展。所以自主機(jī)器學(xué)習(xí)成為了一個(gè)前沿的研究方向。

自主機(jī)器學(xué)習(xí)的目標(biāo)是構(gòu)建能夠獨(dú)立運(yùn)作的 AI 系統(tǒng)，這些系統(tǒng)能夠自主地協(xié)調(diào)整個(gè)機(jī)器學(xué)習(xí)生命周期，從概念設(shè)計(jì)、代碼實(shí)現(xiàn)到模型優(yōu)化，全程無需人工干預(yù)。這一愿景的核心是通過自動(dòng)化和智能化的技術(shù)手段，大幅減少人工參與，提高機(jī)器學(xué)習(xí)工程的效率和可擴(kuò)展性。比如，假設(shè)一個(gè)智能體能夠自動(dòng)地根據(jù)給定的語音識(shí)別任務(wù)描述，生成有效的聲學(xué)模型架構(gòu)，智能調(diào)整超參數(shù)，并在運(yùn)行時(shí)根據(jù)實(shí)時(shí)反饋進(jìn)行自我改進(jìn)，這不僅能夠極大地加速語音識(shí)別模型的開發(fā)過程，還能使機(jī)器學(xué)習(xí)技術(shù)更加普及，讓更多非專業(yè)用戶也能夠利用先進(jìn)的機(jī)器學(xué)習(xí)算法解決實(shí)際問題，從而推動(dòng)人工智能技術(shù)在語音助手、智能客服等眾多領(lǐng)域的廣泛應(yīng)用。

現(xiàn)有 LLM 智能體的局限性

近年，基于LLM 的智能體在自主機(jī)器學(xué)習(xí)領(lǐng)域取得了顯著的進(jìn)展，如 AIDE 和 SELA 等智能體。它們能夠利用 LLM 的交互能力、編碼能力和工具調(diào)用能力，自動(dòng)化機(jī)器學(xué)習(xí)流程。然而，這些現(xiàn)有的智能體方法存在一個(gè)共同的根本局限性，就是它們依賴于手工提示工程。手工提示工程要求研究人員精心設(shè)計(jì)提示，以引導(dǎo) LLM 智能體的行為，這種方式不僅耗時(shí)費(fèi)力，而且嚴(yán)重限制了智能體的自動(dòng)優(yōu)化和跨任務(wù)泛化能力。例如，一個(gè)專門為圖像分類任務(wù)設(shè)計(jì)的智能體，其提示可能包含了特定的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)描述和數(shù)據(jù)增強(qiáng)策略，但當(dāng)面臨一個(gè)全新的文本分類任務(wù)時(shí)，智能體無法直接將所學(xué)的知識(shí)遷移到新任務(wù)中，因?yàn)樗男袨槟Ｊ奖惶崾舅薅ǎ狈`活調(diào)整和自我優(yōu)化的能力。這種對提示的依賴，使得智能體難以在多樣化的任務(wù)場景中實(shí)現(xiàn)靈活的策略調(diào)整和性能優(yōu)化，極大地限制了自主機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用。

ML-Agent 的創(chuàng)新與重要性

針對上述問題，ML-Agent 的研究提出了一種全新的學(xué)習(xí)型智能體自主機(jī)器學(xué)習(xí)（agentic ML）范式。ML-Agent 通過在線強(qiáng)化學(xué)習(xí)（RL）與 ML 任務(wù)環(huán)境進(jìn)行交互，主動(dòng)探索不同的策略，積累知識(shí)并不斷改進(jìn)決策。與傳統(tǒng)方法相比，ML-Agent 能夠更加智能地應(yīng)對各種 ML 任務(wù)，實(shí)現(xiàn)自動(dòng)化的策略優(yōu)化和跨任務(wù)的知識(shí)遷移。ML-Agent 的創(chuàng)新之處在于其獨(dú)特的訓(xùn)練框架，該框架包含三個(gè)關(guān)鍵組件：探索增強(qiáng)微調(diào)、逐步 RL 范式和特定于 agentic ML 的獎(jiǎng)勵(lì)模塊。這些組件協(xié)同工作，使 ML-Agent 能夠在有限的訓(xùn)練任務(wù)上實(shí)現(xiàn)卓越的性能，并展現(xiàn)出強(qiáng)大的跨任務(wù)泛化能力。這一突破不僅為自主機(jī)器學(xué)習(xí)領(lǐng)域帶來了新的發(fā)展機(jī)遇，也為實(shí)現(xiàn)更加智能化、自動(dòng)化的機(jī)器學(xué)習(xí)工程提供了新的思路和方法，有望推動(dòng)機(jī)器學(xué)習(xí)技術(shù)在更多領(lǐng)域的廣泛應(yīng)用和深入發(fā)展。

ML-Agent 的研究框架與方法

學(xué)習(xí)型智能體 ML 范式的提出

ML-Agent 所采用的學(xué)習(xí)型智能體 ML 范式，徹底改變了傳統(tǒng)自主機(jī)器學(xué)習(xí)的模式。在這種范式下，LLM 智能體不再是被動(dòng)地執(zhí)行預(yù)設(shè)的指令，而是通過與環(huán)境的交互，主動(dòng)地探索和學(xué)習(xí)最優(yōu)的策略。智能體在每個(gè)時(shí)間步中根據(jù)當(dāng)前狀態(tài)（即過去的反饋信息）采取行動(dòng)（例如，在模型架構(gòu)中添加批量歸一化層），然后從環(huán)境中接收反饋（例如，代碼執(zhí)行結(jié)果或錯(cuò)誤信息）。通過這種方式，智能體能夠在不斷的試錯(cuò)過程中，逐步積累經(jīng)驗(yàn)，優(yōu)化自己的行為策略。

概述自主機(jī)器學(xué)習(xí)中LLM代理與環(huán)境的交互

這種范式的最大優(yōu)勢在于其靈活性和適應(yīng)性。智能體可以根據(jù)不同的任務(wù)需求，動(dòng)態(tài)地調(diào)整自己的行為模式。例如，在面對一個(gè)全新的醫(yī)療影像診斷任務(wù)時(shí)，智能體能夠自動(dòng)地識(shí)別影像數(shù)據(jù)的特點(diǎn)，并生成相應(yīng)的模型架構(gòu)和訓(xùn)練策略，如選擇合適的卷積神經(jīng)網(wǎng)絡(luò)層數(shù)、濾波器大小以及數(shù)據(jù)增強(qiáng)方法。這種能力使得 ML-Agent 在處理多樣化的機(jī)器學(xué)習(xí)任務(wù)時(shí)，表現(xiàn)出了先進(jìn)的智能和效率，能夠快速適應(yīng)不同領(lǐng)域的應(yīng)用場景，為機(jī)器學(xué)習(xí)技術(shù)的快速落地提供了有力支持。

ML-Agent 訓(xùn)練框架的三個(gè)關(guān)鍵組件

探索增強(qiáng)微調(diào)

探索增強(qiáng)微調(diào)是 ML-Agent 訓(xùn)練框架的第一個(gè)關(guān)鍵組件，其核心目的是拓寬智能體的探索范圍，增強(qiáng)其在后續(xù) RL 階段的多樣化策略生成能力。

在具體實(shí)施過程中，研究者們首先利用一組快速可執(zhí)行的 ML 任務(wù)，生成了大量的候選想法。例如，在一個(gè)圖像分類任務(wù)中，可能的候選想法包括 “添加 L1 或 L2 權(quán)重正則化”、“使用早停法以防止過擬合” 等。對于每個(gè)任務(wù)，研究者們計(jì)算這些想法之間的成對嵌入（embedding）距離。他們采用了基于詞向量的余弦相似度方法來計(jì)算嵌入距離。首先將每個(gè)想法文本轉(zhuǎn)化為詞向量序列，然后通過計(jì)算序列之間的余弦相似度來衡量它們的語義相似性。接著選擇嵌入距離最大的 10 個(gè)想法，以確保想法的多樣性。然后，隨機(jī)從中挑選 1 至 3 個(gè)想法，將其組合成任務(wù)提示。

接下來，由一個(gè)由 GPT-4o-mini 驅(qū)動(dòng)的專家智能體與環(huán)境進(jìn)行交互，使用這些豐富的提示，在 9 個(gè)快速可執(zhí)行的 ML 任務(wù)上生成專家軌跡。這些軌跡記錄了專家智能體在任務(wù)中的每一步操作、觀察結(jié)果以及所采取的行動(dòng)。通過這種方式，研究者們收集了大量的高質(zhì)量數(shù)據(jù)，用于對 LLM 智能體進(jìn)行微調(diào)。

智能體機(jī)器學(xué)習(xí)訓(xùn)練框架概述：（1）探索增強(qiáng)的微調(diào)，用于創(chuàng)建多樣化的行動(dòng)池；（2）分步強(qiáng)化學(xué)習(xí)范式，利用專家軌跡高效收集經(jīng)驗(yàn)；（3）針對智能體機(jī)器學(xué)習(xí)的特定獎(jiǎng)勵(lì)模塊，用于處理各種機(jī)器學(xué)習(xí)反饋和進(jìn)行任務(wù)特定的性能評(píng)估

在微調(diào)過程中，研究者們采用監(jiān)督微調(diào)（SFT）方法，通過最小化專家軌跡與智能體生成的軌跡之間的差異，使智能體能夠?qū)W習(xí)到專家的策略。這不僅確保了智能體輸出的動(dòng)作符合格式要求，還使其能夠?qū)W習(xí)到多樣化的策略，從而在后續(xù)的 RL 階段中進(jìn)行更廣泛的探索。例如，在一個(gè)文本分類任務(wù)中，經(jīng)過探索增強(qiáng)微調(diào)的智能體，不僅學(xué)會(huì)了如何正確地使用 NLTK 庫進(jìn)行文本預(yù)處理（如分詞、去除停用詞和詞干提取），還掌握了一系列不同的特征提取方法（如 TF-IDF、Word2Vec 等）和模型架構(gòu)（如邏輯回歸、神經(jīng)網(wǎng)絡(luò)等）。這種多樣化的能力為智能體在面對復(fù)雜多變的任務(wù)時(shí)提供了豐富的策略選擇，使其能夠更有效地應(yīng)對各種挑戰(zhàn)。

逐步 RL 范式

逐步 RL 范式是 ML-Agent 訓(xùn)練框架的第二個(gè)關(guān)鍵組件，是為了解決傳統(tǒng) RL 方法在 ML 實(shí)驗(yàn)中的采樣效率低下問題。

在傳統(tǒng)的 RL 方法中，智能體需要執(zhí)行完整的策略軌跡（即從任務(wù)描述開始，直到達(dá)到最大步數(shù)或時(shí)間限制），才能收集到一個(gè)樣本進(jìn)行學(xué)習(xí)。然而，ML 實(shí)驗(yàn)通常需要幾分鐘到幾小時(shí)不等的時(shí)間，這使得在線數(shù)據(jù)收集過程極為緩慢，嚴(yán)重限制了反饋驅(qū)動(dòng)的訓(xùn)練樣本數(shù)量。

為了解決這一問題，ML-Agent 采用了一種逐步 RL 范式。在這種范式下，研究者們將目標(biāo)函數(shù)重新定義為按狀態(tài)分布采樣的逐步更新。他們首先根據(jù)專家軌跡計(jì)算出一個(gè)固定的狀態(tài)分布。計(jì)算方法是統(tǒng)計(jì)專家智能體在各個(gè)狀態(tài)下的訪問頻率，并將其歸一化為概率分布。然后從這個(gè)分布中采樣狀態(tài)，并在這些采樣狀態(tài)下評(píng)估智能體的單步行動(dòng)。

在保留任務(wù)和外推任務(wù)上，分步式強(qiáng)化學(xué)習(xí)（Step-wise RL）都比基于回合的強(qiáng)化學(xué)習(xí)（Episode-wise RL）更高效。這兩種強(qiáng)化學(xué)習(xí)訓(xùn)練方法都從MLAgent-SFT開始。紅色點(diǎn)之間的間隔為5步，而藍(lán)色三角形之間的間隔為1步

這種方法的優(yōu)勢在于，它將狀態(tài)采樣過程與模型的強(qiáng)化學(xué)習(xí)過程解耦。研究者們可以直接從預(yù)收集的狀態(tài)池中采樣狀態(tài)，而無需在訓(xùn)練過程中進(jìn)行昂貴的在線采樣。這不僅顯著降低了采樣成本，還提高了訓(xùn)練效率，使智能體能夠在更短的時(shí)間內(nèi)學(xué)習(xí)到更多的知識(shí)。例如，在一個(gè)圖像生成任務(wù)中，逐步 RL 范式允許智能體在每個(gè)訓(xùn)練步驟中只關(guān)注單個(gè)狀態(tài)下的行動(dòng)優(yōu)化，而不是等待整個(gè)訓(xùn)練過程的完成。這使得智能體能夠更快地學(xué)習(xí)到如何調(diào)整模型的超參數(shù)（如學(xué)習(xí)率、批量大小等），以提高生成圖像的質(zhì)量，從而加速了模型的收斂過程。

特定于 agentic ML 的獎(jiǎng)勵(lì)模塊

特定于 agentic ML 的獎(jiǎng)勵(lì)模塊是 ML-Agent 訓(xùn)練框架的第三個(gè)關(guān)鍵組件，其設(shè)計(jì)目標(biāo)是將各種復(fù)雜的執(zhí)行結(jié)果轉(zhuǎn)換為統(tǒng)一的標(biāo)量值，為 RL 優(yōu)化提供一致且有效的獎(jiǎng)勵(lì)信號(hào)。

在自主機(jī)器學(xué)習(xí)過程中，智能體可能會(huì)遇到各種不同的執(zhí)行結(jié)果，包括任務(wù)特定的性能指標(biāo)（如分類準(zhǔn)確性、回歸均方誤差等）、運(yùn)行時(shí)錯(cuò)誤（如內(nèi)存不足、編譯失敗等）以及邊界情況（如資源耗盡、時(shí)間限制等）。為了使智能體能夠從這些不同的反饋中學(xué)習(xí)，研究者們設(shè)計(jì)了一個(gè)動(dòng)態(tài)處理這些信號(hào)的獎(jiǎng)勵(lì)模塊。

對機(jī)器學(xué)習(xí)（ML）特定的獎(jiǎng)勵(lì)模塊進(jìn)行消融研究，表明三個(gè)組成部分的必要性。這三個(gè)組成部分分別是歸一化性能獎(jiǎng)勵(lì)（Rperf.）、格式獎(jiǎng)勵(lì)（Rformat）和邊緣情況獎(jiǎng)勵(lì)（Rcorner ）。CIFAR-10和反饋是保留任務(wù)，其他則是排除任務(wù)。

該獎(jiǎng)勵(lì)模塊的核心思想是將每種執(zhí)行結(jié)果映射到一個(gè)統(tǒng)一的標(biāo)量值。例如：

如果智能體采取了無效的行動(dòng)（如生成了不符合格式要求的代碼）或收到了錯(cuò)誤反饋（如編譯失敗），則獎(jiǎng)勵(lì)值為 0。這懲罰了智能體的錯(cuò)誤行為，促使其生成正確的格式。
如果智能體采取了有效但非編輯性的行動(dòng)（如列出文件）或遇到了邊界情況（如內(nèi)存不足），則獎(jiǎng)勵(lì)值為 0.5。這承認(rèn)了行動(dòng)的有效性，但同時(shí)也考慮到了外部約束的影響。
如果智能體成功地應(yīng)用了一個(gè)有效的編輯操作，并且執(zhí)行結(jié)果成功（如模型性能得到提升），則獎(jiǎng)勵(lì)值根據(jù)任務(wù)特定的性能指標(biāo)的改進(jìn)程度進(jìn)行計(jì)算。獎(jiǎng)勵(lì)值通過一個(gè)縮放因子（根據(jù)任務(wù)的基準(zhǔn)性能和最佳人類可實(shí)現(xiàn)性能進(jìn)行計(jì)算）和一個(gè) sigmoid 函數(shù)（將改進(jìn)映射到 (0, 1) 區(qū)間）來確定，以激勵(lì)智能體實(shí)現(xiàn)有意義的性能提升。

比如，在一個(gè)語音識(shí)別任務(wù)中，當(dāng)智能體成功地優(yōu)化了模型的架構(gòu)，使得單詞錯(cuò)誤率降低了 10% 時(shí)，獎(jiǎng)勵(lì)模塊會(huì)根據(jù)預(yù)定義的縮放因子和 sigmoid 函數(shù)，計(jì)算出一個(gè)相應(yīng)的獎(jiǎng)勵(lì)值。這個(gè)獎(jiǎng)勵(lì)值不僅反映了性能提升的幅度，還考慮到了任務(wù)的難度和目標(biāo)，從而為智能體提供了一個(gè)明確的學(xué)習(xí)信號(hào)。通過這種方式，獎(jiǎng)勵(lì)模塊能夠全面地處理各種執(zhí)行結(jié)果，確保智能體在多樣化的 ML 任務(wù)中有效地學(xué)習(xí)和改進(jìn)，引導(dǎo)智能體朝著最優(yōu)策略不斷進(jìn)化。

ML-Agent 的實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

訓(xùn)練設(shè)置

在訓(xùn)練數(shù)據(jù)收集方面，研究者們采用了 GPT-4o-mini 驅(qū)動(dòng)的智能體與 MLAgentBench 環(huán)境進(jìn)行交互，生成專家軌跡。他們選擇了 9 個(gè) ML 任務(wù)，這些任務(wù)涵蓋了圖像分類（如 cifar-10、aerial-cactus-identification 等）、表格回歸（如 home-data-for-ml-course、nomad2018-predict-transparent-conductors 等）和文本分類（如 feedback-prize-english-language-learning）等多種類型。對于每個(gè)任務(wù)，智能體與環(huán)境進(jìn)行交互，生成了包含 15 步操作和反饋的軌跡，最終收集了 10k 條專家軌跡。

在實(shí)驗(yàn)中使用的所有訓(xùn)練和測試任務(wù)。MLA和MLE分別代表MLAgentbBench和MLE-bench

這些任務(wù)的選擇和數(shù)據(jù)收集過程確保了訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。例如，在圖像分類任務(wù)中，智能體需要學(xué)習(xí)如何調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)、濾波器大小等超參數(shù)；在表格回歸任務(wù)中，智能體需要掌握特征工程、模型選擇等技能；在文本分類任務(wù)中，智能體則需要學(xué)習(xí)文本預(yù)處理、嵌入方法等知識(shí)。通過這種方式，研究者們?yōu)?ML-Agent 的訓(xùn)練提供了豐富的經(jīng)驗(yàn)基礎(chǔ)。

在模型訓(xùn)練方面，研究者們首先對 Qwen2.5-7B 模型進(jìn)行了監(jiān)督微調(diào)（SFT）。他們使用收集到的專家軌跡，通過最小化模型生成的軌跡與專家軌跡之間的差異，使模型能夠?qū)W習(xí)到專家的策略。在 SFT 階段，研究者們設(shè)置了 2 個(gè)訓(xùn)練周期，批次大小為 64，學(xué)習(xí)率為 2e?5（千問官方文檔中的學(xué)習(xí)率是 1e-5）。

接下來，研究者們采用基于 PPO（Proximal Policy Optimization）的逐步 RL 方法對模型進(jìn)行進(jìn)一步訓(xùn)練。在 RL 階段，訓(xùn)練批次大小設(shè)置為 256，訓(xùn)練周期為 1 個(gè)。同時(shí)，研究者們分別設(shè)置了行動(dòng)者（actor）和評(píng)論家（critic）的學(xué)習(xí)率為 1e?6 和 1e?5，并引入了 KL 散度系數(shù)為 0.001，以控制策略更新的幅度，防止策略在訓(xùn)練過程中出現(xiàn)劇烈波動(dòng)。

這些超參數(shù)的設(shè)置經(jīng)過精心調(diào)整，以平衡模型的學(xué)習(xí)速度和穩(wěn)定性。例如，適當(dāng)?shù)膶W(xué)習(xí)率能夠確保模型在訓(xùn)練過程中逐步收斂到最優(yōu)策略，而 KL 散度系數(shù)則防止了策略更新過程中出現(xiàn)過大的偏差，從而提高了訓(xùn)練的穩(wěn)定性。

測試設(shè)置

在測試階段，研究者們選擇了 10 個(gè)未見任務(wù)（held-out tasks）來評(píng)估 ML-Agent 的泛化能力。這些任務(wù)同樣來自 MLAgentBench 和 MLE-Bench，涵蓋了圖像生成（如 denoising-dirty-documents）、圖像分類（如 leaf-classification、statoil-iceberg-classifier-challenge 等）、文本回歸（如 learning-agency-lab-automated-essay-scoring-2）和表格回歸（如 us-patent-phrase-to-phrase-matching、tabular-playground-series-dec-2021 等）等多種類型。

在實(shí)驗(yàn)中使用的所有訓(xùn)練和測試任務(wù)。MLA和MLE分別代表MLAgentbBench和MLE-bench

這些任務(wù)的選擇是為了全面評(píng)估 ML-Agent 在不同數(shù)據(jù)類型（圖像、文本、表格）和任務(wù)目標(biāo)（分類、回歸、生成）上的性能表現(xiàn)。例如，圖像生成任務(wù)考驗(yàn)智能體對圖像數(shù)據(jù)的理解和生成能力；文本回歸任務(wù)考察智能體對文本語義的把握和量化能力；表格回歸任務(wù)則測試智能體對結(jié)構(gòu)化數(shù)據(jù)的處理和預(yù)測能力。

為了全面評(píng)估 LLM 智能體的性能，研究者們提出了三個(gè)評(píng)估指標(biāo)：

avg@K：在 K 個(gè)評(píng)估軌跡上的平均分?jǐn)?shù)，反映智能體的穩(wěn)定性。例如，如果 K=8，avg@8 表示智能體在 8 次獨(dú)立運(yùn)行中的平均性能。這一指標(biāo)能夠衡量智能體在多次嘗試中保持一致性能的能力，避免因偶然因素導(dǎo)致的性能波動(dòng)。
best@K：在 K 個(gè)評(píng)估軌跡上的最高分?jǐn)?shù)，顯示智能體在相同計(jì)算 / 步驟預(yù)算下所能達(dá)到的最大質(zhì)量。這一指標(biāo)關(guān)注智能體在有限資源內(nèi)實(shí)現(xiàn)最佳性能的能力，體現(xiàn)了智能體的優(yōu)化潛力。
相對增益 ?r：相對于初始腳本的相對改進(jìn)，定義為 ?r=β×(pavg@8 ? pinit)/pinit，其中 pavg@8 是 8 個(gè)軌跡的平均分?jǐn)?shù)，pinit 是初始腳本的分?jǐn)?shù)，β∈{?1,1} 用于根據(jù)指標(biāo)類型（如 MAE、RMSE）調(diào)整符號(hào)，確保 ?r>0 表示改進(jìn)。這一指標(biāo)直觀地反映了智能體對初始模型的改進(jìn)程度，能夠有效評(píng)估智能體的增值能力。

例如，在 denoising-dirty-documents 任務(wù)中，avg@8 指標(biāo)能夠反映 ML-Agent 在 8 次不同運(yùn)行中對圖像去噪模型的平均優(yōu)化效果；best@8 指標(biāo)則顯示了智能體在這些運(yùn)行中所能達(dá)到的最佳去噪性能；而相對增益 ?r 則量化了智能體對初始去噪模型的改進(jìn)幅度，為研究人員提供了一個(gè)直觀的性能提升衡量標(biāo)準(zhǔn)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果顯示，ML-Agent 在 3 個(gè)已見任務(wù)和 10 個(gè)未見任務(wù)上均表現(xiàn)出色，顯著優(yōu)于其他 5 個(gè)基于 MLAB 搭建的智能體。這些智能體包括不同參數(shù)規(guī)模的 Qwen2.5 模型（Qwen-7B-Instruct、Qwen-32B-Instruct）、專家級(jí) GPT-4o-mini 和 GPT-4o 以及擁有 671B 參數(shù)規(guī)模的 DeepSeek-R1 等。

ML-Agent在3個(gè)訓(xùn)練內(nèi)任務(wù)（包含在訓(xùn)練中）和10個(gè)訓(xùn)練外任務(wù)（訓(xùn)練期間未見過）上均優(yōu)于基線模型。對于每個(gè)任務(wù)，我們報(bào)告了8條軌跡的平均分和最高分。表現(xiàn)最佳的模型以粗體突出顯示，第二好的結(jié)果則以橫線標(biāo)出

在已見任務(wù)中，例如 cifar-10 圖像分類任務(wù)，ML-Agent 的最佳準(zhǔn)確率達(dá)到了 81.45%，超過了 Qwen-7B-Instruct 的 76.05%、Qwen-32B-Instruct 的 63.82%、GPT-4o-mini 的 80.83%、GPT-4o 的 80.34% 以及 DeepSeek-R1 的 80.34%。這表明 ML-Agent 能夠在其訓(xùn)練過程中充分挖掘任務(wù)的潛力，實(shí)現(xiàn)卓越的性能。

在未見任務(wù)中，ML-Agent 同樣展現(xiàn)了強(qiáng)大的泛化能力。例如，在 denoising-dirty-documents 圖像生成任務(wù)中，ML-Agent 的平均 RMSE（均方根誤差）為 0.0741，優(yōu)于其他所有基線模型。這一結(jié)果證明了 ML-Agent 能夠?qū)挠邢抻?xùn)練任務(wù)中學(xué)習(xí)到的知識(shí)有效地遷移到全新的任務(wù)場景中，并實(shí)現(xiàn)顯著的性能提升。

通過對比分析，研究者們發(fā)現(xiàn) ML-Agent 的優(yōu)越性能主要?dú)w功于其獨(dú)特的訓(xùn)練框架。探索增強(qiáng)微調(diào)為智能體提供了多樣化的策略選擇，使其能夠在訓(xùn)練初期快速探索不同的解決方案；逐步 RL 范式顯著提高了訓(xùn)練效率，使智能體能夠更快地從環(huán)境反饋中學(xué)習(xí)；而特定于 agentic ML 的獎(jiǎng)勵(lì)模塊則為智能體提供了精準(zhǔn)的學(xué)習(xí)信號(hào)，引導(dǎo)其朝著最優(yōu)策略不斷進(jìn)化。

與AIDE框架在13項(xiàng)任務(wù)上的對比結(jié)果。研究者繪制了每項(xiàng)任務(wù)的歸一化相對增益。通過將每項(xiàng)任務(wù)的相對增益除以ML-Agent值來對其進(jìn)行歸一化

此外，ML-Agent 與 AIDE 智能體的比較結(jié)果也進(jìn)一步驗(yàn)證了其訓(xùn)練框架的有效性。在多個(gè)任務(wù)類型和評(píng)估指標(biāo)上，ML-Agent 均表現(xiàn)出色。例如，在 jigsaw-toxic-comment-classification-challenge 文本分類任務(wù)中，ML-Agent 的 AUC（受試者工作特征曲線下面積）達(dá)到了 0.9763，超過了 AIDE 智能體的表現(xiàn)。這表明 ML-Agent 的訓(xùn)練框架能夠更好地適應(yīng)不同任務(wù)的特點(diǎn)和需求，實(shí)現(xiàn)更優(yōu)的性能。

性能提升分析

進(jìn)一步的分析表明，ML-Agent 在訓(xùn)練過程中，隨著 GPU 時(shí)間的增加，其性能在已見和未見任務(wù)上都呈現(xiàn)出持續(xù)提升的趨勢。

訓(xùn)練任務(wù)數(shù)量對強(qiáng)化學(xué)習(xí)性能的影響*。純監(jiān)督學(xué)習(xí)（SFT）模型表現(xiàn)出極小的泛化能力，而強(qiáng)化學(xué)習(xí)（RL）則推動(dòng)了泛化能力的提升

從圖表中可以看出，ML-Agent 的性能提升速度明顯快于傳統(tǒng)的基于劇集的 RL 方法。在訓(xùn)練初期（GPU 時(shí)間約為 2 小時(shí)時(shí)），ML-Agent 的平均相對增益已經(jīng)達(dá)到了約 5%，而基于劇集的 RL 方法可能僅能達(dá)到 2% 左右。這種性能提升的優(yōu)勢隨著訓(xùn)練的進(jìn)行不斷擴(kuò)大，最終使 ML-Agent 在所有任務(wù)上都取得了顯著的領(lǐng)先地位。

這種性能提升的原因主要可以歸結(jié)為逐步 RL 范式和探索增強(qiáng)微調(diào)的協(xié)同作用。逐步 RL 范式通過將復(fù)雜的策略學(xué)習(xí)分解為單步行動(dòng)的優(yōu)化，使智能體能夠更高效地利用每次訓(xùn)練迭代。而探索增強(qiáng)微調(diào)則為智能體提供了豐富的初始策略多樣性，使其能夠在訓(xùn)練過程中更廣泛地探索不同的解決方案空間。兩者的結(jié)合，使智能體能夠從 ML 環(huán)境反饋中不斷學(xué)習(xí)和改進(jìn)，逐步逼近最優(yōu)策略。

同時(shí)，研究者們還觀察到，隨著訓(xùn)練的深入，ML-Agent 的性能提升幅度在不同任務(wù)上有所差異。例如，在一些簡單的任務(wù)（如 home-data-for-ml-course 表格回歸任務(wù)）中，智能體的性能可能在較短的時(shí)間內(nèi)迅速達(dá)到較高水平，而在一些復(fù)雜的任務(wù)（如 detecting-insults-in-social-commentary 文本分類任務(wù)）中，性能提升則相對緩慢，但提升空間更大。這種差異反映了不同任務(wù)的難度和智能體的學(xué)習(xí)曲線，也表明 ML-Agent 的訓(xùn)練框架具有良好的適應(yīng)性，能夠根據(jù)任務(wù)的特點(diǎn)自動(dòng)調(diào)整學(xué)習(xí)策略。

關(guān)鍵組件的深入分析

探索增強(qiáng)微調(diào)的重要性驗(yàn)證

為了驗(yàn)證探索增強(qiáng)微調(diào)的重要性，研究者們進(jìn)行了對比實(shí)驗(yàn)，分別以 Qwen-7B-Base、Qwen-7B-Instruct、Qwen-7B-Distill 和 ML-Agent-SFT 作為基礎(chǔ)模型進(jìn)行 RL 訓(xùn)練，并比較了這些智能體在已見和未見任務(wù)上的平均相對增益。

探索增強(qiáng)的微調(diào)對于強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練至關(guān)重要。“N/A”表示基于該模型的訓(xùn)練未能產(chǎn)生有效結(jié)果

實(shí)驗(yàn)結(jié)果表明，以 ML-Agent-SFT 為基礎(chǔ)模型的智能體在已見任務(wù)上的平均相對增益達(dá)到了約 18%，在未見任務(wù)上達(dá)到了約 16%，而其他基礎(chǔ)模型的表現(xiàn)則相對較差。例如，Qwen-7B-Distill 在已見和未見任務(wù)上的平均相對增益幾乎為零，這主要是因?yàn)槠湓?distillation 過程中采用了默認(rèn)的輸出格式，導(dǎo)致其生成的動(dòng)作不符合自主 ML 的要求，從而在 RL 訓(xùn)練的數(shù)據(jù)收集階段就無法產(chǎn)生有效的學(xué)習(xí)信號(hào)。

相比之下，ML-Agent-SFT 通過探索增強(qiáng)微調(diào)，確保了智能體輸出的動(dòng)作不僅符合格式要求，還能夠生成多樣化的策略。這種多樣化策略為 RL 訓(xùn)練提供了豐富的探索空間，使智能體能夠在訓(xùn)練過程中發(fā)現(xiàn)更多的有效解決方案。例如，在一個(gè)文本生成任務(wù)中，ML-Agent-SFT 能夠提出多種不同的文本預(yù)處理和模型架構(gòu)優(yōu)化策略，而 Qwen-7B-Instruct 則可能局限于少數(shù)幾種常見的方法。這種策略多樣性的優(yōu)勢使得 ML-Agent 在面對不同類型的任務(wù)時(shí)，都能夠更有效地進(jìn)行探索和學(xué)習(xí)，從而在已見和未見任務(wù)上都取得了顯著的性能提升。

逐步 RL 訓(xùn)練的有效性驗(yàn)證

研究者們通過比較逐步 RL 方法和傳統(tǒng)的基于劇集的 RL 方法在訓(xùn)練過程中的性能表現(xiàn)，進(jìn)一步驗(yàn)證了逐步 RL 訓(xùn)練的有效性。

在 GPU 時(shí)間方面，逐步 RL 方法的優(yōu)勢尤為明顯。由于逐步 RL 方法避免了在線采樣過程中漫長的策略執(zhí)行階段，其訓(xùn)練效率得到了顯著提升。例如，在相同的訓(xùn)練時(shí)間內(nèi)，逐步 RL 方法可能完成數(shù)百次的策略更新，而傳統(tǒng)的基于劇集的 RL 方法可能僅能完成數(shù)十次。這種高效的訓(xùn)練過程使得逐步 RL 方法能夠更快地適應(yīng)任務(wù)，實(shí)現(xiàn)性能的快速提升

在保留任務(wù)和未保留任務(wù)上，分步強(qiáng)化學(xué)習(xí)（Step-wise RL）都比逐幕強(qiáng)化學(xué)習(xí)（Episode-wise RL）更高效。兩種強(qiáng)化學(xué)習(xí)訓(xùn)練方法都從MLAgent-SFT開始。紅色點(diǎn)之間的間隔是5步，而藍(lán)色三角形之間的間隔是1步

從性能提升速度來看，逐步 RL 方法在訓(xùn)練初期就展現(xiàn)出了明顯的優(yōu)勢。在 GPU 時(shí)間約為 1 小時(shí)時(shí)，逐步 RL 方法的平均相對增益已經(jīng)達(dá)到了約 3%，而傳統(tǒng)的基于劇集的 RL 方法可能僅能達(dá)到 1% 左右。并且，隨著訓(xùn)練的進(jìn)行，逐步 RL 方法的性能提升速度始終保持領(lǐng)先。例如，在 GPU 時(shí)間增加到 5 小時(shí)時(shí)，逐步 RL 方法的平均相對增益可能達(dá)到 10%，而傳統(tǒng)的基于劇集的 RL 方法可能僅為 5% 左右。

采樣效率的提升也是逐步 RL 方法的一大優(yōu)勢。通過從固定的狀態(tài)分布中采樣狀態(tài)，逐步 RL 方法能夠更高效地利用訓(xùn)練數(shù)據(jù)。與傳統(tǒng)的基于劇集的 RL 方法相比，逐步 RL 方法能夠在相同數(shù)量的采樣中獲得更多的有效信息，從而更準(zhǔn)確地估計(jì)策略的價(jià)值函數(shù)。例如，在一個(gè)圖像分類任務(wù)中，逐步 RL 方法可以通過對關(guān)鍵狀態(tài)的采樣，快速識(shí)別出影響模型性能的關(guān)鍵因素（如學(xué)習(xí)率、批量大小等），并針對性地進(jìn)行優(yōu)化。這種高效的采樣策略使得逐步 RL 方法能夠在更短的時(shí)間內(nèi)實(shí)現(xiàn)更優(yōu)的性能。

此外，逐步 RL 方法在適應(yīng) ML 任務(wù)特點(diǎn)方面也表現(xiàn)出色。ML 任務(wù)通常具有多樣化的狀態(tài)空間和復(fù)雜的動(dòng)作空間，傳統(tǒng)的基于劇集的 RL 方法在面對這樣的任務(wù)時(shí)，往往需要大量的樣本才能學(xué)習(xí)到有效的策略。而逐步 RL 方法通過將策略學(xué)習(xí)分解為單步行動(dòng)的優(yōu)化，能夠更好地適應(yīng)這些復(fù)雜的特點(diǎn)。例如，在一個(gè)自然語言處理任務(wù)中，逐步 RL 方法可以更高效地學(xué)習(xí)到如何優(yōu)化文本預(yù)處理流程和模型架構(gòu)，從而實(shí)現(xiàn)更好的性能。

特定于 agentic ML 獎(jiǎng)勵(lì)模塊的有效性驗(yàn)證

通過消融實(shí)驗(yàn)，研究者們詳細(xì)分析了特定于 agentic ML 獎(jiǎng)勵(lì)模塊中各組成部分的有效性。

實(shí)驗(yàn)結(jié)果表明，每個(gè)組成部分都在 RL 訓(xùn)練過程中發(fā)揮著獨(dú)特的價(jià)值。例如，當(dāng)移除標(biāo)準(zhǔn)化性能獎(jiǎng)勵(lì)（Rperf.）時(shí)，模型的性能出現(xiàn)了明顯的下降。以 cifar-10 任務(wù)為例，移除 Rperf. 后，模型的平均準(zhǔn)確率從 68.88% 降至 60.53%，最佳準(zhǔn)確率從 81.45% 降至 65.81%。這表明細(xì)粒度的獎(jiǎng)勵(lì)信號(hào)對于引導(dǎo)智能體實(shí)現(xiàn)有意義的性能提升至關(guān)重要。通過將性能改進(jìn)量化為具體的獎(jiǎng)勵(lì)值，智能體能夠明確地了解哪些行動(dòng)有助于提高任務(wù)性能，從而更有針對性地進(jìn)行策略優(yōu)化。

格式獎(jiǎng)勵(lì)（Rformat）的移除導(dǎo)致了最嚴(yán)重的性能退化。例如，在 feedback 任務(wù)中，模型的平均 MCRMSE（均值方根誤差）從 0.5910 上升至 0.6298，最佳 MCRMSE 從 0.5777 上升至 0.5925。這強(qiáng)調(diào)了確保智能體輸出格式合規(guī)性的必要性。只有生成符合要求的代碼和操作，智能體才能在環(huán)境中有效地執(zhí)行任務(wù)，并獲得有意義的反饋。格式獎(jiǎng)勵(lì)通過懲罰不符合格式要求的行動(dòng)，引導(dǎo)智能體學(xué)習(xí)正確的輸出模式，從而保證了整個(gè)訓(xùn)練過程的有效性。

邊界情況獎(jiǎng)勵(lì)（Rcorner）雖然在某些任務(wù)中影響較小，但在整體訓(xùn)練穩(wěn)定性方面仍具有重要作用。例如，在 denoising-dirty-documents 任務(wù)中，移除 Rcorner 后，模型的平均 RMSE（均方根誤差）從 0.0741 上升至 0.0762，最佳 RMSE 從 0.0556 上升至 0.0571。盡管這種變化幅度不大，但在面對復(fù)雜的現(xiàn)實(shí)環(huán)境時(shí)，邊界情況獎(jiǎng)勵(lì)能夠防止智能體因非致命問題（如資源耗盡、時(shí)間限制等）而受到過度懲罰，從而維持了訓(xùn)練過程的穩(wěn)定性和魯棒性。

綜合來看，這三個(gè)組成部分共同構(gòu)成了一個(gè)連貫且全面的獎(jiǎng)勵(lì)結(jié)構(gòu)。Rperf. 驅(qū)動(dòng)智能體追求性能提升，Rformat 確保智能體的行為符合規(guī)范，而 Rcorner 則在復(fù)雜多變的現(xiàn)實(shí)環(huán)境中維持了訓(xùn)練的穩(wěn)定性。在 RL 訓(xùn)練過程中，它們相互補(bǔ)充，共同引導(dǎo)智能體的學(xué)習(xí)過程，使其能夠在各種 ML 任務(wù)中實(shí)現(xiàn)卓越的性能表現(xiàn)。

總結(jié)

ML-Agent 所提出的學(xué)習(xí)型智能體 ML 新范式和創(chuàng)新的訓(xùn)練框架，改變了傳統(tǒng)的自主機(jī)器學(xué)習(xí)模式，使基于 LLM 的智能體從規(guī)則自動(dòng)化邁向了動(dòng)態(tài)、經(jīng)驗(yàn)驅(qū)動(dòng)的學(xué)習(xí)階段。

通過探索增強(qiáng)微調(diào)、逐步 RL 范式和特定于 agentic ML 的獎(jiǎng)勵(lì)模塊這三個(gè)關(guān)鍵組件的協(xié)同作用，ML-Agent 能夠在有限的訓(xùn)練任務(wù)上實(shí)現(xiàn)高效學(xué)習(xí)，并展現(xiàn)出強(qiáng)大的跨任務(wù)泛化能力。這種能力不僅提高了自主機(jī)器學(xué)習(xí)工程的效率和性能，還減少了對人工干預(yù)的依賴。

ML-Agent 的主要貢獻(xiàn)在于以下幾個(gè)方面：

新范式的引入 ：它提出了學(xué)習(xí)型智能體自主機(jī)器學(xué)習(xí)（agentic ML）范式，使 LLM 智能體能夠通過在線強(qiáng)化學(xué)習(xí)與 ML 任務(wù)環(huán)境進(jìn)行交互，主動(dòng)探索策略并不斷改進(jìn)決策。這一范式的提出為自主機(jī)器學(xué)習(xí)領(lǐng)域開辟了新的研究方向，為未來的智能體設(shè)計(jì)提供了新思路。
創(chuàng)新的訓(xùn)練框架 ：ML-Agent 的訓(xùn)練框架包含三個(gè)關(guān)鍵組件，這些組件在提高智能體探索能力、訓(xùn)練效率和學(xué)習(xí)效果方面取得了顯著的突破。探索增強(qiáng)微調(diào)拓寬了智能體的策略搜索空間；逐步 RL 范式解決了傳統(tǒng) RL 方法在 ML 實(shí)驗(yàn)中的采樣效率問題；特定于 agentic ML 的獎(jiǎng)勵(lì)模塊為智能體提供了精準(zhǔn)的學(xué)習(xí)信號(hào)。這些創(chuàng)新的訓(xùn)練方法為智能體的高效學(xué)習(xí)和卓越性能奠定了堅(jiān)實(shí)的基礎(chǔ)。
卓越的實(shí)驗(yàn)性能 ：盡管僅使用了 7B 參數(shù)規(guī)模的 LLM，ML-Agent 在 13 個(gè)任務(wù)上的表現(xiàn)卻超越了包括 671B 參數(shù)規(guī)模的 DeepSeek-R1 在內(nèi)的多個(gè)先進(jìn)智能體，實(shí)現(xiàn)了最新的技術(shù)性能。這一結(jié)果證明了 ML-Agent 訓(xùn)練框架的有效性和優(yōu)越性，展示了其在任務(wù)解決和跨任務(wù)泛化方面的強(qiáng)大能力。

這里需要注意的是 ML-Agent 仍然存在一些局限性。比如，ML-Agent 的訓(xùn)練任務(wù)數(shù)量有限，僅有 9 個(gè) ML 任務(wù)用于訓(xùn)練。這限制了智能體對更廣泛任務(wù)場景的適應(yīng)能力。可以考慮在更多的任務(wù)上進(jìn)行訓(xùn)練，以進(jìn)一步提高智能體的泛化能力。

ML-Agent 目前的設(shè)計(jì)使其在特定的環(huán)境中表現(xiàn)最佳，而在面對全新的 ML 框架或架構(gòu)時(shí)，其適應(yīng)性仍面臨挑戰(zhàn)。例如，當(dāng)遇到一個(gè)全新的深度學(xué)習(xí)框架或一種全新的數(shù)據(jù)類型時(shí)，智能體可能需要重新調(diào)整其策略。比如，可以包括設(shè)計(jì)更通用的環(huán)境適配機(jī)制，使智能體能夠更快地適應(yīng)新的環(huán)境和任務(wù)需求。另外，遷移學(xué)習(xí)也是一個(gè)值得深入探討的方向。通過遷移學(xué)習(xí)，智能體可以利用在有限訓(xùn)練任務(wù)中學(xué)習(xí)到的知識(shí)，更快地適應(yīng)新的任務(wù)場景。

綜上吧，ML-Agent 的研究還是為我提供了寶貴的知識(shí)和啟發(fā)的，很期待這一領(lǐng)域的更多發(fā)展。

責(zé)任編輯：龐桂玉來源：覺察流