RL 驅(qū)動(dòng) LLM 智能體:ML-Agent 創(chuàng)新自主機(jī)器學(xué)習(xí)工程
大家好,我是肆〇柒。這兩天看到一篇關(guān)于自主進(jìn)化智能體的論文,本篇就讓我們一起了解一下這個(gè)機(jī)器學(xué)習(xí)工程的的研究 ——ML-Agent。在當(dāng)下,機(jī)器學(xué)習(xí)工程已成為科技創(chuàng)新的關(guān)鍵驅(qū)動(dòng)力。然而,傳統(tǒng)機(jī)器學(xué)習(xí)工程模式面臨著諸多困境,它是一個(gè)高度復(fù)雜且耗費(fèi)人力的過程,專家研究人員往往需要投入大量時(shí)間進(jìn)行模型架構(gòu)設(shè)計(jì)、超參數(shù)調(diào)整以及通過反復(fù)試驗(yàn)來優(yōu)化模型,整個(gè)流程可能持續(xù)數(shù)天甚至數(shù)月。以開發(fā)一個(gè)高性能的語音識(shí)別模型為例,研究人員需要手動(dòng)篩選合適的聲學(xué)模型架構(gòu)、精心調(diào)整語言模型的權(quán)重,并通過無數(shù)次試驗(yàn)來驗(yàn)證模型在不同口音、噪聲條件下的魯棒性和準(zhǔn)確性。這種手動(dòng)試錯(cuò)的方式不僅浪費(fèi)了大量的時(shí)間和計(jì)算資源,而且很難保證模型的最終性能能夠達(dá)到預(yù)期,嚴(yán)重制約了機(jī)器學(xué)習(xí)技術(shù)的廣泛應(yīng)用和快速發(fā)展。 所以自主機(jī)器學(xué)習(xí)成為了一個(gè)前沿的研究方向。
自主機(jī)器學(xué)習(xí)的目標(biāo)是構(gòu)建能夠獨(dú)立運(yùn)作的 AI 系統(tǒng),這些系統(tǒng)能夠自主地協(xié)調(diào)整個(gè)機(jī)器學(xué)習(xí)生命周期,從概念設(shè)計(jì)、代碼實(shí)現(xiàn)到模型優(yōu)化,全程無需人工干預(yù)。這一愿景的核心是通過自動(dòng)化和智能化的技術(shù)手段,大幅減少人工參與,提高機(jī)器學(xué)習(xí)工程的效率和可擴(kuò)展性。比如,假設(shè)一個(gè)智能體能夠自動(dòng)地根據(jù)給定的語音識(shí)別任務(wù)描述,生成有效的聲學(xué)模型架構(gòu),智能調(diào)整超參數(shù),并在運(yùn)行時(shí)根據(jù)實(shí)時(shí)反饋進(jìn)行自我改進(jìn),這不僅能夠極大地加速語音識(shí)別模型的開發(fā)過程,還能使機(jī)器學(xué)習(xí)技術(shù)更加普及,讓更多非專業(yè)用戶也能夠利用先進(jìn)的機(jī)器學(xué)習(xí)算法解決實(shí)際問題,從而推動(dòng)人工智能技術(shù)在語音助手、智能客服等眾多領(lǐng)域的廣泛應(yīng)用。
現(xiàn)有 LLM 智能體的局限性
近年,基于LLM 的智能體在自主機(jī)器學(xué)習(xí)領(lǐng)域取得了顯著的進(jìn)展,如 AIDE 和 SELA 等智能體。它們能夠利用 LLM 的交互能力、編碼能力和工具調(diào)用能力,自動(dòng)化機(jī)器學(xué)習(xí)流程。然而,這些現(xiàn)有的智能體方法存在一個(gè)共同的根本局限性,就是它們依賴于手工提示工程。手工提示工程要求研究人員精心設(shè)計(jì)提示,以引導(dǎo) LLM 智能體的行為,這種方式不僅耗時(shí)費(fèi)力,而且嚴(yán)重限制了智能體的自動(dòng)優(yōu)化和跨任務(wù)泛化能力。例如,一個(gè)專門為圖像分類任務(wù)設(shè)計(jì)的智能體,其提示可能包含了特定的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)描述和數(shù)據(jù)增強(qiáng)策略,但當(dāng)面臨一個(gè)全新的文本分類任務(wù)時(shí),智能體無法直接將所學(xué)的知識(shí)遷移到新任務(wù)中,因?yàn)樗男袨槟J奖惶崾舅薅ǎ狈`活調(diào)整和自我優(yōu)化的能力。這種對提示的依賴,使得智能體難以在多樣化的任務(wù)場景中實(shí)現(xiàn)靈活的策略調(diào)整和性能優(yōu)化,極大地限制了自主機(jī)器學(xué)習(xí)技術(shù)的發(fā)展和應(yīng)用。
ML-Agent 的創(chuàng)新與重要性
針對上述問題,ML-Agent 的研究提出了一種全新的學(xué)習(xí)型智能體自主機(jī)器學(xué)習(xí)(agentic ML)范式。ML-Agent 通過在線強(qiáng)化學(xué)習(xí)(RL)與 ML 任務(wù)環(huán)境進(jìn)行交互,主動(dòng)探索不同的策略,積累知識(shí)并不斷改進(jìn)決策。與傳統(tǒng)方法相比,ML-Agent 能夠更加智能地應(yīng)對各種 ML 任務(wù),實(shí)現(xiàn)自動(dòng)化的策略優(yōu)化和跨任務(wù)的知識(shí)遷移。ML-Agent 的創(chuàng)新之處在于其獨(dú)特的訓(xùn)練框架,該框架包含三個(gè)關(guān)鍵組件:探索增強(qiáng)微調(diào)、逐步 RL 范式和特定于 agentic ML 的獎(jiǎng)勵(lì)模塊。這些組件協(xié)同工作,使 ML-Agent 能夠在有限的訓(xùn)練任務(wù)上實(shí)現(xiàn)卓越的性能,并展現(xiàn)出強(qiáng)大的跨任務(wù)泛化能力。這一突破不僅為自主機(jī)器學(xué)習(xí)領(lǐng)域帶來了新的發(fā)展機(jī)遇,也為實(shí)現(xiàn)更加智能化、自動(dòng)化的機(jī)器學(xué)習(xí)工程提供了新的思路和方法,有望推動(dòng)機(jī)器學(xué)習(xí)技術(shù)在更多領(lǐng)域的廣泛應(yīng)用和深入發(fā)展。
ML-Agent 的研究框架與方法
學(xué)習(xí)型智能體 ML 范式的提出
ML-Agent 所采用的學(xué)習(xí)型智能體 ML 范式,徹底改變了傳統(tǒng)自主機(jī)器學(xué)習(xí)的模式。在這種范式下,LLM 智能體不再是被動(dòng)地執(zhí)行預(yù)設(shè)的指令,而是通過與環(huán)境的交互,主動(dòng)地探索和學(xué)習(xí)最優(yōu)的策略。智能體在每個(gè)時(shí)間步中根據(jù)當(dāng)前狀態(tài)(即過去的反饋信息)采取行動(dòng)(例如,在模型架構(gòu)中添加批量歸一化層),然后從環(huán)境中接收反饋(例如,代碼執(zhí)行結(jié)果或錯(cuò)誤信息)。通過這種方式,智能體能夠在不斷的試錯(cuò)過程中,逐步積累經(jīng)驗(yàn),優(yōu)化自己的行為策略。
概述自主機(jī)器學(xué)習(xí)中LLM代理與環(huán)境的交互
這種范式的最大優(yōu)勢在于其靈活性和適應(yīng)性。智能體可以根據(jù)不同的任務(wù)需求,動(dòng)態(tài)地調(diào)整自己的行為模式。例如,在面對一個(gè)全新的醫(yī)療影像診斷任務(wù)時(shí),智能體能夠自動(dòng)地識(shí)別影像數(shù)據(jù)的特點(diǎn),并生成相應(yīng)的模型架構(gòu)和訓(xùn)練策略,如選擇合適的卷積神經(jīng)網(wǎng)絡(luò)層數(shù)、濾波器大小以及數(shù)據(jù)增強(qiáng)方法。這種能力使得 ML-Agent 在處理多樣化的機(jī)器學(xué)習(xí)任務(wù)時(shí),表現(xiàn)出了先進(jìn)的智能和效率,能夠快速適應(yīng)不同領(lǐng)域的應(yīng)用場景,為機(jī)器學(xué)習(xí)技術(shù)的快速落地提供了有力支持。
ML-Agent 訓(xùn)練框架的三個(gè)關(guān)鍵組件
探索增強(qiáng)微調(diào)
探索增強(qiáng)微調(diào)是 ML-Agent 訓(xùn)練框架的第一個(gè)關(guān)鍵組件,其核心目的是拓寬智能體的探索范圍,增強(qiáng)其在后續(xù) RL 階段的多樣化策略生成能力。
在具體實(shí)施過程中,研究者們首先利用一組快速可執(zhí)行的 ML 任務(wù),生成了大量的候選想法。例如,在一個(gè)圖像分類任務(wù)中,可能的候選想法包括 “添加 L1 或 L2 權(quán)重正則化”、“使用早停法以防止過擬合” 等。對于每個(gè)任務(wù),研究者們計(jì)算這些想法之間的成對嵌入(embedding)距離。他們采用了基于詞向量的余弦相似度方法來計(jì)算嵌入距離。首先將每個(gè)想法文本轉(zhuǎn)化為詞向量序列,然后通過計(jì)算序列之間的余弦相似度來衡量它們的語義相似性。接著選擇嵌入距離最大的 10 個(gè)想法,以確保想法的多樣性。然后,隨機(jī)從中挑選 1 至 3 個(gè)想法,將其組合成任務(wù)提示。
接下來,由一個(gè)由 GPT-4o-mini 驅(qū)動(dòng)的專家智能體與環(huán)境進(jìn)行交互,使用這些豐富的提示,在 9 個(gè)快速可執(zhí)行的 ML 任務(wù)上生成專家軌跡。這些軌跡記錄了專家智能體在任務(wù)中的每一步操作、觀察結(jié)果以及所采取的行動(dòng)。通過這種方式,研究者們收集了大量的高質(zhì)量數(shù)據(jù),用于對 LLM 智能體進(jìn)行微調(diào)。
智能體機(jī)器學(xué)習(xí)訓(xùn)練框架概述:(1)探索增強(qiáng)的微調(diào),用于創(chuàng)建多樣化的行動(dòng)池;(2)分步強(qiáng)化學(xué)習(xí)范式,利用專家軌跡高效收集經(jīng)驗(yàn);(3)針對智能體機(jī)器學(xué)習(xí)的特定獎(jiǎng)勵(lì)模塊,用于處理各種機(jī)器學(xué)習(xí)反饋和進(jìn)行任務(wù)特定的性能評(píng)估
在微調(diào)過程中,研究者們采用監(jiān)督微調(diào)(SFT)方法,通過最小化專家軌跡與智能體生成的軌跡之間的差異,使智能體能夠?qū)W習(xí)到專家的策略。這不僅確保了智能體輸出的動(dòng)作符合格式要求,還使其能夠?qū)W習(xí)到多樣化的策略,從而在后續(xù)的 RL 階段中進(jìn)行更廣泛的探索。例如,在一個(gè)文本分類任務(wù)中,經(jīng)過探索增強(qiáng)微調(diào)的智能體,不僅學(xué)會(huì)了如何正確地使用 NLTK 庫進(jìn)行文本預(yù)處理(如分詞、去除停用詞和詞干提取),還掌握了一系列不同的特征提取方法(如 TF-IDF、Word2Vec 等)和模型架構(gòu)(如邏輯回歸、神經(jīng)網(wǎng)絡(luò)等)。這種多樣化的能力為智能體在面對復(fù)雜多變的任務(wù)時(shí)提供了豐富的策略選擇,使其能夠更有效地應(yīng)對各種挑戰(zhàn)。
逐步 RL 范式
逐步 RL 范式是 ML-Agent 訓(xùn)練框架的第二個(gè)關(guān)鍵組件,是為了解決傳統(tǒng) RL 方法在 ML 實(shí)驗(yàn)中的采樣效率低下問題。
在傳統(tǒng)的 RL 方法中,智能體需要執(zhí)行完整的策略軌跡(即從任務(wù)描述開始,直到達(dá)到最大步數(shù)或時(shí)間限制),才能收集到一個(gè)樣本進(jìn)行學(xué)習(xí)。然而,ML 實(shí)驗(yàn)通常需要幾分鐘到幾小時(shí)不等的時(shí)間,這使得在線數(shù)據(jù)收集過程極為緩慢,嚴(yán)重限制了反饋驅(qū)動(dòng)的訓(xùn)練樣本數(shù)量。
為了解決這一問題,ML-Agent 采用了一種逐步 RL 范式。在這種范式下,研究者們將目標(biāo)函數(shù)重新定義為按狀態(tài)分布采樣的逐步更新。他們首先根據(jù)專家軌跡計(jì)算出一個(gè)固定的狀態(tài)分布。計(jì)算方法是統(tǒng)計(jì)專家智能體在各個(gè)狀態(tài)下的訪問頻率,并將其歸一化為概率分布。然后從這個(gè)分布中采樣狀態(tài),并在這些采樣狀態(tài)下評(píng)估智能體的單步行動(dòng)。
在保留任務(wù)和外推任務(wù)上,分步式強(qiáng)化學(xué)習(xí)(Step-wise RL)都比基于回合的強(qiáng)化學(xué)習(xí)(Episode-wise RL)更高效。這兩種強(qiáng)化學(xué)習(xí)訓(xùn)練方法都從MLAgent-SFT開始。紅色點(diǎn)之間的間隔為5步,而藍(lán)色三角形之間的間隔為1步
這種方法的優(yōu)勢在于,它將狀態(tài)采樣過程與模型的強(qiáng)化學(xué)習(xí)過程解耦。研究者們可以直接從預(yù)收集的狀態(tài)池中采樣狀態(tài),而無需在訓(xùn)練過程中進(jìn)行昂貴的在線采樣。這不僅顯著降低了采樣成本,還提高了訓(xùn)練效率,使智能體能夠在更短的時(shí)間內(nèi)學(xué)習(xí)到更多的知識(shí)。例如,在一個(gè)圖像生成任務(wù)中,逐步 RL 范式允許智能體在每個(gè)訓(xùn)練步驟中只關(guān)注單個(gè)狀態(tài)下的行動(dòng)優(yōu)化,而不是等待整個(gè)訓(xùn)練過程的完成。這使得智能體能夠更快地學(xué)習(xí)到如何調(diào)整模型的超參數(shù)(如學(xué)習(xí)率、批量大小等),以提高生成圖像的質(zhì)量,從而加速了模型的收斂過程。
特定于 agentic ML 的獎(jiǎng)勵(lì)模塊
特定于 agentic ML 的獎(jiǎng)勵(lì)模塊是 ML-Agent 訓(xùn)練框架的第三個(gè)關(guān)鍵組件,其設(shè)計(jì)目標(biāo)是將各種復(fù)雜的執(zhí)行結(jié)果轉(zhuǎn)換為統(tǒng)一的標(biāo)量值,為 RL 優(yōu)化提供一致且有效的獎(jiǎng)勵(lì)信號(hào)。
在自主機(jī)器學(xué)習(xí)過程中,智能體可能會(huì)遇到各種不同的執(zhí)行結(jié)果,包括任務(wù)特定的性能指標(biāo)(如分類準(zhǔn)確性、回歸均方誤差等)、運(yùn)行時(shí)錯(cuò)誤(如內(nèi)存不足、編譯失敗等)以及邊界情況(如資源耗盡、時(shí)間限制等)。為了使智能體能夠從這些不同的反饋中學(xué)習(xí),研究者們設(shè)計(jì)了一個(gè)動(dòng)態(tài)處理這些信號(hào)的獎(jiǎng)勵(lì)模塊。
對機(jī)器學(xué)習(xí)(ML)特定的獎(jiǎng)勵(lì)模塊進(jìn)行消融研究,表明三個(gè)組成部分的必要性。這三個(gè)組成部分分別是歸一化性能獎(jiǎng)勵(lì)(Rperf.)、格式獎(jiǎng)勵(lì)(Rformat)和邊緣情況獎(jiǎng)勵(lì)(Rcorner )。CIFAR-10和反饋是保留任務(wù),其他則是排除任務(wù)。
該獎(jiǎng)勵(lì)模塊的核心思想是將每種執(zhí)行結(jié)果映射到一個(gè)統(tǒng)一的標(biāo)量值。例如:
- 如果智能體采取了無效的行動(dòng)(如生成了不符合格式要求的代碼)或收到了錯(cuò)誤反饋(如編譯失敗),則獎(jiǎng)勵(lì)值為 0。這懲罰了智能體的錯(cuò)誤行為,促使其生成正確的格式。
- 如果智能體采取了有效但非編輯性的行動(dòng)(如列出文件)或遇到了邊界情況(如內(nèi)存不足),則獎(jiǎng)勵(lì)值為 0.5。這承認(rèn)了行動(dòng)的有效性,但同時(shí)也考慮到了外部約束的影響。
- 如果智能體成功地應(yīng)用了一個(gè)有效的編輯操作,并且執(zhí)行結(jié)果成功(如模型性能得到提升),則獎(jiǎng)勵(lì)值根據(jù)任務(wù)特定的性能指標(biāo)的改進(jìn)程度進(jìn)行計(jì)算。獎(jiǎng)勵(lì)值通過一個(gè)縮放因子(根據(jù)任務(wù)的基準(zhǔn)性能和最佳人類可實(shí)現(xiàn)性能進(jìn)行計(jì)算)和一個(gè) sigmoid 函數(shù)(將改進(jìn)映射到 (0, 1) 區(qū)間)來確定,以激勵(lì)智能體實(shí)現(xiàn)有意義的性能提升。
比如,在一個(gè)語音識(shí)別任務(wù)中,當(dāng)智能體成功地優(yōu)化了模型的架構(gòu),使得單詞錯(cuò)誤率降低了 10% 時(shí),獎(jiǎng)勵(lì)模塊會(huì)根據(jù)預(yù)定義的縮放因子和 sigmoid 函數(shù),計(jì)算出一個(gè)相應(yīng)的獎(jiǎng)勵(lì)值。這個(gè)獎(jiǎng)勵(lì)值不僅反映了性能提升的幅度,還考慮到了任務(wù)的難度和目標(biāo),從而為智能體提供了一個(gè)明確的學(xué)習(xí)信號(hào)。通過這種方式,獎(jiǎng)勵(lì)模塊能夠全面地處理各種執(zhí)行結(jié)果,確保智能體在多樣化的 ML 任務(wù)中有效地學(xué)習(xí)和改進(jìn),引導(dǎo)智能體朝著最優(yōu)策略不斷進(jìn)化。
ML-Agent 的實(shí)驗(yàn)設(shè)計(jì)與結(jié)果
訓(xùn)練設(shè)置
在訓(xùn)練數(shù)據(jù)收集方面,研究者們采用了 GPT-4o-mini 驅(qū)動(dòng)的智能體與 MLAgentBench 環(huán)境進(jìn)行交互,生成專家軌跡。他們選擇了 9 個(gè) ML 任務(wù),這些任務(wù)涵蓋了圖像分類(如 cifar-10、aerial-cactus-identification 等)、表格回歸(如 home-data-for-ml-course、nomad2018-predict-transparent-conductors 等)和文本分類(如 feedback-prize-english-language-learning)等多種類型。對于每個(gè)任務(wù),智能體與環(huán)境進(jìn)行交互,生成了包含 15 步操作和反饋的軌跡,最終收集了 10k 條專家軌跡。
在實(shí)驗(yàn)中使用的所有訓(xùn)練和測試任務(wù)。MLA和MLE分別代表MLAgentbBench和MLE-bench
這些任務(wù)的選擇和數(shù)據(jù)收集過程確保了訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。例如,在圖像分類任務(wù)中,智能體需要學(xué)習(xí)如何調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)、濾波器大小等超參數(shù);在表格回歸任務(wù)中,智能體需要掌握特征工程、模型選擇等技能;在文本分類任務(wù)中,智能體則需要學(xué)習(xí)文本預(yù)處理、嵌入方法等知識(shí)。通過這種方式,研究者們?yōu)?ML-Agent 的訓(xùn)練提供了豐富的經(jīng)驗(yàn)基礎(chǔ)。
在模型訓(xùn)練方面,研究者們首先對 Qwen2.5-7B 模型進(jìn)行了監(jiān)督微調(diào)(SFT)。他們使用收集到的專家軌跡,通過最小化模型生成的軌跡與專家軌跡之間的差異,使模型能夠?qū)W習(xí)到專家的策略。在 SFT 階段,研究者們設(shè)置了 2 個(gè)訓(xùn)練周期,批次大小為 64,學(xué)習(xí)率為 2e?5(千問官方文檔中的學(xué)習(xí)率是 1e-5)。
接下來,研究者們采用基于 PPO(Proximal Policy Optimization)的逐步 RL 方法對模型進(jìn)行進(jìn)一步訓(xùn)練。在 RL 階段,訓(xùn)練批次大小設(shè)置為 256,訓(xùn)練周期為 1 個(gè)。同時(shí),研究者們分別設(shè)置了行動(dòng)者(actor)和評(píng)論家(critic)的學(xué)習(xí)率為 1e?6 和 1e?5,并引入了 KL 散度系數(shù)為 0.001,以控制策略更新的幅度,防止策略在訓(xùn)練過程中出現(xiàn)劇烈波動(dòng)。
這些超參數(shù)的設(shè)置經(jīng)過精心調(diào)整,以平衡模型的學(xué)習(xí)速度和穩(wěn)定性。例如,適當(dāng)?shù)膶W(xué)習(xí)率能夠確保模型在訓(xùn)練過程中逐步收斂到最優(yōu)策略,而 KL 散度系數(shù)則防止了策略更新過程中出現(xiàn)過大的偏差,從而提高了訓(xùn)練的穩(wěn)定性。
測試設(shè)置
在測試階段,研究者們選擇了 10 個(gè)未見任務(wù)(held-out tasks)來評(píng)估 ML-Agent 的泛化能力。這些任務(wù)同樣來自 MLAgentBench 和 MLE-Bench,涵蓋了圖像生成(如 denoising-dirty-documents)、圖像分類(如 leaf-classification、statoil-iceberg-classifier-challenge 等)、文本回歸(如 learning-agency-lab-automated-essay-scoring-2)和表格回歸(如 us-patent-phrase-to-phrase-matching、tabular-playground-series-dec-2021 等)等多種類型。
在實(shí)驗(yàn)中使用的所有訓(xùn)練和測試任務(wù)。MLA和MLE分別代表MLAgentbBench和MLE-bench
這些任務(wù)的選擇是為了全面評(píng)估 ML-Agent 在不同數(shù)據(jù)類型(圖像、文本、表格)和任務(wù)目標(biāo)(分類、回歸、生成)上的性能表現(xiàn)。例如,圖像生成任務(wù)考驗(yàn)智能體對圖像數(shù)據(jù)的理解和生成能力;文本回歸任務(wù)考察智能體對文本語義的把握和量化能力;表格回歸任務(wù)則測試智能體對結(jié)構(gòu)化數(shù)據(jù)的處理和預(yù)測能力。
為了全面評(píng)估 LLM 智能體的性能,研究者們提出了三個(gè)評(píng)估指標(biāo):
- avg@K:在 K 個(gè)評(píng)估軌跡上的平均分?jǐn)?shù),反映智能體的穩(wěn)定性。例如,如果 K=8,avg@8 表示智能體在 8 次獨(dú)立運(yùn)行中的平均性能。這一指標(biāo)能夠衡量智能體在多次嘗試中保持一致性能的能力,避免因偶然因素導(dǎo)致的性能波動(dòng)。
- best@K:在 K 個(gè)評(píng)估軌跡上的最高分?jǐn)?shù),顯示智能體在相同計(jì)算 / 步驟預(yù)算下所能達(dá)到的最大質(zhì)量。這一指標(biāo)關(guān)注智能體在有限資源內(nèi)實(shí)現(xiàn)最佳性能的能力,體現(xiàn)了智能體的優(yōu)化潛力。
- 相對增益 ?r:相對于初始腳本的相對改進(jìn),定義為 ?r=β×(pavg@8 ? pinit)/pinit,其中 pavg@8 是 8 個(gè)軌跡的平均分?jǐn)?shù),pinit 是初始腳本的分?jǐn)?shù),β∈{?1,1} 用于根據(jù)指標(biāo)類型(如 MAE、RMSE)調(diào)整符號(hào),確保 ?r>0 表示改進(jìn)。這一指標(biāo)直觀地反映了智能體對初始模型的改進(jìn)程度,能夠有效評(píng)估智能體的增值能力。
例如,在 denoising-dirty-documents 任務(wù)中,avg@8 指標(biāo)能夠反映 ML-Agent 在 8 次不同運(yùn)行中對圖像去噪模型的平均優(yōu)化效果;best@8 指標(biāo)則顯示了智能體在這些運(yùn)行中所能達(dá)到的最佳去噪性能;而相對增益 ?r 則量化了智能體對初始去噪模型的改進(jìn)幅度,為研究人員提供了一個(gè)直觀的性能提升衡量標(biāo)準(zhǔn)。
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果顯示,ML-Agent 在 3 個(gè)已見任務(wù)和 10 個(gè)未見任務(wù)上均表現(xiàn)出色,顯著優(yōu)于其他 5 個(gè)基于 MLAB 搭建的智能體。這些智能體包括不同參數(shù)規(guī)模的 Qwen2.5 模型(Qwen-7B-Instruct、Qwen-32B-Instruct)、專家級(jí) GPT-4o-mini 和 GPT-4o 以及擁有 671B 參數(shù)規(guī)模的 DeepSeek-R1 等。
ML-Agent在3個(gè)訓(xùn)練內(nèi)任務(wù)(包含在訓(xùn)練中)和10個(gè)訓(xùn)練外任務(wù)(訓(xùn)練期間未見過)上均優(yōu)于基線模型。對于每個(gè)任務(wù),我們報(bào)告了8條軌跡的平均分和最高分。表現(xiàn)最佳的模型以粗體突出顯示,第二好的結(jié)果則以橫線標(biāo)出
在已見任務(wù)中,例如 cifar-10 圖像分類任務(wù),ML-Agent 的最佳準(zhǔn)確率達(dá)到了 81.45%,超過了 Qwen-7B-Instruct 的 76.05%、Qwen-32B-Instruct 的 63.82%、GPT-4o-mini 的 80.83%、GPT-4o 的 80.34% 以及 DeepSeek-R1 的 80.34%。這表明 ML-Agent 能夠在其訓(xùn)練過程中充分挖掘任務(wù)的潛力,實(shí)現(xiàn)卓越的性能。
在未見任務(wù)中,ML-Agent 同樣展現(xiàn)了強(qiáng)大的泛化能力。例如,在 denoising-dirty-documents 圖像生成任務(wù)中,ML-Agent 的平均 RMSE(均方根誤差)為 0.0741,優(yōu)于其他所有基線模型。這一結(jié)果證明了 ML-Agent 能夠?qū)挠邢抻?xùn)練任務(wù)中學(xué)習(xí)到的知識(shí)有效地遷移到全新的任務(wù)場景中,并實(shí)現(xiàn)顯著的性能提升。
通過對比分析,研究者們發(fā)現(xiàn) ML-Agent 的優(yōu)越性能主要?dú)w功于其獨(dú)特的訓(xùn)練框架。探索增強(qiáng)微調(diào)為智能體提供了多樣化的策略選擇,使其能夠在訓(xùn)練初期快速探索不同的解決方案;逐步 RL 范式顯著提高了訓(xùn)練效率,使智能體能夠更快地從環(huán)境反饋中學(xué)習(xí);而特定于 agentic ML 的獎(jiǎng)勵(lì)模塊則為智能體提供了精準(zhǔn)的學(xué)習(xí)信號(hào),引導(dǎo)其朝著最優(yōu)策略不斷進(jìn)化。
與AIDE框架在13項(xiàng)任務(wù)上的對比結(jié)果。研究者繪制了每項(xiàng)任務(wù)的歸一化相對增益。通過將每項(xiàng)任務(wù)的相對增益除以ML-Agent值來對其進(jìn)行歸一化
此外,ML-Agent 與 AIDE 智能體的比較結(jié)果也進(jìn)一步驗(yàn)證了其訓(xùn)練框架的有效性。在多個(gè)任務(wù)類型和評(píng)估指標(biāo)上,ML-Agent 均表現(xiàn)出色。例如,在 jigsaw-toxic-comment-classification-challenge 文本分類任務(wù)中,ML-Agent 的 AUC(受試者工作特征曲線下面積)達(dá)到了 0.9763,超過了 AIDE 智能體的表現(xiàn)。這表明 ML-Agent 的訓(xùn)練框架能夠更好地適應(yīng)不同任務(wù)的特點(diǎn)和需求,實(shí)現(xiàn)更優(yōu)的性能。
性能提升分析
進(jìn)一步的分析表明,ML-Agent 在訓(xùn)練過程中,隨著 GPU 時(shí)間的增加,其性能在已見和未見任務(wù)上都呈現(xiàn)出持續(xù)提升的趨勢。
訓(xùn)練任務(wù)數(shù)量對強(qiáng)化學(xué)習(xí)性能的影響*。純監(jiān)督學(xué)習(xí)(SFT)模型表現(xiàn)出極小的泛化能力,而強(qiáng)化學(xué)習(xí)(RL)則推動(dòng)了泛化能力的提升
從圖表中可以看出,ML-Agent 的性能提升速度明顯快于傳統(tǒng)的基于劇集的 RL 方法。在訓(xùn)練初期(GPU 時(shí)間約為 2 小時(shí)時(shí)),ML-Agent 的平均相對增益已經(jīng)達(dá)到了約 5%,而基于劇集的 RL 方法可能僅能達(dá)到 2% 左右。這種性能提升的優(yōu)勢隨著訓(xùn)練的進(jìn)行不斷擴(kuò)大,最終使 ML-Agent 在所有任務(wù)上都取得了顯著的領(lǐng)先地位。
這種性能提升的原因主要可以歸結(jié)為逐步 RL 范式和探索增強(qiáng)微調(diào)的協(xié)同作用。逐步 RL 范式通過將復(fù)雜的策略學(xué)習(xí)分解為單步行動(dòng)的優(yōu)化,使智能體能夠更高效地利用每次訓(xùn)練迭代。而探索增強(qiáng)微調(diào)則為智能體提供了豐富的初始策略多樣性,使其能夠在訓(xùn)練過程中更廣泛地探索不同的解決方案空間。兩者的結(jié)合,使智能體能夠從 ML 環(huán)境反饋中不斷學(xué)習(xí)和改進(jìn),逐步逼近最優(yōu)策略。
同時(shí),研究者們還觀察到,隨著訓(xùn)練的深入,ML-Agent 的性能提升幅度在不同任務(wù)上有所差異。例如,在一些簡單的任務(wù)(如 home-data-for-ml-course 表格回歸任務(wù))中,智能體的性能可能在較短的時(shí)間內(nèi)迅速達(dá)到較高水平,而在一些復(fù)雜的任務(wù)(如 detecting-insults-in-social-commentary 文本分類任務(wù))中,性能提升則相對緩慢,但提升空間更大。這種差異反映了不同任務(wù)的難度和智能體的學(xué)習(xí)曲線,也表明 ML-Agent 的訓(xùn)練框架具有良好的適應(yīng)性,能夠根據(jù)任務(wù)的特點(diǎn)自動(dòng)調(diào)整學(xué)習(xí)策略。
關(guān)鍵組件的深入分析
探索增強(qiáng)微調(diào)的重要性驗(yàn)證
為了驗(yàn)證探索增強(qiáng)微調(diào)的重要性,研究者們進(jìn)行了對比實(shí)驗(yàn),分別以 Qwen-7B-Base、Qwen-7B-Instruct、Qwen-7B-Distill 和 ML-Agent-SFT 作為基礎(chǔ)模型進(jìn)行 RL 訓(xùn)練,并比較了這些智能體在已見和未見任務(wù)上的平均相對增益。
探索增強(qiáng)的微調(diào)對于強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練至關(guān)重要。“N/A”表示基于該模型的訓(xùn)練未能產(chǎn)生有效結(jié)果
實(shí)驗(yàn)結(jié)果表明,以 ML-Agent-SFT 為基礎(chǔ)模型的智能體在已見任務(wù)上的平均相對增益達(dá)到了約 18%,在未見任務(wù)上達(dá)到了約 16%,而其他基礎(chǔ)模型的表現(xiàn)則相對較差。例如,Qwen-7B-Distill 在已見和未見任務(wù)上的平均相對增益幾乎為零,這主要是因?yàn)槠湓?distillation 過程中采用了默認(rèn)的輸出格式,導(dǎo)致其生成的動(dòng)作不符合自主 ML 的要求,從而在 RL 訓(xùn)練的數(shù)據(jù)收集階段就無法產(chǎn)生有效的學(xué)習(xí)信號(hào)。
相比之下,ML-Agent-SFT 通過探索增強(qiáng)微調(diào),確保了智能體輸出的動(dòng)作不僅符合格式要求,還能夠生成多樣化的策略。這種多樣化策略為 RL 訓(xùn)練提供了豐富的探索空間,使智能體能夠在訓(xùn)練過程中發(fā)現(xiàn)更多的有效解決方案。例如,在一個(gè)文本生成任務(wù)中,ML-Agent-SFT 能夠提出多種不同的文本預(yù)處理和模型架構(gòu)優(yōu)化策略,而 Qwen-7B-Instruct 則可能局限于少數(shù)幾種常見的方法。這種策略多樣性的優(yōu)勢使得 ML-Agent 在面對不同類型的任務(wù)時(shí),都能夠更有效地進(jìn)行探索和學(xué)習(xí),從而在已見和未見任務(wù)上都取得了顯著的性能提升。
逐步 RL 訓(xùn)練的有效性驗(yàn)證
研究者們通過比較逐步 RL 方法和傳統(tǒng)的基于劇集的 RL 方法在訓(xùn)練過程中的性能表現(xiàn),進(jìn)一步驗(yàn)證了逐步 RL 訓(xùn)練的有效性。
在 GPU 時(shí)間方面,逐步 RL 方法的優(yōu)勢尤為明顯。由于逐步 RL 方法避免了在線采樣過程中漫長的策略執(zhí)行階段,其訓(xùn)練效率得到了顯著提升。例如,在相同的訓(xùn)練時(shí)間內(nèi),逐步 RL 方法可能完成數(shù)百次的策略更新,而傳統(tǒng)的基于劇集的 RL 方法可能僅能完成數(shù)十次。這種高效的訓(xùn)練過程使得逐步 RL 方法能夠更快地適應(yīng)任務(wù),實(shí)現(xiàn)性能的快速提升
在保留任務(wù)和未保留任務(wù)上,分步強(qiáng)化學(xué)習(xí)(Step-wise RL)都比逐幕強(qiáng)化學(xué)習(xí)(Episode-wise RL)更高效。兩種強(qiáng)化學(xué)習(xí)訓(xùn)練方法都從MLAgent-SFT開始。紅色點(diǎn)之間的間隔是5步,而藍(lán)色三角形之間的間隔是1步
從性能提升速度來看,逐步 RL 方法在訓(xùn)練初期就展現(xiàn)出了明顯的優(yōu)勢。在 GPU 時(shí)間約為 1 小時(shí)時(shí),逐步 RL 方法的平均相對增益已經(jīng)達(dá)到了約 3%,而傳統(tǒng)的基于劇集的 RL 方法可能僅能達(dá)到 1% 左右。并且,隨著訓(xùn)練的進(jìn)行,逐步 RL 方法的性能提升速度始終保持領(lǐng)先。例如,在 GPU 時(shí)間增加到 5 小時(shí)時(shí),逐步 RL 方法的平均相對增益可能達(dá)到 10%,而傳統(tǒng)的基于劇集的 RL 方法可能僅為 5% 左右。
采樣效率的提升也是逐步 RL 方法的一大優(yōu)勢。通過從固定的狀態(tài)分布中采樣狀態(tài),逐步 RL 方法能夠更高效地利用訓(xùn)練數(shù)據(jù)。與傳統(tǒng)的基于劇集的 RL 方法相比,逐步 RL 方法能夠在相同數(shù)量的采樣中獲得更多的有效信息,從而更準(zhǔn)確地估計(jì)策略的價(jià)值函數(shù)。例如,在一個(gè)圖像分類任務(wù)中,逐步 RL 方法可以通過對關(guān)鍵狀態(tài)的采樣,快速識(shí)別出影響模型性能的關(guān)鍵因素(如學(xué)習(xí)率、批量大小等),并針對性地進(jìn)行優(yōu)化。這種高效的采樣策略使得逐步 RL 方法能夠在更短的時(shí)間內(nèi)實(shí)現(xiàn)更優(yōu)的性能。
此外,逐步 RL 方法在適應(yīng) ML 任務(wù)特點(diǎn)方面也表現(xiàn)出色。ML 任務(wù)通常具有多樣化的狀態(tài)空間和復(fù)雜的動(dòng)作空間,傳統(tǒng)的基于劇集的 RL 方法在面對這樣的任務(wù)時(shí),往往需要大量的樣本才能學(xué)習(xí)到有效的策略。而逐步 RL 方法通過將策略學(xué)習(xí)分解為單步行動(dòng)的優(yōu)化,能夠更好地適應(yīng)這些復(fù)雜的特點(diǎn)。例如,在一個(gè)自然語言處理任務(wù)中,逐步 RL 方法可以更高效地學(xué)習(xí)到如何優(yōu)化文本預(yù)處理流程和模型架構(gòu),從而實(shí)現(xiàn)更好的性能。
特定于 agentic ML 獎(jiǎng)勵(lì)模塊的有效性驗(yàn)證
通過消融實(shí)驗(yàn),研究者們詳細(xì)分析了特定于 agentic ML 獎(jiǎng)勵(lì)模塊中各組成部分的有效性。
實(shí)驗(yàn)結(jié)果表明,每個(gè)組成部分都在 RL 訓(xùn)練過程中發(fā)揮著獨(dú)特的價(jià)值。例如,當(dāng)移除標(biāo)準(zhǔn)化性能獎(jiǎng)勵(lì)(Rperf.)時(shí),模型的性能出現(xiàn)了明顯的下降。以 cifar-10 任務(wù)為例,移除 Rperf. 后,模型的平均準(zhǔn)確率從 68.88% 降至 60.53%,最佳準(zhǔn)確率從 81.45% 降至 65.81%。這表明細(xì)粒度的獎(jiǎng)勵(lì)信號(hào)對于引導(dǎo)智能體實(shí)現(xiàn)有意義的性能提升至關(guān)重要。通過將性能改進(jìn)量化為具體的獎(jiǎng)勵(lì)值,智能體能夠明確地了解哪些行動(dòng)有助于提高任務(wù)性能,從而更有針對性地進(jìn)行策略優(yōu)化。
格式獎(jiǎng)勵(lì)(Rformat)的移除導(dǎo)致了最嚴(yán)重的性能退化。例如,在 feedback 任務(wù)中,模型的平均 MCRMSE(均值方根誤差)從 0.5910 上升至 0.6298,最佳 MCRMSE 從 0.5777 上升至 0.5925。這強(qiáng)調(diào)了確保智能體輸出格式合規(guī)性的必要性。只有生成符合要求的代碼和操作,智能體才能在環(huán)境中有效地執(zhí)行任務(wù),并獲得有意義的反饋。格式獎(jiǎng)勵(lì)通過懲罰不符合格式要求的行動(dòng),引導(dǎo)智能體學(xué)習(xí)正確的輸出模式,從而保證了整個(gè)訓(xùn)練過程的有效性。
邊界情況獎(jiǎng)勵(lì)(Rcorner)雖然在某些任務(wù)中影響較小,但在整體訓(xùn)練穩(wěn)定性方面仍具有重要作用。例如,在 denoising-dirty-documents 任務(wù)中,移除 Rcorner 后,模型的平均 RMSE(均方根誤差)從 0.0741 上升至 0.0762,最佳 RMSE 從 0.0556 上升至 0.0571。盡管這種變化幅度不大,但在面對復(fù)雜的現(xiàn)實(shí)環(huán)境時(shí),邊界情況獎(jiǎng)勵(lì)能夠防止智能體因非致命問題(如資源耗盡、時(shí)間限制等)而受到過度懲罰,從而維持了訓(xùn)練過程的穩(wěn)定性和魯棒性。
綜合來看,這三個(gè)組成部分共同構(gòu)成了一個(gè)連貫且全面的獎(jiǎng)勵(lì)結(jié)構(gòu)。Rperf. 驅(qū)動(dòng)智能體追求性能提升,Rformat 確保智能體的行為符合規(guī)范,而 Rcorner 則在復(fù)雜多變的現(xiàn)實(shí)環(huán)境中維持了訓(xùn)練的穩(wěn)定性。在 RL 訓(xùn)練過程中,它們相互補(bǔ)充,共同引導(dǎo)智能體的學(xué)習(xí)過程,使其能夠在各種 ML 任務(wù)中實(shí)現(xiàn)卓越的性能表現(xiàn)。
總結(jié)
ML-Agent 所提出的學(xué)習(xí)型智能體 ML 新范式和創(chuàng)新的訓(xùn)練框架,改變了傳統(tǒng)的自主機(jī)器學(xué)習(xí)模式,使基于 LLM 的智能體從規(guī)則自動(dòng)化邁向了動(dòng)態(tài)、經(jīng)驗(yàn)驅(qū)動(dòng)的學(xué)習(xí)階段。
通過探索增強(qiáng)微調(diào)、逐步 RL 范式和特定于 agentic ML 的獎(jiǎng)勵(lì)模塊這三個(gè)關(guān)鍵組件的協(xié)同作用,ML-Agent 能夠在有限的訓(xùn)練任務(wù)上實(shí)現(xiàn)高效學(xué)習(xí),并展現(xiàn)出強(qiáng)大的跨任務(wù)泛化能力。這種能力不僅提高了自主機(jī)器學(xué)習(xí)工程的效率和性能,還減少了對人工干預(yù)的依賴。
ML-Agent 的主要貢獻(xiàn)在于以下幾個(gè)方面:
- 新范式的引入 :它提出了學(xué)習(xí)型智能體自主機(jī)器學(xué)習(xí)(agentic ML)范式,使 LLM 智能體能夠通過在線強(qiáng)化學(xué)習(xí)與 ML 任務(wù)環(huán)境進(jìn)行交互,主動(dòng)探索策略并不斷改進(jìn)決策。這一范式的提出為自主機(jī)器學(xué)習(xí)領(lǐng)域開辟了新的研究方向,為未來的智能體設(shè)計(jì)提供了新思路。
- 創(chuàng)新的訓(xùn)練框架 :ML-Agent 的訓(xùn)練框架包含三個(gè)關(guān)鍵組件,這些組件在提高智能體探索能力、訓(xùn)練效率和學(xué)習(xí)效果方面取得了顯著的突破。探索增強(qiáng)微調(diào)拓寬了智能體的策略搜索空間;逐步 RL 范式解決了傳統(tǒng) RL 方法在 ML 實(shí)驗(yàn)中的采樣效率問題;特定于 agentic ML 的獎(jiǎng)勵(lì)模塊為智能體提供了精準(zhǔn)的學(xué)習(xí)信號(hào)。這些創(chuàng)新的訓(xùn)練方法為智能體的高效學(xué)習(xí)和卓越性能奠定了堅(jiān)實(shí)的基礎(chǔ)。
- 卓越的實(shí)驗(yàn)性能 :盡管僅使用了 7B 參數(shù)規(guī)模的 LLM,ML-Agent 在 13 個(gè)任務(wù)上的表現(xiàn)卻超越了包括 671B 參數(shù)規(guī)模的 DeepSeek-R1 在內(nèi)的多個(gè)先進(jìn)智能體,實(shí)現(xiàn)了最新的技術(shù)性能。這一結(jié)果證明了 ML-Agent 訓(xùn)練框架的有效性和優(yōu)越性,展示了其在任務(wù)解決和跨任務(wù)泛化方面的強(qiáng)大能力。
這里需要注意的是 ML-Agent 仍然存在一些局限性。比如,ML-Agent 的訓(xùn)練任務(wù)數(shù)量有限,僅有 9 個(gè) ML 任務(wù)用于訓(xùn)練。這限制了智能體對更廣泛任務(wù)場景的適應(yīng)能力。可以考慮在更多的任務(wù)上進(jìn)行訓(xùn)練,以進(jìn)一步提高智能體的泛化能力。
ML-Agent 目前的設(shè)計(jì)使其在特定的環(huán)境中表現(xiàn)最佳,而在面對全新的 ML 框架或架構(gòu)時(shí),其適應(yīng)性仍面臨挑戰(zhàn)。例如,當(dāng)遇到一個(gè)全新的深度學(xué)習(xí)框架或一種全新的數(shù)據(jù)類型時(shí),智能體可能需要重新調(diào)整其策略。比如,可以包括設(shè)計(jì)更通用的環(huán)境適配機(jī)制,使智能體能夠更快地適應(yīng)新的環(huán)境和任務(wù)需求。另外,遷移學(xué)習(xí)也是一個(gè)值得深入探討的方向。通過遷移學(xué)習(xí),智能體可以利用在有限訓(xùn)練任務(wù)中學(xué)習(xí)到的知識(shí),更快地適應(yīng)新的任務(wù)場景。
綜上吧,ML-Agent 的研究還是為我提供了寶貴的知識(shí)和啟發(fā)的,很期待這一領(lǐng)域的更多發(fā)展。