超越微軟，全球第一！上交AI智能體煉成「Kaggle特級大師」，登頂OpenAI MLE-bench

2025-07-02 08:50:00

剛剛，由上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊提出的AI專家智能體，在OpenAI權(quán)威基準(zhǔn)測試MLE-bench中擊敗了業(yè)界AI頂流微軟，奪冠登頂！

就在剛剛，一支來自中國高校的團(tuán)隊成功刷榜了OpenAI發(fā)布的權(quán)威基準(zhǔn)測試MLE-bench！

這一次，榮耀屬于上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊。

他們提出的AI專家智能體「ML-Master」，憑借著29.3%的平均獎牌率，拿下第一！大幅領(lǐng)先微軟的RD-Agent（22.4%）和OpenAI展示的AIDE（16.9%）。

MLE-bench是衡量AI在機(jī)器學(xué)習(xí)工程（MLE）中表現(xiàn)的權(quán)威基準(zhǔn)。它精選Kaggle上的75個相關(guān)競賽，構(gòu)建多樣任務(wù)，測試AI在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實驗運行等機(jī)器學(xué)習(xí)工程中的能力

這不僅意味著，ML-Master已達(dá)到了Kaggle比賽「Grandmaster」（特級大師）級的水平。

而且還標(biāo)志著，團(tuán)隊在AI自主優(yōu)化AI領(lǐng)域，邁出了關(guān)鍵一步。

那么，這支學(xué)術(shù)界的團(tuán)隊，是如何擊敗業(yè)界頂尖團(tuán)隊的呢？

AI開發(fā)AI的時代已來

ML-Master引領(lǐng)變革

隨著人工智能（AI）能力在多個任務(wù)中逐步逼近甚至超過人類水平，AI-for-AI（AI4AI）正成為重要發(fā)展方向——

利用AI技術(shù)自動化和優(yōu)化AI系統(tǒng)自身的設(shè)計、訓(xùn)練和部署。

AI4AI的終極形態(tài)是實現(xiàn)具備自主演進(jìn)能力的AI系統(tǒng)，能夠獨立完成從問題建模、實驗設(shè)計到算法探索與驗證的全過程。

類似于AlphaGo向AlphaZero的演進(jìn)路徑，該過程經(jīng)歷了從人類輔助訓(xùn)練到完全自主優(yōu)化的階段，體現(xiàn)出AI系統(tǒng)在自我演進(jìn)上的潛力和可行性。

為助力AI4AI發(fā)展，上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊提出了面向機(jī)器學(xué)習(xí)（Machine Learning）的AI專家智能體「ML-Master」。

項目主頁：

https://sjtu-sai-agents.github.io/ML-Master

代碼地址：

https://github.com/sjtu-sai-agents/ML-Master

論文地址：

https://arxiv.org/pdf/2506.16499

MLE-bench主頁：

https://github.com/openai/MLE-bench

ML-Master通過創(chuàng)新的「探索-推理深度融合」范式，模擬人類專家的認(rèn)知策略，整合廣泛探索與深度推理，顯著提升AI4AI性能。

在OpenAI MLE-bench基準(zhǔn)測試中，ML-Master以29.3%的平均獎牌率居于榜首，超越微軟R&D-Agent（22.4%）和OpenAI展示的AIDE系統(tǒng)（16.9%）。

與先前方法相比，ML-Master在所有評價維度上均全面領(lǐng)先，尤其在中等難度任務(wù)上獎牌率提升2.2倍（20.2% vs 9.0%），計算效率翻倍（僅需12小時 vs 基線24小時）。

AI4AI的挑戰(zhàn)

探索與推理彼此割裂

盡管大型語言模型（LLM）和自主智能體在AI4AI領(lǐng)域取得顯著進(jìn)展，但現(xiàn)有方法仍面臨核心挑戰(zhàn)：探索與推理的割裂限制了性能提升。

受人類專家開發(fā)AI的迭代與探索過程啟發(fā)，研究團(tuán)隊觀察到，高效的AI開發(fā)需要探索與推理的有機(jī)結(jié)合。

其中，探索通過實驗和發(fā)現(xiàn)獲取新洞察，而推理則通過分析已有知識和歷史經(jīng)驗進(jìn)行深度思考。

兩者缺一不可——缺乏推理的探索會導(dǎo)致低效的試錯，而缺乏探索的推理則容易陷入停滯。

然而，現(xiàn)有AI4AI方法在整合探索與推理時存在以下問題：

?探索效率低下：傳統(tǒng)方法常依賴單一路徑探索，易陷入局部最優(yōu)，缺乏系統(tǒng)性導(dǎo)航解決方案空間的能力。
?推理能力受限：現(xiàn)有推理模型難以有效提煉探索過程中的豐富經(jīng)驗，導(dǎo)致決策缺乏歷史依據(jù)，產(chǎn)生幻覺或不可靠輸出。
?深度融合困難：探索與推理往往各自為戰(zhàn)，缺乏有效整合機(jī)制，限制了整體性能的突破。

因此，如何有效整合探索與推理，讓AI系統(tǒng)能夠像人類專家一樣在解決復(fù)雜問題時既能廣泛探索又能深度思考，成為AI4AI領(lǐng)域的核心挑戰(zhàn)。

雙模塊協(xié)同

探索與推理深度融合

ML-Master通過統(tǒng)一的認(rèn)知框架，模擬人類專家的開發(fā)流程，實現(xiàn)了探索與推理的有機(jī)協(xié)同。

其核心在于平衡多軌跡探索（Balanced Multi-trajectory Exploration）和可控推理（Steerable Reasoning）兩大模塊，并通過自適應(yīng)記憶機(jī)制（Adaptive Memory）實現(xiàn)兩大模塊的高效協(xié)同。

平衡多軌跡探索

Balanced Multi-trajectory Exploration

MCTS啟發(fā)的樹搜索：利用蒙特卡洛樹搜索，將研發(fā)AI過程建模為決策樹，每個節(jié)點代表一個AI方案的狀態(tài)。
并行探索策略：同時探索多個解決方案分支，突破串行限制，多條路徑同時探索，大幅提升探索效率，提高解決方案多樣性。
動態(tài)優(yōu)先級調(diào)整：根據(jù)潛在價值分配計算資源，實時評估不同分支的潛力，將更多計算資源投入到更有希望的方向，避免無效探索。

可控推理

Steerable Reasoning

自適應(yīng)記憶機(jī)制：精準(zhǔn)提取關(guān)鍵洞察，避免信息過載，智能篩選歷史探索中的有效信息，既保留寶貴經(jīng)驗又避免冗余干擾，讓每次推理都建立在更相關(guān)的知識基礎(chǔ)上。
情境化決策：基于歷史經(jīng)驗進(jìn)行有根據(jù)的分析，不再是「拍腦袋」決策，而是結(jié)合具體執(zhí)行反饋和成功案例，讓AI的每個決定都有據(jù)可依。
閉環(huán)學(xué)習(xí)系統(tǒng)：持續(xù)從執(zhí)行反饋中學(xué)習(xí)優(yōu)化，探索結(jié)果實時反哺推理過程，形成「探索→推理→優(yōu)化→再探索」的良性循環(huán)，實現(xiàn)持續(xù)自我提升。

核心融合機(jī)制：自適應(yīng)記憶機(jī)制

Adaptive Memory

ML-Master通過自適應(yīng)記憶機(jī)制實現(xiàn)了兩大模塊的深度融合：

智能記憶構(gòu)建：探索模塊自動收集執(zhí)行結(jié)果、代碼片段和性能指標(biāo)，同時選擇性整合來自父節(jié)點和并行兄弟節(jié)點的關(guān)鍵信息，避免信息過載。
嵌入推理決策：記憶信息直接嵌入到推理模型的「think」部分中，讓每次推理都基于具體的歷史執(zhí)行反饋和多樣化探索的經(jīng)驗進(jìn)行精準(zhǔn)決策。
協(xié)同進(jìn)化機(jī)制：推理結(jié)果指導(dǎo)后續(xù)探索方向，探索經(jīng)驗持續(xù)豐富推理過程，真正實現(xiàn)了探索驅(qū)動推理進(jìn)化，推理反哺探索路徑的良性循環(huán)。

MLE-bench實測

ML-Master位居榜首

ML-Master在OpenAI發(fā)布的MLE-bench基準(zhǔn)上進(jìn)行了全面評測。

MLE-bench是OpenAI于2024年10月推出的類人機(jī)器學(xué)習(xí)能力評測基準(zhǔn)，旨在衡量大模型是否具備像人類AI工程師一樣獨立完成項目的能力。

該基準(zhǔn)由75個來自Kaggle的真實機(jī)器學(xué)習(xí)任務(wù)組成，涵蓋從代碼編寫、模型調(diào)參到結(jié)果提交的完整流程，是目前最權(quán)威、最貼近實際工程場景的AI測試之一。其中不少任務(wù)取材自CVPR等國際頂級學(xué)術(shù)會議。

ML-Master僅在MLE-bench上探索學(xué)習(xí)900機(jī)器小時，即達(dá)成Kaggle比賽的Grandmaster級別，獲取獎牌數(shù)位居20余萬Kaggle的參賽者中的259位。

ML-Master在MLE-bench上實現(xiàn)了以下突破：

?頂級性能：29.3%平均獎牌率，位居MLE-bench榜首
?廣泛覆蓋：93.3%任務(wù)提交有效解，44.9%任務(wù)超半數(shù)人類參賽者
?超高效率：僅用12小時完成測試，計算成本僅為基線方法一半

??全面領(lǐng)先，展現(xiàn)多維度優(yōu)勢

ML-Master在MLE-bench的所有評價維度上均表現(xiàn)卓越。

采用「Bronze+」和「Silver+」指標(biāo)（表示達(dá)到或超過銅牌/銀牌閾值），ML-Master展現(xiàn)全面實力：

??有效提交率：93.3%，接近完美
??超越中位率：44.9%，力超半數(shù)人類參賽者
???榮獲獎牌率：17.3%/7.6%/4.4%的任務(wù)斬獲金/銀/銅牌，實現(xiàn)全方面領(lǐng)先

這樣的全面領(lǐng)先展現(xiàn)了ML-Master作為「六邊形戰(zhàn)士」的綜合實力。

卓越適應(yīng)性，覆蓋各個難度等級

ML-Master在不同難度級別任務(wù)中展現(xiàn)出壓倒性優(yōu)勢：

??低難度任務(wù)：48.5% vs 48.2%，穩(wěn)定領(lǐng)先保持優(yōu)勢
??中難度任務(wù)：20.2% vs 9.0%，2.2倍暴擊提升
??高難度任務(wù)：24.4% vs 18.7%，30%大幅超越

ML-Master在各難度級別的領(lǐng)先表現(xiàn)體現(xiàn)了其卓越的泛化能力，能夠在不同復(fù)雜度的挑戰(zhàn)中保持高水平的穩(wěn)定性。

持續(xù)進(jìn)化，潛力巨大

ML-Master展現(xiàn)出強(qiáng)大的自我演進(jìn)能力，在多輪任務(wù)執(zhí)行過程中持續(xù)提升其解決方案質(zhì)量。

與初始版本相比，最終平均性能提升超過120%。

該系統(tǒng)通過動態(tài)結(jié)合探索與推理機(jī)制，實現(xiàn)了針對任務(wù)特性的逐步適應(yīng)與優(yōu)化，體現(xiàn)出在AI4AI方向上的穩(wěn)步推進(jìn)潛力。

解密ML-Master

智能探索樹生成全過程

通過可視化展示ML-Master的解決方案樹生成過程，可直觀看到：

多分支并行展開：ML-Master同時探索多個解決方案路徑
動態(tài)優(yōu)化調(diào)整：ML-Master根據(jù)執(zhí)行反饋實時調(diào)整策略
智能決策收斂：ML-Master逐步聚焦更優(yōu)解決方案

這一過程展示了在性能優(yōu)化中，探索與推理深度協(xié)同的關(guān)鍵作用。

展望未來

AI4AI新征程

ML-Master的突破驗證了AI4AI的巨大潛力，其探索與推理融合的創(chuàng)新框架為AI自主開發(fā)和自我演進(jìn)提供了新的方向。

在OpenAI MLE-bench上的領(lǐng)先表現(xiàn)為AI4AI技術(shù)樹立了新的標(biāo)桿。

當(dāng)前，AI4AI處于快速發(fā)展的初期階段，隨著技術(shù)的不斷進(jìn)步，AI的智能化、效率和應(yīng)用前景將持續(xù)拓展。

后續(xù)，ML-Master也會集成在即將發(fā)布的AI輔助學(xué)習(xí)智能體和AI輔助研究智能體中。

除了推出面向機(jī)器學(xué)習(xí)的專家智能體ML-Master，上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊后續(xù)將依托上海交通大學(xué)AI-X研究院，陸續(xù)推出覆蓋各領(lǐng)域的專家智能體，構(gòu)建有影響力的智能體生態(tài)體系，為人工智能技術(shù)的創(chuàng)新發(fā)展與廣泛應(yīng)用注入新動能。

上海交通大學(xué)人工智能學(xué)院簡介

上海交通大學(xué)人工智能學(xué)院是上海交通大學(xué)順應(yīng)發(fā)展趨勢、對接國家戰(zhàn)略、服務(wù)城市先導(dǎo)產(chǎn)業(yè)而成立的實體學(xué)院，是舉全校之力組建的特區(qū)學(xué)院。

學(xué)院通過高層次定位和全新體制機(jī)制，致力于培養(yǎng)中國自主的人工智能卓越人才，為國家高水平科技自立自強(qiáng)提供有力支撐。學(xué)院基礎(chǔ)雄厚、生源拔尖、設(shè)施完備、條件優(yōu)越，為上海交通大學(xué)百年徐匯校區(qū)注入了全新的活力。

學(xué)院秉承「用人工智能變革世界，用人才變革人工智能」的愿景，以「引育頂尖人才、產(chǎn)出頂尖成果、孵化頂尖企業(yè)」為目標(biāo)，致力于構(gòu)建全鏈條創(chuàng)新體系，打造中國人工智能領(lǐng)域的「黃埔軍校」，引領(lǐng)中國人工智能發(fā)展。

責(zé)任編輯：張燕妮來源：新智元

AI 智能體模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看