成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越微軟,全球第一!上交AI智能體煉成「Kaggle特級大師」,登頂OpenAI MLE-bench

人工智能 新聞
剛剛,由上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊提出的AI專家智能體,在OpenAI權(quán)威基準(zhǔn)測試MLE-bench中擊敗了業(yè)界AI頂流微軟,奪冠登頂!

就在剛剛,一支來自中國高校的團(tuán)隊成功刷榜了OpenAI發(fā)布的權(quán)威基準(zhǔn)測試MLE-bench!

這一次,榮耀屬于上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊。

他們提出的AI專家智能體「ML-Master」,憑借著29.3%的平均獎牌率,拿下第一!大幅領(lǐng)先微軟的RD-Agent(22.4%)和OpenAI展示的AIDE(16.9%)。

圖片

MLE-bench是衡量AI在機(jī)器學(xué)習(xí)工程(MLE)中表現(xiàn)的權(quán)威基準(zhǔn)。它精選Kaggle上的75個相關(guān)競賽,構(gòu)建多樣任務(wù),測試AI在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實驗運行等機(jī)器學(xué)習(xí)工程中的能力

這不僅意味著,ML-Master已達(dá)到了Kaggle比賽「Grandmaster」(特級大師)級的水平。

而且還標(biāo)志著,團(tuán)隊在AI自主優(yōu)化AI領(lǐng)域,邁出了關(guān)鍵一步。

那么,這支學(xué)術(shù)界的團(tuán)隊,是如何擊敗業(yè)界頂尖團(tuán)隊的呢?

AI開發(fā)AI的時代已來

ML-Master引領(lǐng)變革

隨著人工智能(AI)能力在多個任務(wù)中逐步逼近甚至超過人類水平,AI-for-AI(AI4AI)正成為重要發(fā)展方向——

利用AI技術(shù)自動化和優(yōu)化AI系統(tǒng)自身的設(shè)計、訓(xùn)練和部署。

AI4AI的終極形態(tài)是實現(xiàn)具備自主演進(jìn)能力的AI系統(tǒng),能夠獨立完成從問題建模、實驗設(shè)計到算法探索與驗證的全過程。

類似于AlphaGo向AlphaZero的演進(jìn)路徑,該過程經(jīng)歷了從人類輔助訓(xùn)練到完全自主優(yōu)化的階段,體現(xiàn)出AI系統(tǒng)在自我演進(jìn)上的潛力和可行性。

為助力AI4AI發(fā)展,上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊提出了面向機(jī)器學(xué)習(xí)(Machine Learning)的AI專家智能體「ML-Master」。

圖片

項目主頁:

https://sjtu-sai-agents.github.io/ML-Master

代碼地址:

https://github.com/sjtu-sai-agents/ML-Master

論文地址:

https://arxiv.org/pdf/2506.16499

MLE-bench主頁:

https://github.com/openai/MLE-bench

ML-Master通過創(chuàng)新的「探索-推理深度融合」范式,模擬人類專家的認(rèn)知策略,整合廣泛探索與深度推理,顯著提升AI4AI性能。

在OpenAI MLE-bench基準(zhǔn)測試中,ML-Master以29.3%的平均獎牌率居于榜首,超越微軟R&D-Agent(22.4%)和OpenAI展示的AIDE系統(tǒng)(16.9%)。

與先前方法相比,ML-Master在所有評價維度上均全面領(lǐng)先,尤其在中等難度任務(wù)上獎牌率提升2.2倍(20.2% vs 9.0%),計算效率翻倍(僅需12小時 vs 基線24小時)。

AI4AI的挑戰(zhàn)

探索與推理彼此割裂

盡管大型語言模型(LLM)和自主智能體在AI4AI領(lǐng)域取得顯著進(jìn)展,但現(xiàn)有方法仍面臨核心挑戰(zhàn):探索與推理的割裂限制了性能提升。

受人類專家開發(fā)AI的迭代與探索過程啟發(fā),研究團(tuán)隊觀察到,高效的AI開發(fā)需要探索與推理的有機(jī)結(jié)合。

其中,探索通過實驗和發(fā)現(xiàn)獲取新洞察,而推理則通過分析已有知識和歷史經(jīng)驗進(jìn)行深度思考。

兩者缺一不可——缺乏推理的探索會導(dǎo)致低效的試錯,而缺乏探索的推理則容易陷入停滯。

然而,現(xiàn)有AI4AI方法在整合探索與推理時存在以下問題:

  • ?探索效率低下:傳統(tǒng)方法常依賴單一路徑探索,易陷入局部最優(yōu),缺乏系統(tǒng)性導(dǎo)航解決方案空間的能力。
  • ?推理能力受限:現(xiàn)有推理模型難以有效提煉探索過程中的豐富經(jīng)驗,導(dǎo)致決策缺乏歷史依據(jù),產(chǎn)生幻覺或不可靠輸出。
  • ?深度融合困難:探索與推理往往各自為戰(zhàn),缺乏有效整合機(jī)制,限制了整體性能的突破。

因此,如何有效整合探索與推理,讓AI系統(tǒng)能夠像人類專家一樣在解決復(fù)雜問題時既能廣泛探索又能深度思考,成為AI4AI領(lǐng)域的核心挑戰(zhàn)。

雙模塊協(xié)同

探索與推理深度融合

ML-Master通過統(tǒng)一的認(rèn)知框架,模擬人類專家的開發(fā)流程,實現(xiàn)了探索與推理的有機(jī)協(xié)同。

其核心在于平衡多軌跡探索(Balanced Multi-trajectory Exploration)可控推理(Steerable Reasoning)兩大模塊,并通過自適應(yīng)記憶機(jī)制(Adaptive Memory)實現(xiàn)兩大模塊的高效協(xié)同。

圖片

平衡多軌跡探索

Balanced Multi-trajectory Exploration

  • MCTS啟發(fā)的樹搜索:利用蒙特卡洛樹搜索,將研發(fā)AI過程建模為決策樹,每個節(jié)點代表一個AI方案的狀態(tài)。
  • 并行探索策略:同時探索多個解決方案分支,突破串行限制,多條路徑同時探索,大幅提升探索效率,提高解決方案多樣性。
  • 動態(tài)優(yōu)先級調(diào)整:根據(jù)潛在價值分配計算資源,實時評估不同分支的潛力,將更多計算資源投入到更有希望的方向,避免無效探索。

圖片

可控推理

Steerable Reasoning

  • 自適應(yīng)記憶機(jī)制:精準(zhǔn)提取關(guān)鍵洞察,避免信息過載,智能篩選歷史探索中的有效信息,既保留寶貴經(jīng)驗又避免冗余干擾,讓每次推理都建立在更相關(guān)的知識基礎(chǔ)上。
  • 情境化決策:基于歷史經(jīng)驗進(jìn)行有根據(jù)的分析,不再是「拍腦袋」決策,而是結(jié)合具體執(zhí)行反饋和成功案例,讓AI的每個決定都有據(jù)可依。
  • 閉環(huán)學(xué)習(xí)系統(tǒng):持續(xù)從執(zhí)行反饋中學(xué)習(xí)優(yōu)化,探索結(jié)果實時反哺推理過程,形成「探索→推理→優(yōu)化→再探索」的良性循環(huán),實現(xiàn)持續(xù)自我提升。

圖片

核心融合機(jī)制:自適應(yīng)記憶機(jī)制

Adaptive Memory

ML-Master通過自適應(yīng)記憶機(jī)制實現(xiàn)了兩大模塊的深度融合:

  • 智能記憶構(gòu)建:探索模塊自動收集執(zhí)行結(jié)果、代碼片段和性能指標(biāo),同時選擇性整合來自父節(jié)點和并行兄弟節(jié)點的關(guān)鍵信息,避免信息過載。
  • 嵌入推理決策:記憶信息直接嵌入到推理模型的「think」部分中,讓每次推理都基于具體的歷史執(zhí)行反饋和多樣化探索的經(jīng)驗進(jìn)行精準(zhǔn)決策。
  • 協(xié)同進(jìn)化機(jī)制:推理結(jié)果指導(dǎo)后續(xù)探索方向,探索經(jīng)驗持續(xù)豐富推理過程,真正實現(xiàn)了探索驅(qū)動推理進(jìn)化,推理反哺探索路徑的良性循環(huán)。

MLE-bench實測

ML-Master位居榜首

ML-Master在OpenAI發(fā)布的MLE-bench基準(zhǔn)上進(jìn)行了全面評測。

MLE-bench是OpenAI于2024年10月推出的類人機(jī)器學(xué)習(xí)能力評測基準(zhǔn),旨在衡量大模型是否具備像人類AI工程師一樣獨立完成項目的能力。

該基準(zhǔn)由75個來自Kaggle的真實機(jī)器學(xué)習(xí)任務(wù)組成,涵蓋從代碼編寫、模型調(diào)參到結(jié)果提交的完整流程,是目前最權(quán)威、最貼近實際工程場景的AI測試之一。其中不少任務(wù)取材自CVPR等國際頂級學(xué)術(shù)會議。

ML-Master僅在MLE-bench上探索學(xué)習(xí)900機(jī)器小時,即達(dá)成Kaggle比賽的Grandmaster級別,獲取獎牌數(shù)位居20余萬Kaggle的參賽者中的259位。

ML-Master在MLE-bench上實現(xiàn)了以下突破:

  • ?頂級性能:29.3%平均獎牌率,位居MLE-bench榜首
  • ?廣泛覆蓋:93.3%任務(wù)提交有效解,44.9%任務(wù)超半數(shù)人類參賽者
  • ?超高效率:僅用12小時完成測試,計算成本僅為基線方法一半

圖片

??全面領(lǐng)先,展現(xiàn)多維度優(yōu)勢

ML-Master在MLE-bench的所有評價維度上均表現(xiàn)卓越。

采用「Bronze+」和「Silver+」指標(biāo)(表示達(dá)到或超過銅牌/銀牌閾值),ML-Master展現(xiàn)全面實力:

  • ??有效提交率:93.3%,接近完美
  • ??超越中位率:44.9%,力超半數(shù)人類參賽者
  • ???榮獲獎牌率:17.3%/7.6%/4.4%的任務(wù)斬獲金/銀/銅牌,實現(xiàn)全方面領(lǐng)先

這樣的全面領(lǐng)先展現(xiàn)了ML-Master作為「六邊形戰(zhàn)士」的綜合實力。

圖片

圖片

卓越適應(yīng)性,覆蓋各個難度等級

ML-Master在不同難度級別任務(wù)中展現(xiàn)出壓倒性優(yōu)勢:

  • ??低難度任務(wù)48.5% vs 48.2%,穩(wěn)定領(lǐng)先保持優(yōu)勢
  • ??中難度任務(wù)20.2% vs 9.0%,2.2倍暴擊提升
  • ??高難度任務(wù)24.4% vs 18.7%,30%大幅超越

ML-Master在各難度級別的領(lǐng)先表現(xiàn)體現(xiàn)了其卓越的泛化能力,能夠在不同復(fù)雜度的挑戰(zhàn)中保持高水平的穩(wěn)定性。

圖片

持續(xù)進(jìn)化,潛力巨大

ML-Master展現(xiàn)出強(qiáng)大的自我演進(jìn)能力,在多輪任務(wù)執(zhí)行過程中持續(xù)提升其解決方案質(zhì)量。

與初始版本相比,最終平均性能提升超過120%。

該系統(tǒng)通過動態(tài)結(jié)合探索與推理機(jī)制,實現(xiàn)了針對任務(wù)特性的逐步適應(yīng)與優(yōu)化,體現(xiàn)出在AI4AI方向上的穩(wěn)步推進(jìn)潛力。

圖片

解密ML-Master

智能探索樹生成全過程

通過可視化展示ML-Master的解決方案樹生成過程,可直觀看到:

  • 多分支并行展開:ML-Master同時探索多個解決方案路徑
  • 動態(tài)優(yōu)化調(diào)整:ML-Master根據(jù)執(zhí)行反饋實時調(diào)整策略
  • 智能決策收斂:ML-Master逐步聚焦更優(yōu)解決方案

這一過程展示了在性能優(yōu)化中,探索與推理深度協(xié)同的關(guān)鍵作用。

展望未來

AI4AI新征程

ML-Master的突破驗證了AI4AI的巨大潛力,其探索與推理融合的創(chuàng)新框架為AI自主開發(fā)和自我演進(jìn)提供了新的方向。

在OpenAI MLE-bench上的領(lǐng)先表現(xiàn)為AI4AI技術(shù)樹立了新的標(biāo)桿。

當(dāng)前,AI4AI處于快速發(fā)展的初期階段,隨著技術(shù)的不斷進(jìn)步,AI的智能化、效率和應(yīng)用前景將持續(xù)拓展。

圖片

后續(xù),ML-Master也會集成在即將發(fā)布的AI輔助學(xué)習(xí)智能體和AI輔助研究智能體中。

除了推出面向機(jī)器學(xué)習(xí)的專家智能體ML-Master,上海交通大學(xué)人工智能學(xué)院Agents團(tuán)隊后續(xù)將依托上海交通大學(xué)AI-X研究院,陸續(xù)推出覆蓋各領(lǐng)域的專家智能體,構(gòu)建有影響力的智能體生態(tài)體系,為人工智能技術(shù)的創(chuàng)新發(fā)展與廣泛應(yīng)用注入新動能。

上海交通大學(xué)人工智能學(xué)院簡介

上海交通大學(xué)人工智能學(xué)院是上海交通大學(xué)順應(yīng)發(fā)展趨勢、對接國家戰(zhàn)略、服務(wù)城市先導(dǎo)產(chǎn)業(yè)而成立的實體學(xué)院,是舉全校之力組建的特區(qū)學(xué)院。

學(xué)院通過高層次定位和全新體制機(jī)制,致力于培養(yǎng)中國自主的人工智能卓越人才,為國家高水平科技自立自強(qiáng)提供有力支撐。學(xué)院基礎(chǔ)雄厚、生源拔尖、設(shè)施完備、條件優(yōu)越,為上海交通大學(xué)百年徐匯校區(qū)注入了全新的活力。

學(xué)院秉承「用人工智能變革世界,用人才變革人工智能」的愿景,以「引育頂尖人才、產(chǎn)出頂尖成果、孵化頂尖企業(yè)」為目標(biāo),致力于構(gòu)建全鏈條創(chuàng)新體系,打造中國人工智能領(lǐng)域的「黃埔軍校」,引領(lǐng)中國人工智能發(fā)展。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-10-11 13:50:00

AI智能體

2025-05-16 10:15:06

2021-01-07 14:56:55

AI 數(shù)據(jù)人工智能

2021-03-19 10:45:09

人工智能

2009-05-30 08:39:20

2025-06-23 08:56:00

2025-06-30 14:01:03

LLM模型AI

2025-05-26 09:21:00

2024-05-24 09:52:09

2024-12-02 10:15:00

LLM模型

2023-08-17 13:35:44

OpenAI收購

2025-03-12 12:21:27

2025-01-09 13:41:14

2025-05-27 08:50:00

2024-10-15 17:28:05

2024-01-12 13:17:05

2012-05-22 10:32:56

ChromeIE
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人高清在线 | 成人高清视频在线观看 | 黄色av网站在线免费观看 | 国产成人福利视频 | 午夜视频一区二区 | zzzwww在线看片免费 | 亚洲在线视频 | 天天射中文| 99久久精品免费看国产免费软件 | 羞羞视频一区二区 | 91 中文字幕 | 国产一区二区三区免费视频 | 欧美成人精品一区二区男人看 | 精品网 | 欲色av | 视频一区二区中文字幕日韩 | 欧美一区| 欧美日韩国产高清视频 | 羞羞的视频网站 | 精品三区 | 久久久久久国产精品 | 亚洲国产欧美一区二区三区久久 | 综合久久av | 久久99视频免费观看 | 激情一区 | 91 视频网站 | 国产在线精品一区二区三区 | 一区二区国产精品 | 欧美性网| 精品一区二区在线看 | а√中文在线8 | 国产中文原创 | 狠狠爱综合网 | 亚洲成人999 | 狠狠婷婷综合久久久久久妖精 | 成人黄色a | 欧美视频在线播放 | 自拍偷拍第一页 | 亚洲欧美日韩高清 | 亚洲免费视频一区二区 | 51ⅴ精品国产91久久久久久 |