成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent全自動搭建代碼運行環(huán)境,實時更新解決評測過擬合/數(shù)據(jù)污染問題|微軟

人工智能 新聞
微軟發(fā)布全新代碼修復評測基準SWE-bench-Live,不僅引入了來自GitHub最新的Issue,顯著提升了對模型評估的實時性與準確性,還實現(xiàn)代碼運行環(huán)境的全自動化構(gòu)建與自動更新,打破了傳統(tǒng)靜態(tài)評測基準的局限。

長期以來主流的代碼修復評測基準SWE-bench面臨數(shù)據(jù)過時、覆蓋面窄、手動維護成本高等問題,嚴重制約了AI模型真實能力的展現(xiàn)。

微軟發(fā)布全新代碼修復評測基準SWE-bench-Live,不僅引入了來自GitHub最新的Issue,顯著提升了對模型評估的實時性與準確性,還實現(xiàn)代碼運行環(huán)境的全自動化構(gòu)建與自動更新,打破了傳統(tǒng)靜態(tài)評測基準的局限。

圖片

△圖1: SWE-bench-Live leaderboard.

全自動化環(huán)境搭建

傳統(tǒng)的代碼修復評測基準需要人工構(gòu)建代碼運行環(huán)境,不僅成本高昂,且更新緩慢,難以跟上軟件開發(fā)環(huán)境的快速變化。SWE-bench-Live開創(chuàng)性地采用了基于Agent的智能化框架REPOLAUNCH,徹底解決了這些問題。

REPOLAUNCH可以根據(jù)Github中真實的Issue,自動搭建其Docker環(huán)境并執(zhí)行測試驗證,整個流程完全無人干預,并且每月自動更新,持續(xù)提供最新鮮、最具代表性的評測數(shù)據(jù)。這種自動化的實時更新模式,消除了數(shù)據(jù)泄露與模型過擬合風險。

圖片

△圖2: 自動化流水線流程圖

REPOLAUNCH詳細流程

REPOLAUNCH的核心原理是利用智能agent技術模仿人類開發(fā)者的環(huán)境構(gòu)建過程。具體流程包括:

  1. 相關文件自動識別:智能地提取CI/CD配置、README文件等關鍵信息。
  2. Docker環(huán)境自動選擇與搭建:自動識別項目依賴的基礎鏡像并快速構(gòu)建容器。
  3. 智能Agent交互迭代調(diào)試:agent以ReAct模式(Reasoning+Action)進行持續(xù)迭代和環(huán)境調(diào)試,模擬開發(fā)者行為,快速定位并解決環(huán)境問題。
  4. 環(huán)境固化與驗證:成功搭建的環(huán)境以Docker鏡像形式固化,確保任何人都能輕松復現(xiàn)和使用。

不僅如此,REPOLAUNCH還具有廣泛的應用潛力,能夠支持更多下游任務。例如:

  • 自動化新手環(huán)境配置:幫助缺乏經(jīng)驗的開發(fā)者快速搭建復雜的開發(fā)環(huán)境。
  • 構(gòu)建強化學習反饋環(huán)境:為強化學習模型提供自動化的代碼交互反饋環(huán)境,加速模型的迭代與優(yōu)化。
  • 遺留項目環(huán)境重建:快速恢復歷史或廢棄代碼項目的環(huán)境,解決依賴版本沖突等問題。

實驗發(fā)現(xiàn)

首次基于SWE-bench-Live的全面評測結(jié)果顯示,當前頂尖大模型和代碼Agent的表現(xiàn)大幅下滑。

在完全相同的實驗設置下,在傳統(tǒng)評測基準SWE-bench Verified中達到43.2%準確率的OpenHands + Claude 3.7 Sonnet組合,轉(zhuǎn)到SWE-bench-Live后僅達到了19.25%的準確率。這一明顯差距揭示了傳統(tǒng)靜態(tài)基準中潛在的過擬合問題,表明實時、多樣的數(shù)據(jù)環(huán)境對模型能力的客觀評測至關重要。

圖片

△圖3:模型在不同基準上的表現(xiàn)對比圖

如圖進一步深入的實驗分析顯示,即使在SWE-bench-Live中,LLM在修復來自非原有SWE-bench倉庫的新Issue時,其成功率也顯著低于修復原有SWE-bench倉庫的Issue。這一現(xiàn)象說明,現(xiàn)有大模型可能已在傳統(tǒng)靜態(tài)評測中形成了一定的過擬合,對于未見過的新倉庫和新問題表現(xiàn)明顯下降,進一步凸顯了SWE-bench-Live實時、動態(tài)、多樣性評測的重要性。

圖片

△圖4:OpenHands+Claude 3.7 Sonnet在SWE-bench-Live不同倉庫來源的性能對比

多領域覆蓋與多樣化挑戰(zhàn)

SWE-bench-Live的首批任務涵蓋了1319個真實Issue,涉及93個開源項目,領域包括AI/ML、DevOps、Web開發(fā)、數(shù)據(jù)庫、科學計算等多個方向。這種多樣性與高頻實時更新使SWE-bench-Live的評估更加準確,更能反應模型能力的高低。圖片

△圖5:倉庫分布和任務統(tǒng)計圖

進一步分析發(fā)現(xiàn),當前AI模型在處理簡單、單文件修改任務時表現(xiàn)良好,但面對復雜、多文件、多行修改任務時準確率急劇下降。尤其是在面對代碼規(guī)模超過50萬行的大型項目時,模型的表現(xiàn)瓶頸尤為明顯。

圖片

目前,SWE-bench-Live已在GitHub和HuggingFace平臺全面開放,面向全球開發(fā)者和研究人員免費提供。歡迎社區(qū)成員積極參與,共同推動AI代碼修復技術的進步。

本文僅代表媒體視角進行內(nèi)容整理與發(fā)布,不代表微軟官方立場,尤其不代表其對相關基準測試結(jié)果的任何態(tài)度或意圖。

官方主頁/Leaderboard:https://swe-bench-live.github.io
GitHub:https://github.com/microsoft/SWE-bench-Live
HuggingFace:https://huggingface.co/SWE-bench-Live

責任編輯:張燕妮 來源: 量子位
相關推薦

2009-05-22 08:53:26

微軟Windows 7操作系統(tǒng)

2009-05-22 08:53:26

2023-10-10 16:42:45

微軟Windows

2011-03-31 14:14:37

SQL Server 數(shù)據(jù)庫批量更新

2018-03-27 08:44:37

服務器備份異地

2009-12-07 09:53:20

搭建PHP環(huán)境

2021-01-19 09:34:17

Microsoft D微軟公共預覽

2013-01-17 09:04:41

微軟云操作系統(tǒng)System Cent

2025-02-08 14:05:00

2025-06-12 07:05:11

2025-06-12 08:50:25

2023-01-13 00:05:11

2020-04-01 11:11:35

Hadoop運行環(huán)境分布式

2024-05-06 08:25:00

AI模型

2021-05-10 06:38:11

Windows10操作系統(tǒng)微軟

2018-08-31 09:32:46

Windows 10Windows安裝更新

2023-10-16 09:50:48

開源

2023-03-22 13:04:37

微軟Windows 11

2017-10-05 13:38:22

LSTM過擬合欠擬合

2011-12-30 15:20:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩成人免费av | 国内精品免费久久久久软件老师 | 日韩中文字幕在线不卡 | 日本黄色激情视频 | 天天搞天天操 | 国产精品一区二区久久久久 | 国产精品精品 | 亚洲精品成人 | 国产激情99 | 亚洲精品久久 | 亚洲免费在线视频 | 久久亚洲一区二区三区四区 | 人人爱干 | 一级毛片黄片 | 91视频电影 | 欧美性成人 | 中文字幕在线精品 | 亚洲精品一区二区三区蜜桃久 | 99这里只有精品视频 | 国产欧美精品一区 | 亚洲欧美精品 | 国产成人精品一区二区三区四区 | 欧美大片一区 | 国产精品91视频 | 亚洲精品一区二区另类图片 | 国产日韩一区二区三区 | 91精品成人久久 | 久久成人人人人精品欧 | 亚洲一区二区免费看 | www成人免费 | 精品久久香蕉国产线看观看亚洲 | www.三级| 色综合99| 日本久草 | 日韩精品成人 | 日韩精品成人 | 国产视频91在线 | 毛片1 | 精品国产99 | 成人在线中文 | 国产农村妇女精品一二区 |