成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球首測!OpenAI開源SWELancer,大模型沖擊100萬年薪

人工智能 新聞
SWE-Lancer的一個重要創新是其采用的端到端測試方法。與傳統的單元測試不同,端到端測試能夠模擬真實用戶的工作流程,驗證應用程序的完整行為。

今天凌晨2點,OpenAI開源了一個全新評估大模型代碼能力的測試基準——SWE-Lancer。

目前,測試模型代碼能力的基準主要有SWE-Bench和SWE-BenchVerified,但這兩個有一個很大的局限性,主要針對孤立任務,很難反映現實中軟件工程師的復雜情況。例如,開發人員需處理全技術棧的工作,要考慮代碼庫間的復雜交互和權衡。

而SWE-Lancer的測試數據集包含1488個來自Upwork平臺上Expensify開源倉庫的真實開發任務,并且總價值高達100萬美元。也就是說,如果你的大模型能全部答對這些問題,就能像人類一樣獲得百萬年薪

開源地址:https://github.com/openai/SWELancer-Benchmark

SWE-Lancer獨特測試方法

SWE-Lancer的一個重要創新是其采用的端到端測試方法。與傳統的單元測試不同,端到端測試能夠模擬真實用戶的工作流程,驗證應用程序的完整行為。這種方法不僅能夠更全面地評估模型的解決方案,還能夠避免一些模型通過作弊來通過測試。

例如,對于一個價值1000美元的開發任務,模型需要修復一個導致用戶頭像在“分享代碼”頁面與個人資料頁面不一致的漏洞。

傳統的單元測試可能只能驗證頭像上傳和顯示的獨立功能,但端到端測試則會模擬用戶登錄、上傳頭像、切換賬戶以及查看不同頁面的完整流程。通過這種方式,測試不僅能夠驗證頭像是否正確顯示,還能夠確保整個交互過程的連貫性和正確性。

端到端測試的另一個重要特點是其對真實場景的還原能力。在軟件工程中,許多問題并非孤立出現,而是與系統的其他部分相互作用。

例如,一個看似簡單的漏洞可能涉及到多個組件的協同工作,或者與數據庫、網絡狀態等外部因素相關。

端到端測試通過模擬真實用戶的行為,能夠捕捉到這些復雜的交互關系,從而更準確地評估模型的解決方案是否真正解決了問題。

在評估的過程中,引入了一個重要模塊用戶工具,允許模型在本地運行應用程序,并模擬用戶的行為來驗證其解決方案

例如,在處理Expensify應用中報銷流程的相關任務時,模型借助用戶工具模擬用戶進行費用錄入操作。會按照真實用戶的操作習慣,在本地運行的應用程序中依次輸入各項費用明細,如金額、日期、費用類型等信息,之后點擊提交按鈕,觀察應用程序是否能正確記錄費用數據,以及后續的審批流程是否能順利啟動。

通過這樣的模擬操作,模型能夠判斷自己對報銷流程問題的解決方案是否有效,比如是否修復了費用錄入后數據丟失的漏洞,或者是否優化了審批流程中的卡頓現象等。

SWE-Lancer數據集

SWE-Lancer數據集一共包含1488個來自Upwork平臺上Expensify開源庫的真實軟件開發任務,一共分為獨立貢獻者和軟件工程管理任務兩大類。

獨立開發任務一共有764個,價值414,775美元,主要模擬個體軟件工程師的職責,例如,實現功能、修復漏洞等。在這類任務中,模型會得到問題文本描述涵蓋重現步驟、期望行為、問題修復前的代碼庫檢查點以及修復目標。

軟件管理任務,有724個,價值585,225美元。模型在此類任務中扮演軟件工程經理的角色,需要從多個解決任務的提案中挑選最佳方案。例如,在一個關于在iOS上實現圖像粘貼功能的任務中,模型要從不同提案里選擇最適宜的方案。

首批SWE-Lancer測試結果

OpenAI使用了GPT-4o、o1和Claude3.5Sonnet在SWE-Lancer進行了測試,結果顯示,大模型沖擊百萬年薪都失敗了。

在獨立開發測試任務中,表現最好的模型Claude 3.5 Sonnet的通過率僅為26.2%,只能正確解決不到三分之一的開發任務。而在軟件工程管理任務中,Claude 3.5 Sonnet的表現稍好,通過率達到了44.9%。

而GPT-4o在獨立開發測試中的通過率僅為8%,o1的通過率為20.3%;在軟件工程管理任務中,GPT-4o為37.0%,o1為46.3%。

需要注意的是,模型在不同任務類型和難度級別上的表現存在顯著差異。在價值較低、相對簡單的任務中,模型的通過率相對較高;而在價值較高、難度較大的任務中,通過率則明顯下降。

例如,在SWE-Lancer Diamond數據集中,價值超過1000美元的任務,模型的通過率普遍低于30%。這表明,盡管模型在處理一些基礎任務時能夠表現出一定的能力,但在面對復雜的、高價值的軟件工程任務時,他們仍比人類要差很多。

看完這個基準測試,網友表示,現在我們竟然需要測試大型語言模型是否能成為百萬富翁,這簡直瘋狂。

我很喜歡這個發展的方向。用全棧問題進行測試,將其與市場價值和開發工作的日常現實聯系起來。一直覺得以前的基準測試就不太準確。

百分之百確定o3在這方面會勝過Grok3。

將它與現實世界的任務和經濟價值聯系起來真是天才之舉,非常有趣。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2021-12-10 06:43:07

CS年薪計算機

2023-10-13 13:22:21

2025-03-05 11:26:33

機器人AI模型

2010-08-16 10:35:46

IT培訓機構

2012-05-21 10:00:54

程序員經驗分享勵志

2012-06-12 16:08:35

http:www.51cto.cedm

2015-07-07 10:11:28

2019-01-23 09:10:37

2020-08-06 09:55:09

華為禁令開發

2025-01-24 09:00:00

2025-02-19 15:40:00

OpenAI編程模型

2022-01-04 09:51:29

碼農編程開發

2017-11-30 09:32:36

2019-12-13 08:30:02

系統內存架構

2017-08-07 19:04:52

大數據編程語言薪資排行

2017-11-21 08:00:14

機器學習Twitter進階手冊

2018-07-11 09:10:25

2022-12-10 13:20:46

ChatGPT失業年薪

2020-07-06 09:31:29

黑客安全網絡

2017-12-14 13:28:25

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲欧美v| 日本精品999| 在线一区视频 | 午夜精品久久久久久久久久久久久 | 成人亚洲视频 | 欧美一区视频 | 亚洲免费三级 | 成人一级片在线观看 | 欧美视频免费在线 | 视频一区在线观看 | 国产电影一区二区 | 日韩视频区 | 一级毛片免费完整视频 | 中文字幕av一区 | 日韩av在线免费 | 中文久久 | 久久综合欧美 | 中文字幕av在线 | 蜜桃一区二区三区在线 | 久久91精品国产一区二区三区 | 国产精品久久久久久久久久软件 | 日韩精品视频在线 | 97精品超碰一区二区三区 | 久久久视频在线 | 亚洲欧美日韩精品久久亚洲区 | 国产乱码精品一区二区三区忘忧草 | 欧美精品一区在线发布 | 欧美精品一区二区三区在线播放 | 国产粉嫩尤物极品99综合精品 | 一级做a爰片性色毛片16 | 欧美一级做性受免费大片免费 | 中文字幕一区二区三 | 91就要激情 | 久久成人免费视频 | 日韩在线资源 | 国产精品福利久久久 | 成人伊人网 | 亭亭五月激情 | 亚洲精品久久久一区二区三区 | 日韩一区二区三区在线观看 | 高清亚洲 |