開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star

輕薄滴假象

發布于 2024-4-3 12:16

瀏覽

0收藏

最近，有很多人在為 AI 代替自己的工作而擔憂。

上個月火遍 AI 圈的「首位 AI 程序員」Devin，利用大模型能力已經掌握了全棧技能，僅需要人類給出自然語言指令，就可以自動完成復雜的代碼任務。

Devin 展示的能力非常驚艷，不過這款工具出自走閉源路線的創業公司，現在只有一小部分獲得了內測名額的人才能使用。

本周二，來自普林斯頓大學 NLP 組的研究人員放出了 SWE-agent —— 一個開源版 AI 程序員，不到一天就獲得了上千的 GitHub Star 量。

開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star-AI.x社區

SWE-agent 是一款用于自主解決 GitHub 存儲庫中問題的新系統。它在 SWE-bench 上獲得了與 Devin 相似的準確度，平均耗時為 93 秒。

開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star-AI.x社區

項目網站：https://swe-agent.com/
GitHub：https://github.com/princeton-nlp/SWE-agent?

該項目的作者 John Yang 表示，相關論文的預印版也將在 4 月 10 號上傳。

從原理上看，SWE-agent 通過將大模型（例如 GPT-4）轉變為軟件工程智能體，可以修復真實 GitHub 存儲庫中的錯誤和問題。

在完整的 SWE-bench 測試集上，SWE-agent 解決了 12.29% 的問題，實現了 SOTA 性能。

開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star-AI.x社區

為了提供開發過程中的自動化，SWE-agent 通過與專用終端交互來工作，它可以打開、搜索文件內容，使用自動語法檢查、編輯特定行，也可以編寫并執行測試。

該項目的開發者精心設計了 UI 界面，并在 GitHub 上進行了介紹。

智能體 - 計算機接口 (ACI)

研究團隊設計了簡單的以大模型（LM）為中心的命令和反饋格式，使大模型能夠更方便地瀏覽存儲庫、查看、編輯和執行代碼文件，這被稱為智能體 - 計算機接口 (ACI)。研究團隊還構建了 SWE 智能體存儲庫，以便輕松迭代存儲庫級編碼智能體的 ACI 設計。

就像語言模型需要良好的提示工程（prompt engineering）一樣，良好的 ACI 設計在使用智能體時會帶來更好的結果。沒有經過良好調整的 ACI 的基線智能體的表現比 SWE-agent 差得多。

SWE-agent 包含研究團隊在智能體 - 計算機接口設計過程中發現的非常有用的功能，包括：

1. 添加一個在發出編輯命令時運行的 linter，如果代碼語法不正確，則不會讓編輯命令通過。

2. 為智能體提供一個專門構建的文件查看器。研究團隊發現此文件查看器在每輪僅顯示 100 行時效果最佳，并且該文件編輯器具有上下滾動以及在文件中執行搜索的命令。

3. 為智能體提供專門構建的全目錄字符串搜索命令。研究團隊發現該工具簡潔地列出匹配項非常重要 —— 只需列出至少有一個匹配項的每個文件。該研究表明，向模型顯示有關每個匹配的更多上下文對于模型來說太混亂了。

4. 當命令的輸出為空時，返回一條消息：「您的命令已成功運行，但未產生任何輸出」。

未來發布的論文將詳述更多信息。

安裝與使用

要使用 SWE-agent，首先要設置好如下條件：

1. 安裝 Docker，并在本地啟動 Docker；

2. 安裝 Miniconda，并使用 conda env create -fenvironment.yml 創建 swe-agent 環境；

3. 使用 conda activate swe-agent 激活；

4. 運行 ./setup.sh 創建 swe-agent docker 鏡像；

5. 在此存儲庫的根目錄下創建一個 keys.cfg 文件并填寫以下內容：

OPENAI_API_KEY: 'OpenAI API Key Here if using OpenAI Model (optional)'
ANTHROPIC_API_KEY: 'Anthropic API Key Here if using Anthropic Model (optional)'
GITHUB_TOKEN: 'GitHub Token Here (required)'

SWE-agent pipeline 包含兩個步驟：

第一步：SWE-agent 接收輸入的 GitHub 問題，并返回嘗試修復它的拉取請求（pull request）；
第二步：評估拉取請求以驗證它確實解決了問題（目前僅適用于 SWE-bench 基準測試中的問題）。

如果想在整個 SWE-bench 上運行和評估，最簡單的方法是使用 x86 機器。

python run.py --model_name gpt4 \
  --data_path https://github.com/pvlib/pvlib-python/issues/1603 --config_file config/default_from_url.yaml

python run.py --model_name gpt4 \
  --per_instance_cost_limit 2.00 \
  --config_file ./config/default.yaml

如果想運行 SWE-bench 中的單個問題，可以使用 --instance_filter：

python run.py --model_name gpt4 \
  --instance_filter marshmallow-code__marshmallow-1359

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/1nQhMYYeMg7oRiABcaVZlw??

標簽

開源 AI

贊

回復

舉報

回復

相關推薦

谷歌美女程序員手搓矩陣乘法內核

duhorse ? 4705瀏覽 ? 0回復
GPT-4 Turbo更新：視覺能力+無限制使用

echo_ning ? 4316瀏覽 ? 0回復
看懂網飛版「三體」！Reka Core登場：挑戰GPT-4、Claude 3

duhorse ? 3061瀏覽 ? 0回復
Meta 發布Llama 3，能力直逼GPT-4,一己之力拉高開源大模型水位

51CTO技術棧 ? 4464瀏覽 ? 0回復
他12歲就能寫代碼，為數百萬程序員引路~

wx65af60231fbe2 ? 2923瀏覽 ? 1回復
超越GPT-4o，Claude 3.5一夜封王！10倍編碼速度逆天，全網最全實測來了

duhorse ? 4498瀏覽 ? 0回復
一張圖生成繪畫全過程，兩天狂攬1.4k Star

輕薄滴假象 ? 3218瀏覽 ? 0回復
最強AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團隊僅5人

Crystalcxt ? 2448瀏覽 ? 0回復
【好禮贏不停】1024程序員嘉年華！在這里集結

AI.x社區官方賬號 ? 1.3w瀏覽 ? 15回復
PHP程序員學習AI的學習心得

龐然大悟 ? 2051瀏覽 ? 0回復
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 2206瀏覽 ? 0回復
首個AI Agent程序員商業化，比ChatGPT Pro貴2倍

Aceryt ? 2504瀏覽 ? 0回復
小模型界o1來了：微軟推出Phi-4，數學推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術棧 ? 2521瀏覽 ? 0回復
擊敗99.9%的程序員！o3來了！AGI測試實現躍升！網友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術棧 ? 3408瀏覽 ? 0回復
OpenAI砸碎了程序員的飯碗

AI論文解讀 ? 1999瀏覽 ? 0回復
世界第一位AI程序員Devin：20項任務只完成了3項！14項任務徹底失敗！

51CTO技術棧 ? 2091瀏覽 ? 0回復
暴論：2025年，程序員必學技能就是 MCP

玄姐聊AGI ? 4112瀏覽 ? 0回復
使用Claude 4提升程序員生產力的五種高級方式

51CTO內容精選 ? 1202瀏覽 ? 0回復
免費AI Agent發布，程序員狂喜

探索AGI ? 1098瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star

智能體 - 計算機接口 (ACI)

安裝與使用

目錄