成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全球最強(qiáng)AI程序員:GPT-4o加持,需求到跑通只需84秒

人工智能
本周,一家 Y Combinator 支持,名為 Cosine 的創(chuàng)業(yè)公司宣布推出自己的全新自主 AI 工程師 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準(zhǔn)測試 SWE-Bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。

大模型正在「替代人類程序員」的道路上快速前進(jìn)。

今年 3 月,人工智能軟件工程師 Devin 引爆了 AI 社區(qū),該產(chǎn)品由 OpenAI 的 GPT-4 基礎(chǔ)大型語言模型(LLM)提供支持,可以在收到自然語言文本指令后自主編寫和編輯代碼。

但在生成式 AI 領(lǐng)域,快速發(fā)展是主旋律,現(xiàn)在技術(shù)又迭代了。

本周,一家 Y Combinator 支持,名為 Cosine 的創(chuàng)業(yè)公司宣布推出自己的全新自主 AI 工程師 Genie。該公司表示,Genie 的表現(xiàn)輕松超越了 Devin,在第三方基準(zhǔn)測試 SWE-Bench 上的得分為 30%,而 Devin 的得分僅為 13.8%。

新工具甚至超過了亞馬遜的 Q 和 Factory 的 Code Droid 的 19%,現(xiàn)在是全球性能最好的 AI 程序員。

圖片

Genie 在 SWE-Bench 基準(zhǔn)上的表現(xiàn),以及與其他 AI 代碼模型的比較。

「這個(gè)模型遠(yuǎn)不止是一個(gè)基準(zhǔn)跑分而已:它是以像人類 SWE(軟件工程師)一樣思考和行動(dòng)為目標(biāo)從頭開始訓(xùn)練的,」Cosine 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官 Alistair Pullen 表示。

圖片

會(huì)修 Bug,能寫代碼的 Genie

作為一種先進(jìn)的 AI 軟件工程模型,Genie 可以按照人類工程師的指示自主處理各種編碼任務(wù),包括 bug 修復(fù)、功能構(gòu)建、代碼重構(gòu)、代碼測試等。

Genie 可以完全自主運(yùn)行,也可以與用戶協(xié)作完成任務(wù)。

它支持多種編程語言,在技術(shù)報(bào)告中顯示,其中包括 JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。

Cosine 聲稱 Genie 可以模擬人類工程師的認(rèn)知過程。「讓它觀察人類工程師是如何工作的,并模仿這個(gè)過程。」Alistair Pullen 表示。

一直以來,安全問題是大家比較關(guān)心的,Genie 生成的代碼存儲(chǔ)在用戶的 GitHub 倉庫中,因而 Cosine 不會(huì)保留代碼副本,從而避免了隨之而來的安全風(fēng)險(xiǎn)。

此外,Cosine 的軟件平臺(tái)已經(jīng)集成了 Slack 和系統(tǒng)通知,它就像一位 AI 同事,提醒用戶狀態(tài)或標(biāo)記 issues。

Alistair Pullen 演示了如何使用 Genie 來解決實(shí)際問題。目標(biāo)是 GitHub 上的一個(gè) issue,我們只需要直接往里丟鏈接,AI 會(huì)自動(dòng)分析問題,自動(dòng)開始思考解決這個(gè)問題需要用到哪些文件,一直到滿足要求為止。

圖片

然后,Genie 會(huì)開始嘗試將問題分解成很多解決步驟,隨后生成代碼。

圖片

接著就是跑代碼了,如果生成的代碼有問題,它就自動(dòng)尋找出問題的地方進(jìn)行分析、修改,然后再嘗試運(yùn)行。

圖片

最后輸出結(jié)果:兩個(gè)文件、17 次測試,僅用時(shí) 84 秒。

圖片

這不知道比人類程序員要快上多少倍了。

長上下文由 OpenAI 模型提供支持

與許多依賴基礎(chǔ)模型并輔以少量工具的 AI 模型不同,Genie 是通過專有流程開發(fā)的。

就模型而言,Genie 基于(目前)非通用的 GPT-4o 變體構(gòu)建而成,OpenAI 允許 Cosine 將其作為實(shí)驗(yàn)訪問計(jì)劃的一部分進(jìn)行訓(xùn)練。

通過技術(shù)報(bào)告我們得知,當(dāng)研究者開始構(gòu)建 Genie 之初,他們只能在 16-32k 范圍內(nèi)微調(diào)相對(duì)較短的上下文窗口模型。

為了解決這一問題,團(tuán)隊(duì)人員對(duì)這些模型進(jìn)行了大量的早期探索,并在超過 1 億個(gè) token 的大量數(shù)據(jù)集上對(duì)它們進(jìn)行訓(xùn)練,雖然發(fā)現(xiàn)架構(gòu)具有一定優(yōu)勢,但還是面臨模型在特定時(shí)間內(nèi)可以處理的信息量的限制。

在嘗試了各種壓縮 / 分塊方法后,團(tuán)隊(duì)認(rèn)為唯一的解決方案是使用更大的上下文模型,盡管當(dāng)時(shí)沒有可供使用的模型。

幸運(yùn)的是,不久之后,能夠確保訓(xùn)練長上下文的 OpenAI 模型出現(xiàn)了。

Cosine 在其博客文章中表示,他們花了將近一年的時(shí)間來整理數(shù)據(jù)集,在最近的訓(xùn)練運(yùn)行中,Genie 接受了數(shù)十億個(gè) token 數(shù)據(jù)的訓(xùn)練,選擇的數(shù)據(jù)包含了用戶目前最關(guān)心的編程語言。以下是訓(xùn)練 Genie 的過程中不同編程語言數(shù)據(jù)所占的比例:

圖片

以下是 Bug 修復(fù)、重構(gòu)等不同功能的數(shù)據(jù)占比:

圖片

在價(jià)格方面,據(jù) Pullen 透漏, Genie  最初定價(jià)將分為兩個(gè)層級(jí):

  • 入門級(jí)選項(xiàng),定價(jià)大約在 20 美元左右。這個(gè)層級(jí)會(huì)有一些功能和使用限制,適合個(gè)人和小型團(tuán)隊(duì)使用;
  • 企業(yè)級(jí)選項(xiàng),提供擴(kuò)展功能,使用幾乎不受限制,好比擁有了一個(gè)精通代碼的 AI 同事。但這個(gè)層級(jí)的定價(jià)將更高。

Genie 的推出對(duì)軟件開發(fā)團(tuán)隊(duì)具有深遠(yuǎn)的影響,特別是那些希望提高生產(chǎn)力并減少花在日常任務(wù)上的時(shí)間的團(tuán)隊(duì)。憑借其自主處理復(fù)雜編程挑戰(zhàn)的能力,Genie 可能會(huì)改變工程資源的分配方式,使團(tuán)隊(duì)能夠?qū)W⒂诟邞?zhàn)略性的計(jì)劃。

 Pullen 表示,對(duì)于他來說,工程資源不再成為限制是一個(gè)巨大的推動(dòng)力,特別是在創(chuàng)辦公司以來。他認(rèn)為,一個(gè)能夠快速進(jìn)入未知代碼庫并解決未見過的問題的 AI 同事,其價(jià)值顯而易見,并且對(duì)世界有著巨大的影響。 

未來,該公司打算擴(kuò)大其模型組合,包括用于簡單任務(wù)的小模型和能夠處理更復(fù)雜挑戰(zhàn)的大模型。此外,Cosine 還計(jì)劃將其工作拓展到開源社區(qū)。 

現(xiàn)在 Genie 已向部分用戶推出,但更廣泛的訪問權(quán)限還未完全開放。

申請(qǐng)地址:https://cosine.sh/register

創(chuàng)始團(tuán)隊(duì):只有五人

提出 Genie 的創(chuàng)業(yè)公司 Cosine 由 Pullen、Sam Stenner 和 Yang Li 于 2022 年創(chuàng)立,其使命是通過應(yīng)用人類推理的方式來解決復(fù)雜問題,從而突破 AI 的界限。顯然,他們的努力是從軟件工程開始。


圖片

其中,Yang Li 是一名華人,他碩士畢業(yè)于牛津大學(xué),在 2021 年曾入選過福布斯 30 Under 30 歐洲區(qū)名單。

Cosine 已經(jīng)從 Uphonest 和 SOMA Capital 籌集了 250 萬美元的種子資金,Lakestar、Focal 等公司也參與其中。

團(tuán)隊(duì)規(guī)模雖小,但 Cosine 已經(jīng)在 AI 領(lǐng)域取得了重大進(jìn)展,而 Genie 只是一個(gè)開始。

「我們堅(jiān)信能夠?yàn)槿魏喂ぷ骱托袠I(yè)構(gòu)建起人類級(jí)別的推理能力,」Pullen 在公告文章中表示。「軟件工程只是最直觀的起點(diǎn),我們很快將會(huì)展示出我們正在研究的其他一切。」

參考內(nèi)容:

https://venturebeat.com/ai/4-considerations-to-help-organizations-implement-an-ai-code-of-conducts/

https://cosine.sh/blog/genie-technical-report

https://cosine.sh/blog/state-of-the-art

責(zé)任編輯:龐桂玉 來源: 機(jī)器之心
相關(guān)推薦

2024-11-28 15:51:19

GPT-4o微軟

2024-08-13 13:50:00

數(shù)據(jù)模型

2016-11-24 15:32:35

云計(jì)算

2024-05-21 12:23:17

2024-05-14 11:29:15

2024-06-11 14:47:23

2024-06-05 08:29:35

2024-11-06 15:20:00

2024-06-11 07:26:28

2025-01-16 16:39:44

2025-01-06 13:15:02

2025-01-03 10:55:22

2024-04-03 12:18:45

AI訓(xùn)練

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-30 12:50:05

2024-05-24 14:04:04

2024-06-21 09:51:17

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2025-05-26 09:05:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧洲毛片| 91精品麻豆日日躁夜夜躁 | 欧美一级片久久 | 欧美亚洲在线视频 | 麻豆久久久久久久 | 日韩久久久久 | 中文字幕在线免费 | 亚洲一二三区不卡 | 成人国产免费视频 | 久久久久一区二区三区 | 亚洲一区二区三区视频在线 | 成人免费淫片aa视频免费 | 337p日本欧洲亚洲大胆精蜜臀 | 国产精品久久久久久久免费大片 | 午夜免费网站 | 91视频免费观看 | 中文字幕一区二区三区四区不卡 | www成人免费视频 | 91色在线 | 成人av片在线观看 | 中文字幕在线看第二 | 国产一区二区视频免费在线观看 | 久干网 | 黄网站在线播放 | 九色 在线 | 婷婷综合激情 | 国产日韩欧美在线观看 | 久久久久国| 亚洲日本一区二区三区四区 | 久热久热 | 一区二区三区亚洲精品国 | 欧美成人一区二区 | 日韩欧美亚洲一区 | 欧美性久久 | 狠狠操天天操 | 神马久久久久久久久久 | 色综合区| 第一福利社区1024 | 精品视频免费 | 人人看人人射 | 日韩精品一区在线观看 |