OpenAI研究人員發(fā)現(xiàn)，AI無(wú)法解決大多數(shù)編程問(wèn)題

作者：Yu 2025-02-25 10:21:12

盡管這些大模型在過(guò)去幾年里發(fā)展迅速，而且很可能會(huì)繼續(xù)發(fā)展，但他們?cè)谲浖こ谭矫娴募寄苓€不足以取代現(xiàn)實(shí)生活中的人，這并不妨礙首席執(zhí)行官們解雇他們的人類程序員，轉(zhuǎn)而支持不成熟的人工智能模型。

2月24日消息，據(jù)外媒報(bào)道，OpenAI的研究人員承認(rèn)，即使是最先進(jìn)的AI模型仍然無(wú)法與人類程序員匹敵，盡管首席執(zhí)行官山姆·奧特曼(Sam?Altman)堅(jiān)稱，到今年年底，他們將能夠擊敗“低級(jí)”的軟件工程師。

在一篇新論文中，該公司的研究人員發(fā)現(xiàn)，即使是前沿模型，或最先進(jìn)、最具突破邊界的人工智能系統(tǒng)，“仍然無(wú)法解決大多數(shù)”編碼任務(wù)。

研究人員使用了一種名為sw-lancer的新開(kāi)發(fā)基準(zhǔn)，該基準(zhǔn)基于自由職業(yè)者網(wǎng)站Upwork的1400多個(gè)軟件工程任務(wù)。使用這個(gè)基準(zhǔn)，OpenAI測(cè)試了三個(gè)大模型，它自己的o1推理模型和旗艦GPT-4o，以及Anthropic的克勞德3.5十四行詩(shī)。

具體地說(shuō)，新的基準(zhǔn)評(píng)估了大模型對(duì)Upwork中的兩種任務(wù)的執(zhí)行情況：?jiǎn)蝹€(gè)任務(wù)，涉及解決錯(cuò)誤并實(shí)現(xiàn)對(duì)它們的修復(fù)，或者管理任務(wù)，看到模型試圖縮小并做出更高級(jí)別的決策。

這些模型在Upwork上承擔(dān)了累積價(jià)值數(shù)十萬(wàn)美元的任務(wù)，但它們只能修復(fù)表面的軟件問(wèn)題，而無(wú)法在更大的項(xiàng)目中找到BUG或找到它們的根本原因。

這篇論文指出，盡管這三位大模型通常能夠“比人類快得多”地操作，但他們也未能把握漏洞的普遍程度或理解它們的背景，“導(dǎo)致解決方案不正確或不夠全面。”

正如研究人員解釋的那樣，Claude?3.5?Sonnet比兩個(gè)OpenAI模型表現(xiàn)得更好，比o1和GPT-40賺得更多。盡管如此，它的大多數(shù)答案都是錯(cuò)誤的，根據(jù)研究人員的說(shuō)法，任何模型都需要“更高的可靠性”來(lái)信任現(xiàn)實(shí)生活中的編碼任務(wù)。

更直白地說(shuō)，這篇論文似乎表明，盡管這些前沿模型可以快速工作并解決放大任務(wù)，但它們?cè)谔幚磉@些任務(wù)方面遠(yuǎn)不如人類工程師熟練。

責(zé)任編輯：姜華來(lái)源：比特網(wǎng)

大模型 AI 人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI研究人員發(fā)現(xiàn)，AI無(wú)法解決大多數(shù)編程問(wèn)題