OpenAI研究人員發(fā)現(xiàn),AI無(wú)法解決大多數(shù)編程問(wèn)題
2月24日消息,據(jù)外媒報(bào)道,OpenAI的研究人員承認(rèn),即使是最先進(jìn)的AI模型仍然無(wú)法與人類程序員匹敵,盡管首席執(zhí)行官山姆·奧特曼(Sam?Altman)堅(jiān)稱,到今年年底,他們將能夠擊敗“低級(jí)”的軟件工程師。
在一篇新論文中,該公司的研究人員發(fā)現(xiàn),即使是前沿模型,或最先進(jìn)、最具突破邊界的人工智能系統(tǒng),“仍然無(wú)法解決大多數(shù)”編碼任務(wù)。
研究人員使用了一種名為sw-lancer的新開(kāi)發(fā)基準(zhǔn),該基準(zhǔn)基于自由職業(yè)者網(wǎng)站Upwork的1400多個(gè)軟件工程任務(wù)。使用這個(gè)基準(zhǔn),OpenAI測(cè)試了三個(gè)大模型,它自己的o1推理模型和旗艦GPT-4o,以及Anthropic的克勞德3.5十四行詩(shī)。
具體地說(shuō),新的基準(zhǔn)評(píng)估了大模型對(duì)Upwork中的兩種任務(wù)的執(zhí)行情況:?jiǎn)蝹€(gè)任務(wù),涉及解決錯(cuò)誤并實(shí)現(xiàn)對(duì)它們的修復(fù),或者管理任務(wù),看到模型試圖縮小并做出更高級(jí)別的決策。
這些模型在Upwork上承擔(dān)了累積價(jià)值數(shù)十萬(wàn)美元的任務(wù),但它們只能修復(fù)表面的軟件問(wèn)題,而無(wú)法在更大的項(xiàng)目中找到BUG或找到它們的根本原因。
這篇論文指出,盡管這三位大模型通常能夠“比人類快得多”地操作,但他們也未能把握漏洞的普遍程度或理解它們的背景,“導(dǎo)致解決方案不正確或不夠全面。”
正如研究人員解釋的那樣,Claude?3.5?Sonnet比兩個(gè)OpenAI模型表現(xiàn)得更好,比o1和GPT-40賺得更多。盡管如此,它的大多數(shù)答案都是錯(cuò)誤的,根據(jù)研究人員的說(shuō)法,任何模型都需要“更高的可靠性”來(lái)信任現(xiàn)實(shí)生活中的編碼任務(wù)。
更直白地說(shuō),這篇論文似乎表明,盡管這些前沿模型可以快速工作并解決放大任務(wù),但它們?cè)谔幚磉@些任務(wù)方面遠(yuǎn)不如人類工程師熟練。
盡管這些大模型在過(guò)去幾年里發(fā)展迅速,而且很可能會(huì)繼續(xù)發(fā)展,但他們?cè)谲浖こ谭矫娴募寄苓€不足以取代現(xiàn)實(shí)生活中的人,這并不妨礙首席執(zhí)行官們解雇他們的人類程序員,轉(zhuǎn)而支持不成熟的人工智能模型。