成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT編程準確率暴降13%!UIUC&南大新基準讓AI代碼現原形了

人工智能
根據新的評估標準,大模型們的準確率平均下降了15%,其中比較廣泛研究的CODEGEN-16B更是下降了超過18%。至于ChatGPT和GPT-4生成代碼的性能,也下降了至少13%。

用ChatGPT寫代碼,已經是不少程序員的常規操作了。

圖片

△“至少提速3~5倍”

但你有沒有想過,ChatGPT生成的代碼,有不少只是“看起來準確”而已?

來自伊利諾伊大學香檳分校和南京大學的一項最新研究表明:

ChatGPT和GPT-4生成代碼的準確率,比之前評估的至少要降低13%

圖片

有網友感嘆,太多ML論文都在用一些有問題或有局限性的基準來評估模型,來短暫地達到“SOTA”,結果換個測評方法就現出原形了。

圖片

還有網友表示,這也說明大模型生成的代碼仍然需要人工監督,“AI寫代碼的黃金時間還沒到呢”。

圖片

所以,論文提出了一種怎樣的新測評方法?

給AI代碼考題加大難度

這個新方法名叫EvalPlus,是一個自動化代碼評估框架。

具體來說,它會通過改進現有評估數據集的輸入多樣性和問題描述準確性,來將這些評估基準變得更嚴格。

一方面是輸入多樣性。EvalPlus會先根據標準答案,用ChatGPT生成一些種子輸入樣例(雖然要測ChatGPT的編程能力,但用它生成種子輸入似乎也不矛盾doge)

隨后,用EvalPlus改進這些種子輸入,將它們改得更難、更復雜、更刁鉆。

另一方面是問題描述準確性。EvalPlus會將代碼需求描述改得更精確,在約束輸入條件的同時,補充自然語言問題描述,以提高對模型輸出的精確度要求。

圖片

這里,論文選擇了HUMANEVAL數據集作為示范。

HUMANEVAL是OpenAI和Anthropic AI一起制作的代碼數據集,包含164個原創編程題,涉及語言理解、算法、數學和軟件面試幾種類型的題目。

EvalPlus會通過改進這類數據集的輸入類型和功能描述,讓編程問題看起來更清晰,同時用于測試的輸入更“刁鉆”或是更困難。

以其中的一道求并集編程題為例,要求AI寫一段代碼,找出兩個數據列表中的共同元素,并給這些元素排序。

EvalPlus用它來測測ChatGPT寫的代碼準確度。

首先用幾個簡單輸入進行測試,發現ChatGPT能輸出正確答案。但如果換個輸入,就找出了ChatGPT版代碼的bug:

圖片

屬實是給AI們加大了考題難度。

圖片

基于這套方法,EvalPlus還做了一個改進版HUMANEVAL+數據集,增加輸入的同時,修正了一些HUMANEVAL里面答案就有問題的編程題。

圖片

那么,在這套“新考題”下,大語言模型們的準確率實際上要打幾折?

LLM代碼準確率平均降低15%

作者們測試了當前比較受歡迎的10種代碼生成AI。

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。

從表格中來看,經過嚴格測試后,這群AI的生成準確率都有所下降:

圖片

這里會通過一種名叫pass@k的方法評估準確率,其中k是允許大模型給問題生成的程序數量,n是用于測試的輸入數量,c是正確的輸入數量:

圖片

根據新的這套評估標準,大模型們的準確率平均下降了15%,其中比較廣泛研究的CODEGEN-16B更是下降了超過18%。

至于ChatGPT和GPT-4生成代碼的性能,也下降了至少13%。

不過,也有網友表示,大模型生成的代碼效果沒那么好,已經是“眾所周知的事實”了,需要研究的是“為什么大模型寫的代碼不能用”。

圖片


責任編輯:姜華 來源: 量子位
相關推薦

2025-05-26 08:33:00

2023-05-04 09:39:16

AI模型

2023-05-15 13:55:28

2011-03-30 20:36:45

2024-11-11 10:00:00

ChatGPT模型

2023-06-01 17:44:52

ChatGPTOpenAI性能

2022-04-13 10:31:04

微軟Jigsaw大型語言模型

2018-11-14 10:01:30

谷歌開源機器學習

2023-02-03 12:50:29

ChatGPTAI數據集

2023-11-08 08:38:43

2024-10-21 14:16:36

2020-10-09 08:31:00

AI

2023-10-26 08:40:15

模型隱私推理

2022-08-02 14:45:16

AI微軟工具

2024-01-05 08:44:52

2022-04-22 10:29:46

機器學習數據集計算

2023-08-15 14:55:57

2022-09-14 09:55:32

人工智能AI解碼技術

2020-11-20 17:03:11

AI 數據人工智能

2023-06-21 09:15:30

AI 技術神經網絡
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品亚洲精品国产欧美 | 日韩在线观看一区 | 古装人性做爰av网站 | 亚洲视频免费观看 | 8x国产精品视频一区二区 | 精品国产乱码久久久久久果冻传媒 | 91在线看网站| 亚洲视频免费在线观看 | 毛片网在线观看 | 精品国产一区二区三区久久久四川 | 亚洲综合色网站 | 精品国产一区二区三区四区在线 | 黄色在线免费观看视频网站 | 丁香婷婷在线视频 | 亚洲网站在线播放 | 亚洲国产一区在线 | а√中文在线8 | 成人av网站在线观看 | 成人精品一区二区三区中文字幕 | 午夜日韩精品 | 日本精品久久久久久久 | 亚洲综合色网 | 欧美成人一区二区 | av一区二区三区四区 | 中文字幕免费中文 | 视频一区二区在线观看 | 国产美女在线免费观看 | 国产色播av在线 | 国产成人av在线 | 日本不卡一区二区三区在线观看 | 亚洲国产精品视频一区 | 久久网一区二区 | 羞羞视频网站免费观看 | 亚洲精品一区二区三区 | 午夜小电影 | 成人久久网 | 欧美中文一区 | 国产精品久久久 | 国产一区二区自拍 | av二区三区 | 91天堂网|