成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI霸榜前二!大模型代碼生成排行榜出爐,70億LLaMA拉跨,被2.5億Codex吊打

人工智能 新聞
國外計算機科學家自測LLM代碼生成,結果竟然是這樣!

最近,Matthias Plappert的一篇推文點燃了LLMs圈的廣泛討論。

圖片

Plappert是一位知名的計算機科學家,他在HumanEval上發布了自己對AI圈主流的LLM進行的基準測試結果。

他的測試偏向代碼生成方面。

結果令人大為不震撼,又大為震撼。

圖片

意料之內的是,GPT-4毫無疑問霸榜,摘得第一。

意料之外的是,OpenAI的text-davinci-003異軍突起,拿了個第二。

Plappert表示,text-davinci-003堪稱一個「寶藏」模型。

而耳熟能詳的LLaMA在代碼生成方面卻并不出色。

OpenAI霸榜

Plappert表示,GPT-4的性能表現甚至比文獻中的數據還要好。

論文中GPT-4的一輪測試數據是67%的通過率,而Plappert的測試則達到了73%。

圖片

在分析成因時,他表示,數據上存在差異有不少可能性。其中之一是他給到GPT-4的prompt要比論文作者測試的時候好上那么一些。

另一個原因是,他猜測論文在測試GPT-4的時候模型的溫度(temperature)不是0。

「溫度」是一個用于調整模型生成文本時創造性和多樣性的參數?!笢囟取故且粋€大于0的數值,通常在 0 到 1 之間。它影響模型生成文本時采樣預測詞匯的概率分布。

當模型的「溫度」較高時(如 0.8、1 或更高),模型會更傾向于從較多樣且不同的詞匯中選擇,這使得生成的文本風險性更高、創意性更強,但也可能產生更多的錯誤和不連貫之處。

而當「溫度」較低時(如 0.2、0.3 等),模型主要會從具有較高概率的詞匯中選擇,從而產生更平穩、更連貫的文本。

但此時,生成的文本可能會顯得過于保守和重復。

因此在實際應用中,需要根據具體需求來權衡選擇合適的「溫度」值。

接下來,在點評text-davinci-003時,Plappert表示這也是OpenAI旗下一個很能打的模型。

雖然不比GPT-4,但是一輪測試有62%的通過率還是能穩穩拿下第二名的寶座。

Plappert強調,text-davinci-003最好的一點是,用戶不需要使用ChatGPT的API。這意味著給prompt的時候能簡單一點。

圖片

此外,Plappert也給予了Anthropic AI的claude-instant模型比較高的評價。

他認為這個模型的性能不錯,比GPT-3.5能打。GPT-3.5的通過率是46%,而claude-instant是54%。

當然,Anthropic AI的另一個LLM——claude,沒有claude-instant能打,通過率只有51%。

Plappert表示,測試兩個模型用的prompt都一樣,不行就是不行。

圖片

除了這些耳熟能詳的模型,Plappert也測試了不少開源的小模型。

Plappert表示,自己能在本地運行這些模型,這點還是不錯的。

不過從規模上看,這些模型顯然沒有OpenAI和Anthropic AI的模型大,所以硬拿它們對比有點以大欺小了。

圖片

LLaMA代碼生成?拉胯

當然,Plappert對LLaMA的測試結果并不滿意。

從測試結果來看,LLaMA在生成代碼方面表現很差勁。可能是因為他們在從GitHub收集數據時采用了欠采樣的方法(under-sampling)。

圖片

就算和Codex 2.5B相比,LLaMA的性能也不是個兒。(通過率10% vs. 22%)

圖片

最后,他測試了Replit的3B大小的模型。

他表示,表現還不錯,但和推特上宣傳的數據相比差點意思(通過率16% vs. 22%)

Plappert認為,這可能是因為他在測試這個模型時所用的量化方式讓通過率掉了幾個百分比。

圖片

在測評的最后,Plappert提到了一個很有意思的點。

某位用戶在推特上發現,當使用Azure平臺的Completion API(補全API)(而不是Chat API)時,GPT-3.5-turbo的性能表現更好。

Plappert認為這種現象具有一定合理性,因為通過Chat API輸入prompt可能會相當復雜。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-01-16 15:19:52

APP下載抖音

2023-06-09 12:56:17

AlpacaWizardLMVicuna

2022-06-08 13:50:41

AI專業排行

2018-09-18 15:48:03

PythonC++Java

2020-08-13 11:55:33

編程語言JavaPython

2022-08-09 08:29:50

TIOBE編程語言排行榜程序員

2011-11-03 11:02:00

瀏覽器排行榜

2022-12-14 07:28:31

2009-08-11 09:27:06

2023-07-22 13:09:51

模型開源

2023-06-02 13:55:57

開源AI

2021-05-12 13:56:05

手機華為蘋果

2013-08-23 09:41:19

2012-03-22 14:18:11

大數據

2009-04-09 08:46:02

iphone蘋果移動OS

2009-09-02 09:56:00

Android Mar

2014-12-16 13:05:24

2022-06-21 14:15:27

編程語言PythonPHP

2014-11-26 10:49:32

編程語言

2022-06-17 12:10:07

RPA機器人流程自動化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品视频一区 | 97超碰成人 | 亚洲午夜精品一区二区三区他趣 | 国产亚洲精品综合一区 | 久色视频在线 | 性色av网站 | 日韩一区二 | 天天综合久久 | 亚洲精品区 | 国产激情毛片 | 久久精品久久久 | 九九色综合 | 国产精品久久久久久久久久妞妞 | 欧美激情精品久久久久 | 精品国产欧美日韩不卡在线观看 | av手机在线免费观看 | 精品国产一区二区在线 | 成人欧美一区二区三区黑人孕妇 | 久久av网站| 欧美视频精品 | 免费精品视频一区 | 日日碰碰 | av网站在线免费观看 | 久草久草久草 | 青青久久久 | 亚洲综合婷婷 | 中文区中文字幕免费看 | 亚洲精品久久久久久久久久久 | 毛片视频免费 | 国产99热在线 | 成人三级视频 | 高清国产午夜精品久久久久久 | 亚洲黄色国产 | 99reav| 免费观看一级特黄欧美大片 | 国产精品久久久久久吹潮 | 国产高清视频一区 | 精品一区二区三区在线观看国产 | 欧美成人一区二区 | 欧美国产亚洲一区二区 | 国产精品我不卡 |