OpenAI霸榜前二!大模型代碼生成排行榜出爐,70億LLaMA拉跨,被2.5億Codex吊打
最近,Matthias Plappert的一篇推文點燃了LLMs圈的廣泛討論。
Plappert是一位知名的計算機科學家,他在HumanEval上發布了自己對AI圈主流的LLM進行的基準測試結果。
他的測試偏向代碼生成方面。
結果令人大為不震撼,又大為震撼。
意料之內的是,GPT-4毫無疑問霸榜,摘得第一。
意料之外的是,OpenAI的text-davinci-003異軍突起,拿了個第二。
Plappert表示,text-davinci-003堪稱一個「寶藏」模型。
而耳熟能詳的LLaMA在代碼生成方面卻并不出色。
OpenAI霸榜
Plappert表示,GPT-4的性能表現甚至比文獻中的數據還要好。
論文中GPT-4的一輪測試數據是67%的通過率,而Plappert的測試則達到了73%。
在分析成因時,他表示,數據上存在差異有不少可能性。其中之一是他給到GPT-4的prompt要比論文作者測試的時候好上那么一些。
另一個原因是,他猜測論文在測試GPT-4的時候模型的溫度(temperature)不是0。
「溫度」是一個用于調整模型生成文本時創造性和多樣性的參數?!笢囟取故且粋€大于0的數值,通常在 0 到 1 之間。它影響模型生成文本時采樣預測詞匯的概率分布。
當模型的「溫度」較高時(如 0.8、1 或更高),模型會更傾向于從較多樣且不同的詞匯中選擇,這使得生成的文本風險性更高、創意性更強,但也可能產生更多的錯誤和不連貫之處。
而當「溫度」較低時(如 0.2、0.3 等),模型主要會從具有較高概率的詞匯中選擇,從而產生更平穩、更連貫的文本。
但此時,生成的文本可能會顯得過于保守和重復。
因此在實際應用中,需要根據具體需求來權衡選擇合適的「溫度」值。
接下來,在點評text-davinci-003時,Plappert表示這也是OpenAI旗下一個很能打的模型。
雖然不比GPT-4,但是一輪測試有62%的通過率還是能穩穩拿下第二名的寶座。
Plappert強調,text-davinci-003最好的一點是,用戶不需要使用ChatGPT的API。這意味著給prompt的時候能簡單一點。
此外,Plappert也給予了Anthropic AI的claude-instant模型比較高的評價。
他認為這個模型的性能不錯,比GPT-3.5能打。GPT-3.5的通過率是46%,而claude-instant是54%。
當然,Anthropic AI的另一個LLM——claude,沒有claude-instant能打,通過率只有51%。
Plappert表示,測試兩個模型用的prompt都一樣,不行就是不行。
除了這些耳熟能詳的模型,Plappert也測試了不少開源的小模型。
Plappert表示,自己能在本地運行這些模型,這點還是不錯的。
不過從規模上看,這些模型顯然沒有OpenAI和Anthropic AI的模型大,所以硬拿它們對比有點以大欺小了。
LLaMA代碼生成?拉胯
當然,Plappert對LLaMA的測試結果并不滿意。
從測試結果來看,LLaMA在生成代碼方面表現很差勁。可能是因為他們在從GitHub收集數據時采用了欠采樣的方法(under-sampling)。
就算和Codex 2.5B相比,LLaMA的性能也不是個兒。(通過率10% vs. 22%)
最后,他測試了Replit的3B大小的模型。
他表示,表現還不錯,但和推特上宣傳的數據相比差點意思(通過率16% vs. 22%)
Plappert認為,這可能是因為他在測試這個模型時所用的量化方式讓通過率掉了幾個百分比。
在測評的最后,Plappert提到了一個很有意思的點。
某位用戶在推特上發現,當使用Azure平臺的Completion API(補全API)(而不是Chat API)時,GPT-3.5-turbo的性能表現更好。
Plappert認為這種現象具有一定合理性,因為通過Chat API輸入prompt可能會相當復雜。