成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越所有開源模型,擊敗 Claude、Bard,專門用于編程任務的大模型來了

人工智能 新聞
開源 LLM 的性能越來越好了。

最近一段時間,隨著大語言模型(LLM)的不斷發(fā)布,LLM 排位賽也變得火熱起來,研究者們試圖在新的 LLM 評測系統(tǒng)中不斷刷新自家模型的分數(shù)。

在這當中,斯坦福發(fā)布的全新大語言模型排行榜 AlpacaEval 比較出圈,它是一種基于 LLM 的全自動評估基準,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜單。

前段時間,來自微軟的華人團隊發(fā)布的 WizardLM(是一個經(jīng)過微調(diào)的 7B LLaMA 模型)在一眾模型中獲得第四名的好成績,排在其前面的分別是 GPT-4、Claude 以及 ChatGPT,可見,WizardLM 成績還是很能打的。

近日,WizardLM 團隊又發(fā)布了新的 WizardCoder-15B 大模型。至于原因,該研究表示生成代碼類的大型語言模型(Code LLM)如 StarCoder,已經(jīng)在代碼相關任務中取得了卓越的性能。然而,大多數(shù)現(xiàn)有的模型僅僅是在大量的原始代碼數(shù)據(jù)上進行預訓練,而沒有進行指令微調(diào)。因而該研究提出了 WizardCoder,它通過將 Evol-Instruct(該方法生成具有不同難度級別的指令)方法應用于代碼領域,為 Code LLM 提供復雜的指令微調(diào)。

在 HumanEval、HumanEval+、MBPP 以及 DS1000 四個代碼生成基準測試中,WizardCoder 在很大程度上超過了所有其他開源 Code LLM。此外,WizardCoder 在 HumanEval 和 HumanEval + 上的表現(xiàn)甚至超過了最大的閉源 LLM,如 Anthropic 的 Claude 和谷歌的 Bard。

圖片

  • 論文地址:https://arxiv.org/pdf/2306.08568.pdf
  • 代碼地址:https://github.com/nlpxucan/WizardLM

在方法上,該研究表示受到 WizardLM 提出的 Evol-Instruct 方法的啟發(fā),除此以外,該研究還嘗試將代碼指令變得更加復雜,以提高代碼預訓練大模型的微調(diào)效果。

在代碼生成領域,統(tǒng)一的代碼 prompt 模板如下:

圖片

本文使用的五種類型如下:

圖片

該研究采用以下過程來訓練 WizardCoder。最初,他們使用 StarCoder 15B 作為基礎,并使用代碼指令 - 跟隨(code instruction-following)訓練集對其進行微調(diào),該訓練集通過 Evol-Instruct 進化而來。微調(diào) prompt 格式概述如下:

圖片

WizardCoder 性能如何?

與閉源模型的比較。用于代碼生成的 SOTA LLM,如 GPT4、Claude 和 Bard,主要是閉源的。然而獲得這些模型 API 的訪問權限難度很大。該研究采用另一種方法,從 LLM-Humaneval-Benchmarks 中檢索 HumanEval 和 HumanEval + 的分數(shù)。如下圖 1 所示,WizardCoder 位列第三,超過了 Claude-Plus(59.8 vs 53.0)和 Bard(59.8 vs 44.5)。

值得注意的是,與這些模型相比,WizardCoder 模型大小要小得多。此外,WizardCoder 比其他經(jīng)過指令微調(diào)的開源 LLM 表現(xiàn)出更顯著的優(yōu)勢。

圖片

與開源模型的比較。表 1 在 HumanEval 和 MBPP 基準上對 WizardCoder 與其他開源模型進行了全面的比較。表 1 結果表明,WizardCoder 比所有開源模型都具有顯著的性能優(yōu)勢。

圖片

總結而言,從圖 1 和表 1 的實驗結果中,可以得出以下結論:

  • WizardCoder 的性能優(yōu)于最大的閉源 LLM,包括 Claude、Bard、PaLM、PaLM-2 和 LaMDA,盡管它要小得多。
  • WizardCoder 比所有的開源 Code LLM 都要好,包括 StarCoder、CodeGen、CodeGee 以及 CodeT5+。
  • WizardCoder 顯著優(yōu)于所有具有指令微調(diào)的開源 Code LLM,包括 InstructCodeT5+, StarCoder-GPTeacher 和 Instruct-Codegen-16B。

下圖為不同模型在 DS-1000 基準上的結果:

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-02-16 13:48:56

模型論文

2024-01-16 12:10:33

模型數(shù)據(jù)

2024-07-24 11:30:04

2023-11-13 19:35:12

訓練數(shù)據(jù)

2025-05-27 08:19:06

2023-08-27 14:08:17

開源代碼Meta大模型

2024-02-04 07:20:00

AI模型

2024-12-26 14:42:23

2023-12-13 12:55:39

模型數(shù)據(jù)

2023-09-06 12:11:21

ChatGPT語言模型

2023-07-22 13:09:51

模型開源

2023-05-03 20:55:29

2025-06-03 08:35:00

2025-03-12 12:07:07

2024-10-06 09:00:00

AI訓練數(shù)據(jù)

2024-09-06 13:00:29

2023-07-04 10:18:25

開源模型

2023-08-30 13:23:00

模型訓練

2024-08-13 13:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美a在线| 亚洲成网| 成人二区三区 | 婷婷99| 天天操网 | 欧美成人一区二区 | 精品国产一区二区三区久久久蜜月 | www.99re| 欧美视频区 | 91久久夜色精品国产网站 | 成人不卡 | 欧美 日韩精品 | 国产精品福利在线 | 成人国产免费观看 | 成人在线免费观看视频 | 中文字幕av一区二区三区 | 在线日韩精品视频 | 视频三区 | 国产一级一级毛片 | 日本在线网址 | 亚洲精品久 | 亚洲视频在线看 | 欧美自拍视频 | av一区二区三区 | 99热热 | 色综合久久天天综合网 | 欧美在线看片 | 韩国电影久久 | 久久精品久久精品久久精品 | 欧美日韩国产高清 | 成人网av| 欧美亚洲综合久久 | 天天综合网91 | 日本成人在线免费视频 | 超碰成人免费观看 | 在线一区二区国产 | 国产第一页在线播放 | av中文在线 | 国产一区二区三区四区 | 999久久久久久久久6666 | 久久国产亚洲 |