成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何使用小型自動生成的數據集訓練編碼LLM

譯文
人工智能
本文介紹了WaveCoder模型,該模型可以使用更少示例訓練高效的編碼LLM。

譯者 | 李睿

審校 | 重樓

雖然像GPT-4這樣的大型語言模型(LLM)在編寫軟件代碼方面非常精通,但是這些模型的成本和不透明性激發了人們對更加經濟、規模更小的編碼LLM的興趣。

這些替代方案可以針對特定任務進行微調,并且成本很低。開發這些LLM的一大挑戰是在訓練數據集的大小和模型的性能之間找到最佳平衡點。

針對這一挑戰,微軟公司在最近發表的一篇論文中介紹了一種使用更少示例訓練高效編碼語言模型的新技術。這篇文章介紹了WaveCoder模型,并聲稱優于其他在類似數量的示例上訓練的編碼LLM。

作為WaveCoder的補充,微軟公司還開發了CodeOcean,這是一個包含2萬個不同代碼示例的精選數據集。該數據集可以增強編碼應用的基礎模型的微調。

選擇正確的編碼示例

圖1 CodeOcean管道圖1 CodeOcean管道

雖然WaveCoder是一個令人印象深刻的LLM模型,但這篇論文中更有趣的部分是CodeOcean,它是一個附帶的數據集。CodeOcean解決了一個重大挑戰:創建一個平衡成本效益和質量的數據集。研究人員認為一個具有最大多樣性的數據集可以產生令人印象深刻的結果,即使它包含的示例有限。

該研究團隊從CodeSearchNet開始,這是一個包含200萬對注釋和代碼的廣泛編碼數據集。他們使用基于BERT的Transformer模型為每個示例生成嵌入,將復雜信息轉換為數字列表。

他們對嵌入應用了一種聚類算法,根據它們的相似性對示例進行排序。這種方法使研究人員能夠從原始數據集中提取一個子集,最大限度地提高多樣性。

添加說明

在建立核心數據集之后,研究人員必須創建包含代碼和指令的訓練示例。為了實現這一點,他們創建了一個生成器-鑒別器框架,用于根據原始代碼示例生成指導性數據。最初,他們使用GPT-4在特定的場景中制作任務定義。這些初始任務定義與指導提示相結合,被提供給GPT-3.5,以生成額外示例的相應指令。

圖2 CodeOcean的生成器-鑒別器框架圖2 CodeOcean的生成器-鑒別器框架

對于鑒別器組件,研究人員制定了一個單獨的評估提示。這個提示以及代碼和指令示例提供給GPT-4進行評估。然后,CodeOcean管道使用良好的示例來生成未來的訓練示例。

研究人員通過這個迭代過程生成了2萬個高質量的教學樣本。這些示例跨越了四個不同的編碼任務類別:代碼生成、代碼摘要、語言翻譯(從一種編程語言到另一種編程語言)和代碼修復。這四個類別包含了LLM編碼任務的很大一部分。

訓練WaveCoder

圖3 WaveCoder優于其他在類似數量的示例上訓練的編碼LLM圖3 WaveCoder優于其他在類似數量的示例上訓練的編碼LLM

生成用于編碼LLM訓練示例有很多方法。但微軟的CodeOcean以強調泛化和示例效率而與眾不同。與依賴大量數據的研究不同,CodeOcean可以使用較小的數據集實現高性能。

為了證明CodeOcean的有效性,研究人員對三種編碼語言模型進行了微調:StarCoder-15B、CodeLLaMA(7B和13B)和DeepseekCoder-6.7B。考慮到數據集的大小,其微調既快速又經濟高效。研究人員根據HumanEval、MBPP和HumanEvalPack這三個關鍵的編碼基準對微調后的模型進行了評估。

通過在CodeOcean上進行多次訓練,所有模型在這些基準測試上都有了顯著的改進。在代碼生成方面,研究人員描述了WaveCoder的影響和局限性:“在微調過程之后,與基礎模型和一些開源模型相比,WaveCoder模型的性能有了顯著的提高,但它仍然落后于專有模型(例如GPT-4和Gemini),以及使用7萬多個訓練數據訓練的指示模型。”

WaveCoder和WizardCoder之間的性能差異很小,有78000個訓練示例。這表明“精細化和多樣化的指令數據可以顯著提高指令調優的效率。”

WaveCoder在代碼摘要和修復任務方面尤為出色。它在幾乎所有編程語言上的表現都優于其他開源模型。這一成功強調了“定義和分類代碼相關任務對增強代碼LLM泛化能力的有效性”。

雖然微軟公司尚未發布WaveCoder和CodeOcean的模型、代碼和數據,但有關Hugging Face的討論表明,該公司正在審查是否將它們對外發布。展望未來,研究人員的目標是探索更大數據集的效果,以及將CodeOcean與其他編碼數據集相結合的潛在好處。

原文標題:How to train coding LLMs with small auto-generated datasets,作者:Ben Dickson

責任編輯:華軒 來源: 51CTO
相關推薦

2024-05-23 12:57:59

2024-06-19 08:14:51

大型語言模型LLMRAG

2025-04-11 02:00:00

模態編碼器ALIGN視覺語言模型

2025-01-08 15:15:16

2024-07-03 09:38:35

LLM人工智能

2021-09-08 07:44:26

人工智能keras神經網絡

2024-01-24 13:37:36

大型語言模型人工智能

2024-09-14 13:50:00

AI訓練

2023-12-18 15:54:42

AI 模型

2023-09-27 08:18:03

2017-11-10 12:45:16

TensorFlowPython神經網絡

2023-11-27 09:00:00

GPTQ大型語言模型

2024-01-25 09:00:00

DevOps人工智能

2023-03-28 16:05:01

2025-02-14 08:18:33

2024-04-18 08:38:15

LLM數據訓練模型

2019-08-08 14:55:19

電子郵件微軟信頭

2025-05-30 10:50:27

2009-06-11 09:39:33

netbeans 生成Webservice

2023-08-16 16:26:29

人工智能Prompt
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品一二三 | av免费观看在线 | av一区二区在线观看 | 中文无吗 | 久久国产成人午夜av影院武则天 | 精品国产三级 | 91视频在线 | 久久久久久久av | 精产国产伦理一二三区 | 欧美日韩亚洲一区 | 久久久久久国产精品 | 99久久婷婷国产综合精品电影 | 欧洲一区在线观看 | 国产精品久久久久一区二区三区 | 久久国产视频网站 | 国产欧美日韩综合精品一区二区 | 欧美综合国产精品久久丁香 | 国产精品不卡一区 | xx性欧美肥妇精品久久久久久 | 精品久久久久久亚洲精品 | 超碰免费在线 | 做a视频 | 超碰美女在线 | 做a视频| 欧美久久精品 | 成人精品国产一区二区4080 | 日韩看片 | 国内自拍视频在线观看 | 欧美一区二区在线 | 亚洲一区二区三区免费视频 | 精品一区二区免费视频 | 国产美女一区二区 | 伊人网综合在线 | 中文字幕不卡在线观看 | 国产电影精品久久 | 人人干人人看 | 国产黄色麻豆视频 | 国产三级精品三级在线观看四季网 | 欧美日韩a | 99tv| 久久亚洲天堂 |