成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國內團隊提出全新RLTF框架,刷新SOTA!大模型生成代碼質量更高bug更少

人工智能 新聞
最近,來自國內的研究團隊提出了一種全新的RLTF技術,可以利用程序的單元測試反饋信號,無需基于人工的人類反饋(RLHF),來自動化提升LLM的代碼生成能力。

「程序合成」或「代碼生成」任務的目標是根據給定的描述生成可執行代碼,最近有越來越多的研究采用強化學習(RL)來提高大語言模型(簡稱大模型)(LLM)在代碼方面的性能。

不過,這些RL方法僅使用離線框架,限制了它們對新樣本空間的探索。此外,當前利用單元測試信號的方法相當簡單,沒有考慮到代碼中特定錯誤位置。

而國內團隊最近發布的新型在線RL框架RLTF(即基于單元測試反饋的強化學習),可以將代碼的多粒度單元測試反饋結果用于優化code LLM,在訓練過程中實時生成數據,并同時利用細粒度反饋信號引導模型生成更高質量的代碼。

有趣的是,小編發現這篇論文的作者,和曾經稱霸王者峽谷的騰訊絕悟AI的作者,有所重疊。

論文地址:https://arxiv.org/pdf/2307.04349.pdf

具體來說,在線框架RLTF通過細粒度的單元測試反饋來增強預訓練的LLM在程序合成任務中的性能,允許模型在訓練過程中實時生成新樣本,并利用單元測試結果作為反饋信號,從而改善整體模型性能。

此方法使模型能夠學習代碼錯誤的具體細節,并相應地提高性能。

大語言模型(LLM)在程序合成任務中表現出色,如Codex、AlphaCode、InCoder等,現有的LLMs在處理更具挑戰性的問題(如程序競賽)方面仍有進展空間且預訓練的代碼模型在生成代碼時可能存在語法和功能上的錯誤。

基于此,研究人員提出了基于強化學習(RL)的算法來改進代碼LLMs的性能,如CodeRL和PPOCoder,但現有的RL方法大多是離線的,而在線RL訓練更穩定,能更好地探索環境并得到更優的策略;

且現有的RL方法對單元測試結果的反饋信號較為簡單和粗粒度,無法捕捉到代碼中具體錯誤的細節。

RLTF方法引入了多粒度的單元測試反饋(Fine-grained Feedback根據代碼的錯誤類型和錯誤具體位置,懲罰代碼中出現錯誤的特定部分,Adaptive Feedback根據通過的測試用例比例分配不同的懲罰),并通過實時生成樣本和提供多樣化的訓練樣本,提高了模型性能。

RLTF在程序合成任務中取得了APPS和MBPP基準測試的最新成果,并通過消融研究證明了方法的有效性。

方法

論文中提出的任務可以形式化為一個條件概率優化問題,即在給定自然語音描述D和模型可優化參數θ的情況下,最大化正確程序W的概率:

圖片

在線RL訓練框架

為了更好地探索樣本空間,研究人員使用在線學習的方式進行RL訓練。

兩個LLM共享權重,一個負責梯度回傳更新模型,另一個負責在線生成訓練樣本。

訓練樣本經過編譯器,分配好標簽,進而更新online buffer中的數據。

Online buffer負責存儲在線訓練所用的數據,它在內部維護一個隊列,會刪除過舊的數據,buffer的更新頻率是50個step。

多粒度反饋的強化學習

RL訓練的loss可以定義為:

其中,R代表獎勵系數,S和E代表代碼的起點和終點。

研究人員將編譯器的反饋分為3類,eg. Error, Failure, Pass,然后根據不同的編譯器反饋,制定了不同粒度的模型獎勵。

粗粒度反饋:該反饋的級別建立在上述3類反饋上,和CodeRL,PPoCoder設置相同;

圖片

細粒度反饋:粗粒度的反饋只告訴模型「錯了」,卻沒有將具體「哪里錯了」告知模型。

而細粒度反饋的目的就是為了解決這一問題,使得模型能更加明確錯誤產生的原因和位置。為此,研究人員將Error中不同的錯誤子類型分為U_global,U_line,U_ignore,具體分類見下表;

根據不同的錯誤子類型,我們有不同的R值和起點終點:

圖片

自適應反饋:針對未能通過全部測試樣例的數據,我們根據其通過的比率設定了自適應的反饋,這一設置是為了模型能夠生成通過盡可能多的測試樣例的程序。

圖片

如下兩個消融實驗也驗證了「在線訓練框架 」和「多粒度反饋」的有效性:

圖片

實驗

研究人員使用了兩個最先進的基于強化學習和code LLMs的方法作為基準,并在相同的基準和設置下進行評估。作者使用了兩個不同的編程問題數據集進行評估,分別是APPS和MBPP。

在APPS數據集上,作者使用了RLTF框架對預訓練的CodeT5模型進行微調,并取得了優于其他方法的結果。在MBPP數據集上,作者展示了RLTF方法在零樣本設置下的性能,取得了新的最優結果。

APPS:使用CodeT5 770M作為基礎模型,在APPS數據集上進行評估。與其他基于CodeT5的方法(CodeRL、PPOCoder),和其他更大的模型(Codex、AlphaCode、GPT2、GPT3、GPT-Neo等進行了比較)。

結果表明,RLTF方法在APPS數據集上取得了優于其他方法的結果。

MBPP:論文在MBPP數據集上評估了CodeT5模型在APPS數據集上使用RLTF方法訓練的零樣本性能,RLTF方法在MBPP數據集上取得了優于不同大小的GPT模型的結果,并達到了新的最優性能。

不同的基座模型:為了展示RLTF方法的魯棒性,除了使用CodeT5外,論文還使用另一個基礎模型CodeGen 2.7B進行實驗。

結果表明,在CodeGen 2.7B上應用RLTF方法也取得了令人印象深刻的性能,使得pass@10的提高接近1%。

值得注意的是,研究人員發現,基礎模型越大,RLTF提供的性能提升越大,表明RLTF方法可以有效地發揮不同基礎模型生成更好代碼的潛力,當基礎模型大小更大時,影響更為明顯。

結論及未來工作

本文提出了RLTF(Reinforcement Learning from unit Test Feedback),一個具有多粒度單元測試反饋的新型在線RL框架,用于優化程序合成任務中的大語言模型。

與現有工作相比,該方法在訓練過程中實時生成數據,并同時利用更細粒度的反饋信號引導模型生成更高質量的代碼。

大量實驗表明,RLTF超越了現有基于RL的方法,并可以應用于各種code LLM,包括CodeT5和CodeGen。此外,它在廣泛使用的benchmark(如APPS和MBPP)上實現了最先進的性能。

在未來,有幾個方向可以進一步改進RLTF:

例如,現有基準測試中的輸入輸出示例可能不夠多樣化,使用隱藏的輸入輸出示例生成的程序可能不是正確的最終代碼版本,這種限制可能會影響RLTF的性能,因此,使用LLM創建更多樣化和準確的輸入輸出示例集是一個值得探討的潛在研究方向。

此外,是否更細粒度的反饋信號(如來自靜態代碼分析器的信號)可以進一步提高RLTF的性能,也是另一個可能的研究方向。


責任編輯:張燕妮 來源: 新智元
相關推薦

2024-01-16 17:17:30

模型訓練

2024-10-12 10:57:39

2024-01-12 21:18:22

負樣本大模型蒸餾

2025-03-03 10:17:00

模型數據生成

2023-07-17 11:02:36

模型開源

2021-08-13 15:07:02

模型人工智能深度學習

2023-10-29 22:25:23

模型AI

2025-04-03 09:27:44

2024-12-24 10:30:00

2024-09-03 14:10:00

模型測試

2025-07-02 09:21:30

2024-01-12 13:10:06

AI數據

2025-05-27 15:35:02

大模型技術AI

2025-04-03 11:16:10

2024-11-01 20:25:28

2012-02-28 09:11:09

開源bug

2023-06-07 12:28:47

開源數據

2023-09-10 10:51:22

算法結構

2012-07-03 09:59:03

程序員

2023-08-11 14:18:52

谷歌研究
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品 电影一区 亚洲 | 国产精品久久久久久久久久久久午夜片 | 无码日韩精品一区二区免费 | 国产精品一区在线 | 三级免费网 | 91久久精品国产91久久性色tv | 国产成人精品一区二区 | 久久久做| 天天看天天操 | 亚洲一区二区三区桃乃木香奈 | 国产一区二区免费在线 | 国产精品黄视频 | 亚洲欧美另类在线观看 | 伊人天堂网| 亚洲国产一区视频 | 免费黄色a视频 | 国产情侣激情 | 精品美女久久久 | 国产成人叼嘿视频在线观看 | 欧美日韩在线一区二区 | 二区国产 | 亚洲高清视频一区二区 | 中文字幕亚洲精品在线观看 | 国产精品国产精品国产专区不片 | 亚洲国产一区在线 | 国产成人艳妇aa视频在线 | 欧美激情久久久久久 | 九九热精品在线 | 国产成人福利视频在线观看 | 九七午夜剧场福利写真 | 中文字幕av在线一二三区 | 久久久精品国产 | www.色五月.com | 麻豆国产一区二区三区四区 | 精品一级| 国产成人一区在线 | 久久综合伊人 | 国产精品久久精品 | av在线视 | 九九热精品视频 | 久久久久久黄 |