成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擴(kuò)散語言模型扛把子LLaDA迎來新版本,數(shù)學(xué)、代碼、對(duì)齊能力均提升

人工智能 新聞
近期,擴(kuò)散語言模型受到廣泛關(guān)注,催生了一系列針對(duì)該領(lǐng)域的探索性研究,隨著 Gemini Diffusion 的發(fā)布,這一趨勢(shì)進(jìn)一步加速。

本文介紹的工作由中國人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團(tuán)隊(duì)與螞蟻集團(tuán)共同完成。朱峰琪、王榕甄、聶燊是中國人民大學(xué)高瓴人工智能學(xué)院的博士生,導(dǎo)師為李崇軒副教授。

該研究基于團(tuán)隊(duì)前期發(fā)布的 8B 擴(kuò)散語言模型 LLaDA(國內(nèi)率先做到真正可用的擴(kuò)散語言模型,是后續(xù)很多研究的主干基礎(chǔ)模型),探索了擴(kuò)散語言模型的偏好對(duì)齊方法,提出了方差縮減的偏好優(yōu)化方法 VRPO,并利用 VRPO 對(duì) LLaDA 進(jìn)行了強(qiáng)化對(duì)齊,推出了 LLaDA 1.5。與 LLaDA 相比,LLaDA 1.5 在數(shù)學(xué)、代碼和對(duì)齊任務(wù)上取得了一致性的提升。同時(shí),VRPO 為后續(xù)擴(kuò)散語言模型的對(duì)齊提供了統(tǒng)一的框架。

近期,擴(kuò)散語言模型受到廣泛關(guān)注,催生了一系列針對(duì)該領(lǐng)域的探索性研究,隨著 Gemini Diffusion 的發(fā)布,這一趨勢(shì)進(jìn)一步加速。

然而,現(xiàn)有的大型擴(kuò)散語言模型多采用「預(yù)訓(xùn)練 + 有監(jiān)督微調(diào)」的范式,針對(duì)擴(kuò)散語言模型的強(qiáng)化對(duì)齊進(jìn)行深入研究的工作較為有限。

強(qiáng)化對(duì)齊對(duì)于大語言模型的指令遵循和通用任務(wù)能力至關(guān)重要。研究團(tuán)隊(duì)以直接偏好優(yōu)化(DPO)為切入點(diǎn),剖析了擴(kuò)散語言模型在強(qiáng)化對(duì)齊時(shí)面臨的關(guān)鍵問題,提出了方差縮減的偏好優(yōu)化方法,使擴(kuò)散語言模型能夠?qū)崿F(xiàn)穩(wěn)定的強(qiáng)化對(duì)齊訓(xùn)練,這一原則也為后續(xù)擴(kuò)散語言模型的對(duì)齊工作提供了理論基礎(chǔ)和實(shí)踐指南。

圖片

  • 論文標(biāo)題:LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
  • 論文鏈接:https://arxiv.org/abs/2505.19223
  • 項(xiàng)目地址:https://ml-gsai.github.io/LLaDA-1.5-Demo/

性能表現(xiàn):數(shù)學(xué)、代碼、對(duì)齊任務(wù)相比 LLaDA 取得一致性提升

相比于 LLaDA,LLaDA 1.5 在數(shù)學(xué)、代碼生成、對(duì)齊任務(wù)上取得了一致性的提升。

圖片

此外,LLaDA 1.5 是當(dāng)前最具有競(jìng)爭力的擴(kuò)散語言模型。與其他擴(kuò)散語言模型相比,在數(shù)學(xué)任務(wù)(如 GSM8K,Math)上具有競(jìng)爭性優(yōu)勢(shì)。

圖片

相比于 LLaDA,LLaDA 1.5 在指令遵循能力上的提升顯著:

圖片

上述指令給出了對(duì)模型的一系列要求:提出兩種新型補(bǔ)品的名字并包含關(guān)鍵詞「brand」,名稱以雙尖括號(hào)標(biāo)注,先逐詞復(fù)述請(qǐng)求,再給出答案。相比 LLaDA,LLaDA 1.5 遵循了全部指令。

方法介紹

該研究以直接偏好優(yōu)化(DPO)為切入點(diǎn),原始 DPO 損失基于模型對(duì)給定偏好數(shù)據(jù)對(duì)的對(duì)數(shù)似然。對(duì)于掩碼擴(kuò)散語言模型,難以計(jì)算精確的對(duì)數(shù)似然,使用證據(jù)下界(ELBO)近似。需要通過對(duì)時(shí)間步 t 和掩碼數(shù)據(jù) y_t 進(jìn)行雙重采樣進(jìn)行估計(jì):

圖片

將 ELBO 帶入 DPO 損失的對(duì)數(shù)似然項(xiàng),可以得到基于 ELBO 的 DPO 損失估計(jì)器:

圖片

其中,紅色部分為偏好估計(jì)。

在實(shí)際應(yīng)用中,采用蒙特卡洛方法近似對(duì)數(shù)似然會(huì)引入 DPO 損失的偏差和方差,影響模型的梯度估計(jì),進(jìn)而導(dǎo)致訓(xùn)練過程不穩(wěn)定,甚至影響模型對(duì)齊后的最終性能表現(xiàn)。

本研究首先證明了:蒙特卡洛估計(jì)引入的偏差和方差,可以被偏好估計(jì)器的方差限制;降低偏好估計(jì)器的方差可以分解為降低 ELBO 估計(jì)的方差,以及提高 π_θ 和 π_ref 的 ELBO 估計(jì)之間的相關(guān)性。據(jù)此,本研究提出并證明了以下方差縮減策略的有效性:

  1. 提高蒙特卡洛估計(jì)的采樣預(yù)算;提高采樣預(yù)算能夠降低 ELBO 估計(jì)的方差。
  2. 給定總采樣預(yù)算的最優(yōu)分配策略;在給定總采樣預(yù)算 n=n_t×n_(y_t) 下,當(dāng)采樣預(yù)算分配為采樣 n 個(gè)時(shí)間步、每個(gè)時(shí)間步采樣一個(gè)加噪樣本時(shí),ELBO 估計(jì)的方差達(dá)到最小。
  3. 對(duì)偶采樣策略。通過增加 π_θ 和 π_ref 所使用噪聲樣本之間的相關(guān)性,能夠進(jìn)一步降低梯度估計(jì)的方差。具體而言,在 ELBO 估計(jì)中,對(duì)于 π_θ 和 π_ref,應(yīng)當(dāng)共享相同的偏好數(shù)據(jù)的噪聲樣本和拒絕數(shù)據(jù)的噪聲樣本。

綜合上述策略,最終得到的方差縮減的偏好優(yōu)化方法如下右圖。對(duì)于每一個(gè)偏好數(shù)據(jù)對(duì),在給定的采樣預(yù)算 n 下,采樣 n_t=n 個(gè)時(shí)間步,對(duì)于每個(gè)時(shí)間步采樣 1 個(gè)噪聲樣本,并在 π_θ 和 π_ref 間共享噪聲樣本,以進(jìn)行高效偏好估計(jì)。

圖片

總結(jié)與展望

本研究圍繞擴(kuò)散語言模型的偏好對(duì)齊任務(wù),提出了方差縮減的偏好優(yōu)化方法 VRPO,并從理論分析與實(shí)際實(shí)驗(yàn)兩方面系統(tǒng)論證了該方法在有效降低梯度估計(jì)方差、提升模型對(duì)齊效果上的優(yōu)越性。基于 VRPO 優(yōu)化的 LLaDA 1.5 模型,在數(shù)學(xué)推理、代碼生成、模型對(duì)齊等多個(gè)任務(wù)上均實(shí)現(xiàn)了全面且穩(wěn)定的性能提升,驗(yàn)證了方法的通用性和有效性。

本研究提出的方差縮減算法 VRPO 主要以 DPO 為分析對(duì)象,但所提出的方法具有普適性,可被推廣應(yīng)用到其他涉及 ELBO 估算或強(qiáng)化對(duì)齊的算法中,為擴(kuò)散語言模型在強(qiáng)化對(duì)齊領(lǐng)域構(gòu)建了統(tǒng)一的理論與方法框架。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-17 11:35:36

LLaDALLM大型語言模型

2025-02-17 12:30:00

2011-05-19 10:09:15

”Qomo Linux

2025-05-27 15:35:02

大模型技術(shù)AI

2011-08-01 15:35:51

GlassFishJava 7

2011-09-29 21:12:53

點(diǎn)心桌面

2017-05-10 14:27:29

靜態(tài)代碼漏洞安全

2009-05-19 08:51:42

2023-11-15 14:17:23

微軟語言模型AI 模型

2024-06-07 09:26:30

模型數(shù)學(xué)

2024-03-13 11:58:00

自動(dòng)化數(shù)據(jù)

2020-11-19 15:02:56

TensorFlow數(shù)據(jù)機(jī)器學(xué)習(xí)

2015-09-08 11:18:44

動(dòng)畫窗口用戶界面Windows 10

2024-08-27 09:35:47

2015-02-05 16:59:36

平安WiFiiOS

2009-06-17 09:24:34

學(xué)習(xí)strutsStruts新版本

2010-02-23 17:44:48

Python 3.0

2025-02-12 10:17:12

2009-08-02 08:59:47

Windows 7 R系統(tǒng)升級(jí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久久久亚洲精品国产 | 亚洲高清在线 | 国产免费av在线 | 99re视频这里只有精品 | 免费观看一级特黄欧美大片 | 成人在线免费视频 | 精国产品一区二区三区四季综 | 亚洲视频区 | 国产日韩欧美在线播放 | 亚洲午夜视频在线观看 | 国外成人在线视频 | 精品国产一区二区在线 | 日日噜噜噜夜夜爽爽狠狠视频97 | 国产日韩欧美激情 | 99精品网站| www久久国产 | 午夜视频在线 | 久久久涩| 精品视频久久久久久 | 欧美一级全黄 | 欧美video| 91在线观看免费视频 | 97伦理 | 午夜影院黄 | 欧美激情亚洲激情 | 一区二区在线 | 国产精品无码永久免费888 | 午夜欧美一区二区三区在线播放 | 日本不卡视频在线播放 | 欧美日韩国产精品激情在线播放 | 色视频www在线播放国产人成 | 国产原创在线观看 | 欧美激情国产精品 | 亚洲色图网址 | 九九九色| 狠狠爱一区二区三区 | 凹凸日日摸日日碰夜夜 | 欧美精品一二三区 | 亚洲va国产日韩欧美精品色婷婷 | 中文字幕亚洲欧美日韩在线不卡 | 9191在线观看|