成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從RLHF到DPO再到TDPO,大模型對(duì)齊算法已經(jīng)是「token-level」

人工智能 新聞
來自中科院和倫敦大學(xué)學(xué)院的汪軍與張海峰團(tuán)隊(duì)提出了一種從 token-level 角度建模的大模型對(duì)齊算法:TDPO。

在人工智能領(lǐng)域的發(fā)展過程中,對(duì)大語(yǔ)言模型(LLM)的控制與指導(dǎo)始終是核心挑戰(zhàn)之一,旨在確保這些模型既強(qiáng)大又安全地服務(wù)于人類社會(huì)。早期的努力集中于通過人類反饋的強(qiáng)化學(xué)習(xí)方法(RLHF)來管理這些模型,成效顯著,標(biāo)志著向更加人性化 AI 邁出的關(guān)鍵一步。

盡管 RLHF 取得了巨大成功,但是在訓(xùn)練過程中 RLHF 非常消耗資源。因此,近段時(shí)間學(xué)者們?cè)?RLHF 奠定的堅(jiān)實(shí)基礎(chǔ)上,繼續(xù)探索更為簡(jiǎn)單且高效的策略優(yōu)化路徑,催生了直接偏好優(yōu)化(DPO)的誕生。DPO 通過數(shù)學(xué)推理得到獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射,消除了獎(jiǎng)勵(lì)模型的訓(xùn)練過程,直接在偏好數(shù)據(jù)上優(yōu)化策略模型,實(shí)現(xiàn)了從「反饋到策略」的直觀飛躍。這不僅減少了復(fù)雜度,還增強(qiáng)了算法的穩(wěn)健性,迅速成為業(yè)界的新寵。

然而,DPO 主要關(guān)注在逆 KL 散度約束下的策略優(yōu)化。由于逆 KL 散度的 mode-seeking 特性,DPO 在提升對(duì)齊性能方面表現(xiàn)出色,但是這一特性也傾向于在生成過程中減少多樣性,可能限制模型的能力。另一方面,盡管 DPO 從句子級(jí)的角度控制 KL 散度,模型的生成過程本質(zhì)上是逐個(gè) token 進(jìn)行的。從句子級(jí)控制 KL 散度直觀上表明 DPO 在細(xì)粒度控制上存在限制,對(duì) KL 散度的調(diào)節(jié)能力較弱,可能是 DPO 訓(xùn)練過程中 LLM 的生成多樣性迅速下降的關(guān)鍵因素之一。

為此,來自中科院和倫敦大學(xué)學(xué)院的汪軍與張海峰團(tuán)隊(duì)提出了一種從 token-level 角度建模的大模型對(duì)齊算法:TDPO。

圖片

  • 論文標(biāo)題:Token-level Direct Preference Optimization
  • 論文地址:https://arxiv.org/abs/2404.11999
  • 代碼地址:https://github.com/Vance0124/Token-level-Direct-Preference-Optimization

為了應(yīng)對(duì)模型生成多樣性顯著下降的問題,TDPO 從 token-level 的角度重新定義了整個(gè)對(duì)齊流程的目標(biāo)函數(shù),并通過將 Bradley-Terry 模型轉(zhuǎn)換為優(yōu)勢(shì)函數(shù)的形式,使得整個(gè)對(duì)齊流程能最終從 Token-level 層面進(jìn)行分析和優(yōu)化。相比于 DPO 而言,TDPO 的主要貢獻(xiàn)如下:

  • Token-level 的建模方式:TDPO 從 Token-level 的角度對(duì)問題進(jìn)行了建模,對(duì) RLHF 進(jìn)行了更精細(xì)的分析;
  • 細(xì)粒度 KL 散度約束:在每個(gè) token 處從理論上引入了前向 KL 散度約束,使方法能夠更好地約束模型優(yōu)化;
  • 性能優(yōu)勢(shì)明顯:相比于 DPO 而言,TDPO 能夠?qū)崿F(xiàn)更好的對(duì)齊性能和生成多樣性的帕累托前沿。

DPO 與 TDPO 的主要區(qū)別如下圖所示:

圖片

圖 1:DPO 的對(duì)齊優(yōu)化方式。DPO 從 sentence-level 的角度進(jìn)行建模

圖片

圖 2:TDPO 的對(duì)齊優(yōu)化方式。TDPO 從 token-level 的角度進(jìn)行建模,并在每個(gè) token 處引入了額外的前向 KL 散度約束,如圖中紅色部分所示,控制模型偏移程度的同時(shí),充當(dāng)了模型對(duì)齊的 baseline

下面介紹兩者方法的具體推導(dǎo)過程。

背景:直接偏好優(yōu)化(DPO)

DPO 通過數(shù)學(xué)推導(dǎo),得到了獎(jiǎng)勵(lì)函數(shù)與最優(yōu)策略之間的直接映射,消除了 RLHF 過程中的獎(jiǎng)勵(lì)建模階段:

圖片

將公式 (1) 代入 Bradley-Terry (BT) 偏好模型中,得到直接策略優(yōu)化(DPO)損失函數(shù):

圖片

其中圖片是由來自偏好數(shù)據(jù)集 D 的 prompt、獲勝響應(yīng)和失敗響應(yīng)構(gòu)成的偏好對(duì)。

TDPO

符號(hào)標(biāo)注

為了建模語(yǔ)言模型順序的、自回歸的生成過程,TDPO 將生成回復(fù)表示成 T 個(gè) token 組成的形式 圖片,其中圖片,圖片表示字母表(詞匯表)。

當(dāng)將文本生成建模為馬爾可夫決策過程時(shí),狀態(tài) state 定義為 prompt 和到當(dāng)前 step 為止已生成的 token 的組合,表示為圖片,而動(dòng)作 action 則對(duì)應(yīng)于下一個(gè)生成的 token,表示為圖片,token 級(jí)獎(jiǎng)勵(lì)定義為圖片。

基于以上提供的定義,TDPO 為策略圖片建立了狀態(tài) - 動(dòng)作函數(shù)圖片、狀態(tài)值函數(shù)圖片和優(yōu)勢(shì)函數(shù)圖片

圖片

其中,圖片表示折扣因子。

Token-level 角度的人類反饋強(qiáng)化學(xué)習(xí)

TDPO 理論上修改了 RLHF 的獎(jiǎng)勵(lì)建模階段和 RL 微調(diào)階段,將它們擴(kuò)展為了從 token-level 角度考慮的優(yōu)化目標(biāo)。

對(duì)于獎(jiǎng)勵(lì)建模階段, TDPO 建立了 Bradley-Terry 模型和優(yōu)勢(shì)函數(shù)之間的相關(guān)性:

圖片

對(duì)于 RL 微調(diào)階段,TDPO 定義了以下目標(biāo)函數(shù):

圖片

推導(dǎo)

從目標(biāo) (4) 出發(fā),TDPO 在每個(gè) token 上推導(dǎo)了最優(yōu)策略圖片和狀態(tài) - 動(dòng)作函數(shù)圖片之間的映射關(guān)系:

圖片


其中,圖片表示配分函數(shù)。

將方程 (5) 代入方程 (3),我們得到:

圖片

其中,圖片表示策略模型圖片和參考模型圖片表示的隱式獎(jiǎng)勵(lì)函數(shù)差異,表示為

圖片

圖片則表示圖片圖片的序列級(jí)前向 KL 散度差異,按圖片加權(quán),表示為

圖片

基于方程 (8),TDPO 最大似然損失函數(shù)可以建模為:

圖片

考慮到在實(shí)際中,圖片損失傾向于增加圖片,放大圖片圖片之間的差異,TDPO 提出修改方程 (9) 為:

圖片

其中圖片是一個(gè)超參數(shù),而

圖片

這里,圖片表示停止梯度傳播運(yùn)算符。

我們將 TDPO 和 DPO 的損失函數(shù)總結(jié)如下:

圖片

由此可見,TDPO 在每個(gè) token 處引入了這種前向 KL 散度控制,使得在優(yōu)化過程中能夠更好地控制 KL 的變化,而不影響對(duì)齊性能,從而實(shí)現(xiàn)了更優(yōu)的帕累托前沿。

實(shí)驗(yàn)設(shè)置

TDPO 在 IMDb,Anthropic/hh-rlhf、MT-Bench 上個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。

IMDb

在 IMDb 數(shù)據(jù)集上,該團(tuán)隊(duì)采用了 GPT-2 作為基模型,然后用 siebert/sentiment-roberta-large-english 作為獎(jiǎng)勵(lì)模型評(píng)估策略模型輸出,實(shí)驗(yàn)結(jié)果如圖 3 所示。

圖片

從圖 3 (a) 中可以看出,TDPO (TDPO1,TDPO2) 能夠達(dá)到比 DPO 更好的 reward-KL 的帕累托前沿,而從圖 3 (b)-(d) 則可以看出,TDPO 在 KL 散度控制方面表現(xiàn)極為出色,遠(yuǎn)遠(yuǎn)優(yōu)于 DPO 算法的 KL 散度控制能力。

Anthropic HH

而在 Anthropic/hh-rlhf 數(shù)據(jù)集上,該團(tuán)隊(duì)采用了 Pythia 2.8B 作為基模型,采用兩種方式評(píng)估模型生成的好壞:1)使用已有的指標(biāo);2)使用 GPT-4 評(píng)測(cè)。

對(duì)于第一種評(píng)估方式,該團(tuán)隊(duì)評(píng)測(cè)了不同算法訓(xùn)練的模型在對(duì)齊性能 (Accuracy) 和生成多樣性 (Entropy) 上的權(quán)衡,如表 1 所示。

圖片

可以看到 TDPO 算法不僅在對(duì)齊性能 (Accuracy) 上優(yōu)于 DPO 和 f-DPO,在生成多樣性 (Entropy) 上也占據(jù)優(yōu)勢(shì),在這兩個(gè)大模型生成回復(fù)的關(guān)鍵指標(biāo)上達(dá)到了更好的權(quán)衡。

而對(duì)于第二種評(píng)估方式,該團(tuán)隊(duì)評(píng)測(cè)了不同算法訓(xùn)練的模型和人類偏好的吻合度,與數(shù)據(jù)集中的獲勝響應(yīng)作對(duì)比,如圖 4 所示。

圖片

DPO、TDPO1 和 TDPO2 算法在溫度系數(shù)為 0.75 的情況下均能夠達(dá)到對(duì)獲勝響應(yīng)的勝率高于 50%,較好地符合人類偏好。

MT-Bench

在論文中的最后一個(gè)實(shí)驗(yàn)上,該團(tuán)隊(duì)采用了在 Anthropic HH 數(shù)據(jù)集上訓(xùn)練好的 Pythia 2.8B 模型直接用于 MT-Bench 數(shù)據(jù)集評(píng)測(cè),結(jié)果如圖 5 所示。

圖片

在 MT-Bench 上,TDPO 能夠達(dá)到比其他算法更高的獲勝概率,這充分說明了 TDPO 算法訓(xùn)練的模型生成的響應(yīng)的質(zhì)量更高。

此外,有相關(guān)研究對(duì) DPO、TDPO、SimPO 算法進(jìn)行了對(duì)比,可參考鏈接:https://www.zhihu.com/question/651021172/answer/3513696851

基于 eurus 提供的 eval 腳本,評(píng)測(cè)了基模型 qwen-4b、mistral-0.1、deepseek-math-base 基于不同的對(duì)齊算法 DPO、TDPO、SimPO 微調(diào)訓(xùn)練得到的性能,以下是實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果:

圖片

表格 2:DPO,TDPO,SimPO 算法性能對(duì)比

了解更多結(jié)果,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-08-05 13:00:00

2024-11-26 09:33:44

2024-10-09 16:00:00

AI模型數(shù)據(jù)

2022-05-31 09:10:06

jQuery前端開發(fā)工具

2024-09-09 07:46:16

2025-01-26 15:35:01

AIOps人工運(yùn)維ChatOps

2023-12-20 14:44:33

軟件開發(fā)DevOpsNoOps

2016-11-28 16:23:23

戴爾

2024-01-15 16:41:00

模型數(shù)據(jù)

2023-08-22 13:21:07

AI算法

2011-05-25 14:59:35

if elseswitch case

2025-03-31 00:33:00

2020-12-24 19:01:27

戴爾

2024-06-05 09:59:13

2020-05-17 13:59:37

物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)工業(yè)4.0

2021-07-12 14:40:59

以太坊區(qū)塊鏈ETH2.0

2024-12-23 00:27:40

2025-02-20 09:27:46

2024-11-11 17:16:44

2011-07-18 09:28:44

開源開放
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品久草 | www.youjizz.com日韩| 91久操视频 | 欧洲一级视频 | 欧美一区在线看 | 亚洲高清中文字幕 | 欧美性tv| 日本在线视频一区二区 | 中文字幕日韩欧美一区二区三区 | 亚洲视频二区 | 91久久久久久久久久久 | 国产精品久久久久久久午夜 | 久久久久亚洲视频 | 午夜寂寞福利视频 | 国产黑丝av | 日本精品久久久一区二区三区 | 香蕉婷婷 | 日日操视频 | 国产在线观看不卡一区二区三区 | 国产小视频在线 | 国产一区二 | 一区二区精品 | av在线免费观看不卡 | 久久久久久国产精品免费免费狐狸 | 人人干人人艹 | 亚洲精品久久久一区二区三区 | 日韩爱爱网 | 日韩伦理一区二区 | 久久亚洲精品国产精品紫薇 | 男女污污网站 | 亚洲精品免费在线观看 | 九九久久精品视频 | 久久久久国产一区二区三区不卡 | 日韩免费福利视频 | 国产 日韩 欧美 在线 | 久久久久国产精品一区二区 | 国产精品一区二区久久 | 久草在线影 | 成人精品一区二区户外勾搭野战 | 人人九九精 | 欧美中文一区 |