成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

詳解 SELF-RAG 框架

人工智能
自我反思檢索增強(qiáng)生成(Self-Reflective Retrieval-Augmented Generation,SELF-RAG)是一種通過(guò)檢索和自我反思提高 LLM 質(zhì)量和事實(shí)準(zhǔn)確性的框架,而不損害 LLM 的原始創(chuàng)造力和多功能性。本文將詳細(xì)介紹 SELF-RAG 框架。

當(dāng)前先進(jìn)的大語(yǔ)言模型在回答問(wèn)題時(shí)依然會(huì)存在胡說(shuō)八道的現(xiàn)象,而檢索增強(qiáng)生成(RAG)方法通過(guò)將相關(guān)的檢索段落與語(yǔ)言模型的輸入結(jié)合,可以減少在知識(shí)密集型任務(wù)中的事實(shí)錯(cuò)誤。然而,這些方法可能會(huì)影響語(yǔ)言模型的通用性,引入不必要或離題的段落,導(dǎo)致生成的回答質(zhì)量較低。此外,由于 RAG 檢索段落時(shí)不考慮事實(shí)基礎(chǔ)是否有幫助,生成的結(jié)果也不能保證與檢索到的相關(guān)段落一致。

自我反思檢索增強(qiáng)生成(Self-Reflective Retrieval-Augmented Generation,SELF-RAG)是一種通過(guò)檢索和自我反思提高 LLM 質(zhì)量和事實(shí)準(zhǔn)確性的框架,而不損害 LLM 的原始創(chuàng)造力和多功能性。本文將詳細(xì)介紹 SELF-RAG 框架。

概述

SELF-RAG 允許語(yǔ)言模型 根據(jù)檢索到的段落生成信息,并且通過(guò)自我批判生成的內(nèi)容來(lái)生成特殊 token。這些特殊的 token 稱之為 reflection token(反思 token),表示是否需要檢索或確認(rèn)輸出的相關(guān)性、或完整性。相比之下,常規(guī)的 RAG 方法會(huì)無(wú)差別地檢索段落,且不確保引用來(lái)源的是否完全支持輸入。

圖片圖片

具體而言,SELF-RAG 首先確定是否通過(guò)在繼續(xù)生成時(shí)使用檢索到的段落來(lái)幫助生成,如果是,它會(huì)輸出一個(gè)檢索標(biāo)記,調(diào)用一個(gè)檢索模型(第一步)。接下來(lái),SELF-RAG 同時(shí)處理多個(gè)檢索到的段落,評(píng)估它們的相關(guān)性,然后生成相應(yīng)的任務(wù)輸出(第二步)。然后生成評(píng)論標(biāo)記,對(duì)自己的輸出進(jìn)行批評(píng)并選擇最佳輸出(第三步),評(píng)價(jià)標(biāo)準(zhǔn)是事實(shí)準(zhǔn)確性和整體質(zhì)量。接下來(lái)將進(jìn)一步介紹 SELF-RAG 的幾個(gè)重要概念與算法。

反思 token

給定輸入 x,SELF-RAG 會(huì)訓(xùn)練語(yǔ)言模型 M 順序生成文本 y,且 y 由多個(gè)段落組成,記為 y=[y_1,...,y_t],其中,y_t 表示第 t 個(gè)段落的 token 序列,y_t 中的生成 token 包括原始文本和反思 token。

而反思 token 主要有 4 種,分別為 Retrieve,IsRel,IsSup,IsUse,其含義分別如下:

圖片圖片

按需檢索(Retrieve)

表示對(duì)于給定輸入,判斷是否需要額外檢索信息。

比如:

  • 問(wèn)題 x :提供保持健康的三個(gè)秘訣
  • 輸出:yes
  • 原因:因?yàn)榭赡苡幸恍┛煽康馁Y源來(lái)解釋不同行為對(duì)健康的影響。因此檢索文檔有助于提高對(duì)此查詢的響應(yīng)。

再比如:

  • 問(wèn)題 x :描述一次你不得不做出艱難決定的經(jīng)歷
  • 輸出:no
  • 原因:因?yàn)檫@個(gè)問(wèn)題詢問(wèn)的是一些個(gè)人經(jīng)驗(yàn),因此不需要尋找一些外部文檔。

相關(guān)性(IsRel)

表示對(duì)于給定輸入,檢索出的信息是否提供了有用信息來(lái)解決輸入問(wèn)題。

比如:

  • 問(wèn)題 x :競(jìng)選美國(guó)眾議院的年齡
  • 檢索信息 d :憲法規(guī)定了在美國(guó)參議院任職的三項(xiàng)資格:年齡(至少三十歲);美國(guó)公民身份(至少九年);以及參議員在選舉時(shí)所代表的州的居住權(quán)。
  • 輸出:Irrelevant
  • 原因:這些檢索信息僅討論了競(jìng)選美國(guó)參議院議員的年齡,而不是討論眾議院議員的年齡。

支撐性(IsSup)

評(píng)估檢索信息中提供的信息是否完全支持輸出,輸出為 “Fully supported, partially supported, no support”。

比如:

  • 問(wèn)題 x :解釋 embedding 在自然語(yǔ)言處理中的使用
  • 檢索信息 d :embedding 是自然語(yǔ)言處理 (NLP) 中一組語(yǔ)言建模和特征學(xué)習(xí)技術(shù)的統(tǒng)稱,其中詞匯表中的單詞或短語(yǔ)被映射到實(shí)數(shù)向量。單詞和短語(yǔ)嵌入用作底層輸入表示時(shí),已被證明可以提高 NLP 任務(wù)的性能,例如句法解析、情感分析、下一個(gè)標(biāo)記預(yù)測(cè)以及類比檢測(cè)。
  • 回答 y :詞嵌入對(duì)于情感分析、文本分類、預(yù)測(cè)序列中的下一個(gè)詞以及理解同義詞和類比等任務(wù)非常有用。
  • 輸出:Fully supported
  • 原因:輸出句子討論了詞嵌入的應(yīng)用,證據(jù)提到了所有應(yīng)用句法解析、情感分析、下一個(gè)標(biāo)記預(yù)測(cè)以及類比檢測(cè)作為應(yīng)用。因此,評(píng)分應(yīng)為 “Fully supported”。

有用性(IsUse)

表示回答是否對(duì)問(wèn)題有用,輸出為 “5,4,3,2,1”,5 為非常有用,1 為幾乎不切題或完全不相關(guān)。

比如:

  • 問(wèn)題 x :“2023 年英國(guó)現(xiàn)任首相是誰(shuí)?”
  • 回答 y :“鮑里斯·約翰遜 (Boris Johnson) 于 2019 年至 2022 年擔(dān)任英國(guó)首相。”
  • 輸出:2
  • 原因:雖然輸出提供了關(guān)于 2019 年至 2022 年英國(guó)首相的事實(shí)正確的陳述,但該指令詢問(wèn) 2023 年的首相是誰(shuí),因此它沒(méi)有回答該指令。因此,評(píng)分為2。

SELF-RAG 訓(xùn)練

圖片圖片

給定一組輸入輸出數(shù)據(jù) D={X, Y},Generator 模型 M,Critic 模型 C。

  1. 用預(yù)訓(xùn)練的語(yǔ)言模型 LM 對(duì) C 進(jìn)行初始化;
  2. 對(duì) {X, Y} 進(jìn)行采樣得到訓(xùn)練數(shù)據(jù)
  3. 對(duì)采樣數(shù)據(jù)中每一對(duì) (x, y):

通過(guò) GPT-4 收集 reflection token r;

將 {(x, y, r)} 添加到 D{critic} 中;

  1. 用下一個(gè) token 預(yù)測(cè)損失更新 C;
  2. 用預(yù)訓(xùn)練的語(yǔ)言模型 LM 對(duì) M 進(jìn)行初始化;
  3. 對(duì) (X, Y) 中的每一對(duì) (x, y):
  4. 運(yùn)行 C 得到 reflection token r;

  5. 將 (x, y, r) 添加到 D{gen} 中;

  6. 基于 D_{gen} 用下一個(gè) token 預(yù)測(cè)損失更新 M;

訓(xùn)練評(píng)論者模型

評(píng)論者模型數(shù)據(jù)生成

手動(dòng)標(biāo)記每個(gè)段落的反思 token 是不現(xiàn)實(shí)的,而我們可以使用像 GPT-4 這樣的最先進(jìn)的大語(yǔ)言模型來(lái)生成反思 token。通過(guò)引導(dǎo) GPT-4 生成反思 token,可以將其知識(shí)提煉到內(nèi)部的評(píng)論者模型 C 中,從而創(chuàng)建了監(jiān)督數(shù)據(jù)。如下圖所示:

圖片圖片

對(duì)每組反思 token,從原始訓(xùn)練數(shù)據(jù)中隨機(jī)采樣。由于每組反思 token 有自己的定義和輸入,我們會(huì)針對(duì)性使用不同的 prompt。

這里以 Retrieve 為例,通過(guò)使用類型特定的指令來(lái)引導(dǎo) GPT-4,比如給定一條指令,在原始任務(wù)輸入 x 和輸出 y 上進(jìn)行少量示范,判斷從網(wǎng)絡(luò)中找到一些外部文檔是否有助于生成更好的響應(yīng),以生成適當(dāng)?shù)姆此?token:p(r|I,x,y) 。

評(píng)論者模型訓(xùn)練

生成數(shù)據(jù) D{critic} 后,使用預(yù)訓(xùn)練語(yǔ)言模型 LM 初始化評(píng)論者模型 C,并用 D{critic} 對(duì)其進(jìn)行訓(xùn)練。其目標(biāo)函數(shù)為(對(duì)每對(duì) reflection token 來(lái)說(shuō)):

圖片圖片

初始模型可以是任意的預(yù)訓(xùn)練語(yǔ)言模型 LM,評(píng)論者模型在大多數(shù) reflection token 類別上都與基于 GPT-4 的預(yù)測(cè)達(dá)成了超過(guò) 90% 的一致性。

訓(xùn)練生成器模型

生成器模型的數(shù)據(jù)生成

給定一個(gè)輸入輸出對(duì) (x,y),使用檢索和評(píng)論者模型來(lái)擴(kuò)充原始輸出 y,從而創(chuàng)建監(jiān)督數(shù)據(jù),精確地模擬 SELF-RAG 推理時(shí)的過(guò)程。整個(gè)過(guò)程如下:

圖片圖片

對(duì) y_t,運(yùn)行批評(píng)者模型 C 來(lái)評(píng)估需要額外的檢索信息來(lái)幫助增強(qiáng)生成。如果需要,則加上 Retrieve=Yes token,并且使用 R 來(lái)獲取前 K 個(gè)信息段落 D。對(duì)每個(gè)段落來(lái)說(shuō),C 會(huì)進(jìn)一步評(píng)估相關(guān)性并預(yù)測(cè) IsRel。如果某個(gè)段落是相關(guān)的,則 C 會(huì)進(jìn)一步評(píng)估該段落是否支持模型的輸出,并預(yù)測(cè) IsSup。評(píng)論 token IsRel 和 IsSup 會(huì)被附加到檢索的段落或輸出后面。在最后的輸出 y 中,C 會(huì)預(yù)測(cè)整體效用 token IsUSE,并將帶有反思 token 和原始輸入對(duì)的擴(kuò)充輸出添加到 D_{gen}。

生成器模型訓(xùn)練

通過(guò)使用精選的增強(qiáng)語(yǔ)料庫(kù),以及 reflection token D{gen} 來(lái)訓(xùn)練生成器模型 M。目標(biāo)函數(shù)為:

圖片圖片

與評(píng)判模型 C 訓(xùn)練不同,生成器 M 學(xué)習(xí)預(yù)測(cè)目標(biāo)輸出以及 reflection tokens。訓(xùn)練期間,將檢索到的文本塊(由 <p> 和 </p> 標(biāo)記)進(jìn)行遮擋以進(jìn)行損失計(jì)算,這意味著模型在計(jì)算損失時(shí)不考慮這些檢索到的文本塊。原始詞匯 V 通過(guò)一組 reflection tokens(如 <Critique> 和 <Retrieve>)進(jìn)行擴(kuò)展,這表示這些 tokens 被加入到詞匯中,使模型能夠使用這些特定的 tokens 來(lái)生成輸出。

SELF-RAG 推理

最后再來(lái)介紹一下 SELF-RAG 的推理過(guò)程。如下圖所示:

圖片圖片

對(duì)于每個(gè)輸入 x 和前一代生成的 y{<t},模型解碼檢索 token 以評(píng)估檢索的效用。如果不需要檢索,模型將直接預(yù)測(cè)下一段輸出,這與標(biāo)準(zhǔn)的語(yǔ)言模型行為一致。如果需要檢索,模型會(huì)生成:一個(gè)評(píng)估檢索段落的相關(guān)性的反思 token、下一個(gè)回答段落、以及評(píng)估回答段落是否被檢索信息支持的反思 token。最后,一個(gè)評(píng)估整體效用的新的反思 token。每生成一個(gè)回答,SELF-RAG 都會(huì)并行處理多個(gè)段落,并且使用其自動(dòng)生成的反思 token 來(lái)控制生成的輸出。

生成反思 token 以自我評(píng)估輸出使得在推理階段 SELF-RAG 更加可控,能夠調(diào)整其行為以滿足多樣的任務(wù)要求。對(duì)于要求事實(shí)準(zhǔn)確性的任務(wù),目標(biāo)是使模型更頻繁地檢索段落,以確保輸出與現(xiàn)有證據(jù)緊密對(duì)齊。相反,在更為開放的任務(wù)中,例如撰寫個(gè)人經(jīng)歷文章,重點(diǎn)轉(zhuǎn)向更少的檢索,優(yōu)先考慮整體創(chuàng)造力或效用。接下來(lái),將介紹在推理過(guò)程中如何實(shí)施控制以滿足這些不同目標(biāo)的方法。

基于閾值的自適應(yīng)檢索

SELF-RAG 可以動(dòng)態(tài)決定何時(shí)檢索文本段落,這是通過(guò)預(yù)測(cè) Retrieve token 來(lái)完成的。此外,框架還允許設(shè)定一個(gè)閾值。具體而言,如果生成的 token 是 Retrieve=Yes,且在所有輸出 token 中的標(biāo)準(zhǔn)化值超過(guò)了指定的閾值,則觸發(fā)檢索。

基于評(píng)判 tokens 的樹解碼

在每個(gè)段落步驟 t 中,當(dāng)需要檢索時(shí),基于硬性或軟性條件,R 檢索 K 個(gè)段落,并且生成器模型 M 并行處理每個(gè)段落并輸出 K 個(gè)不同的候選值。我們進(jìn)行段落級(jí)的 Beam Search(使用 Beam 大小為 B)以獲取每個(gè)時(shí)間戳 t 的前 B 個(gè)段落,并在生成結(jié)束時(shí)返回最佳序列。

每個(gè)段落 y_t 相對(duì)于段落 d 的分?jǐn)?shù)通過(guò)評(píng)論者模型的評(píng)分 S 進(jìn)行更新,該評(píng)分是每個(gè)評(píng)論 token 類型的標(biāo)準(zhǔn)化概率的線性加權(quán)和。對(duì)于每個(gè)評(píng)論 token 組 G(例如 IsREL),我們將其在時(shí)間戳 t 的分?jǐn)?shù)表示為 s^G_t,然后按以下方式計(jì)算段落分?jǐn)?shù):

圖片圖片

其中,

圖片圖片

代表最理想的反射 token 的生成概率

圖片圖片

其中 N_G 個(gè)不同的令牌表示 G 的不同可能值。

權(quán)重 wG 為可以調(diào)整的超參,以自定義模型在推理期間的行為。另外,通過(guò)調(diào)整這些權(quán)重,可以強(qiáng)調(diào)某些期望的行為并降低其他行為。

責(zé)任編輯:武曉燕 來(lái)源: CS實(shí)驗(yàn)室
相關(guān)推薦

2025-04-01 09:25:09

2011-07-08 18:44:09

Objective-C Self Super

2025-02-06 11:20:00

開發(fā)工具AI

2025-03-19 08:43:17

檢索增強(qiáng)生成RAG大型語(yǔ)言模型

2025-03-10 08:00:00

RAG檢索Reranker

2025-05-06 10:05:23

2025-06-30 13:57:59

開源模型AI

2025-01-02 11:54:01

2025-05-19 08:26:37

RAG架構(gòu)項(xiàng)目

2025-03-21 14:34:17

2025-03-04 11:01:00

2025-02-17 03:00:00

RAG開源DeepSeek

2009-08-11 17:29:53

.NET遠(yuǎn)程處理框架

2010-08-30 13:46:09

MeeGoMeeGo Touch

2011-10-10 09:11:09

Java

2025-05-23 06:00:00

RAGAI人工智能

2024-10-09 11:14:37

2025-02-06 13:50:06

2025-02-27 09:00:00

RAG檢索增強(qiáng)生成RAG框架

2017-02-14 10:00:19

Java開發(fā)Lock
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日日干干 | 欧美一级二级三级视频 | 亚洲精品第一国产综合野 | 天天天堂| 久久久久国产精品免费免费搜索 | 欧美激情精品久久久久久免费 | 日韩在线中文字幕 | 亚洲国产一区在线 | 欧美日韩一区二区三区在线观看 | 激情五月婷婷 | 亚洲视频在线看 | 嫩草网| 可以看黄的视频 | 91精品国产91久久久久久吃药 | 影音先锋亚洲资源 | 青青激情网 | 国产精品视频综合 | 亚洲日本激情 | 婷婷综合色 | 蜜桃视频麻豆 | 福利片一区二区 | 青青操91 | 一区二区三区影院 | 国产精品3区 | 人人干视频在线 | 91精品国产777在线观看 | 久久合久久 | 一区网站| 国产精品免费观看视频 | 狠狠色香婷婷久久亚洲精品 | 尤物视频在线免费观看 | 国产精品日韩欧美一区二区 | 黄色大片在线免费观看 | 日韩在线精品 | 久久国产成人午夜av影院武则天 | 久久久久久国产精品免费免费狐狸 | 成人精品一区二区户外勾搭野战 | 成人欧美一区二区三区色青冈 | 四虎最新视频 | 国产国产精品久久久久 | 午夜精品一区二区三区在线视频 |