成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這些技術,ChatGPT和它的潛在競爭者們都在用

人工智能 新聞
如今的人工智能圈,ChatGPT 等 AI 聊天機器人火的一塌糊涂,甚至讓 Stack Overflow 訪問量暴跌。那么這些 AI 聊天機器人背后的技術以及異同點有哪些呢?本文作者探索并試圖回答這些問題。

隨著 ChatGPT 的出現以及隨之而來的廣泛討論,RLHF、SFT、IFT、CoT 等晦澀的縮略詞出現在公眾面前,這都歸功于 ChatGPT 的成功。這些晦澀的縮略詞是什么?為什么它們如此重要?本文作者查閱了所有關于這些主題的重要論文,進行了分類總結。

ChatGPT 并不是第一個基于語言模型(LM)的對話智能體,事實上,許多機構在 OpenAI 之前發布過語言模型對話智能體,包括 Meta BlenderBot、Google LaMDA、DeepMind 的 Sparrow 和 Anthropic Assistant。一些機構也宣布建立開源聊天機器人的計劃,并公開了路線圖(如 LAION 的 Open-Assistant)??隙ㄟ€有其它機構在做同樣的工作,只是沒有宣布。

下表根據上面提到的 AI 聊天機器人是否可公開訪問、訓練數據、模型架構和評估的詳細信息,對它們進行了比較。ChatGPT 沒有相關數據,這里使用的是 InstructGPT 的資料,它是 OpenAI 的一個微調模型,被認為是 ChatGPT 的基礎。

圖片

盡管在訓練數據、模型和微調方面存在許多差異,但這些聊天機器人也存在一些共性 —— 指令遵循(instruction following),即根據用戶的指令,給出響應。例如讓 ChatGPT 寫一首關于微調的詩。 

圖片

從預測文本到遵循指令

通常而言,基礎語言建模的目標不足以讓模型高效地遵循用戶的指示。模型創建者還使用指令微調(Instruction Fine-Tuning,IFT),它可以在多樣化任務上對基本模型進行微調,還能應用在情感分析、文本分類、摘要等經典 NLP 任務。

IFT 主要由三個部分組成:指令、輸入和輸出。輸入是可選的,有些任務只需要指令,如上面的 ChatGPT 示例。輸入和輸出構成實例(instance)。給定的指令可以有多個輸入和輸出。相關示例如下([Wang et al., ‘22])。

圖片

IFT 的數據通常使用人類的指令和語言模型 bootstrapped 的指令集合。對于 bootstraping,LM 會在零樣本的情況下根據 prompt,生成新的指令、輸入和輸出。在每一輪中,模型都會得到從人類編寫和生成模型中選擇的樣本的 prompt。人類和模型貢獻數據集的情況可以用頻譜表示,如下圖所示。

圖片

一種是純模型生成的 IFT 數據集如 Unnatural Instructions,另一種是集社區努力、手動創建的指令如 Super natural Instructions。位于這兩者之間,選用高質量種子數據集然后進行 bootstrap 如 Self-instruct。為 IFT 收集數據集的另一種方法是將現有高質量眾包 NLP 數據集用于各種任務(包括 prompting),并使用統一的模式或不同的模板將這些數據集作為指令,相關工作包括 T0、Natural instructions 數據集、FLAN LM 和 OPT-IML。

安全遵循指令

LM 使用微調后的指令,可能并不總是生成有用安全的響應。這種行為的示例包括無效回應(托詞),總是給出諸如「對不起,我不明白」之類的無效回答,或者對用戶關于敏感話題的輸入做出不安全的回應。

為了解決這種問題,模型開發人員使用監督式微調(Supervised Fine-tuning, SFT),在高質量的人類標記數據上微調基礎語言模型,以實現有效和安全的響應。

SFT 和 IFT 緊密相連。指令調優可以看作是監督式微調的子集。在最近的文獻中,SFT 階段通常用于安全主題,而不是在 IFT 之后進行的指令特定主題。未來這種分類和描述會有更清晰的用例和方法。

圖片

谷歌的 LaMDA 也是根據一組規則對帶有安全注釋的對話數據集微調。這些規則通常是由模型創建者預先定義和制定的,包含一系列廣泛的主題,如有害、歧視和錯誤信息。

模型微調

另一方面,OpenAI 的 InstructGPT、DeepMind 的 Sparrow 和 Anthropic 的 ConstitutionalAI 均使用從人類反饋中強化學習(reinforcement learning from human feedback, RLHF)的技術。在 RLHF 中,模型響應基于人類反饋(如選擇一個更好的答案)進行排序,然后用這些帶注釋的響應訓練模型,以返回 RL 優化器的 scalar 獎勵,最后通過強化學習訓練對話智能體來模擬偏好模型。

思維鏈(Chain-of-thought, CoT)是指令演示的特殊情況,通過從對話智能體中引出逐步推理生成輸出。用 CoT 進行微調的模型使用帶有逐步推理的人類注釋的指令數據集。如下示例所示,橙色標記代表指令,粉色標記代表輸入和輸出,藍色標記代表 CoT 推理。

圖片

用 CoT 來微調的模型在涉及常識、算術和符號推理的任務上表現得更好。CoT 進行微調也顯示出對實現無害性非常有效(有時比 RLHF 做得更好),并且模型不會回避并產生「對不起,我無法回答這個問題」等回復。

圖片

要點總結

本文要點總結如下:

1、 與預訓練數據相比,只需要非常小的一部分數據來對指令進行微調。

2、 監督式微調使用人工標注使模型輸出更安全和更有幫助。

3、 CoT 微調提高模型在逐步思考任務上的性能,并減少了它們在敏感話題上的無效響應或回避不答。

對話智能體的進一步工作思考

最后,作者對未來對話智能體的發展給出了自己的一些思考。

1、 RL 在從人類反饋中學習有多重要?可以通過 IFT 或 SFT 中的高質量數據訓練獲得與 RLHF 一樣的性能嗎?

2、 與在 LaMDA 中使用 SFT 相比,在 Sparrow 中使用 SFT+RLHF 的安全性如何?

3、 IFT、SFT、CoT 和 RLHF,需要怎樣程度的預訓練?tradeoff 是什么?應該使用的最好的基礎模型是什么?

4、 文中介紹的許多模型都是經過精心設計,工程師們專門收集導致失敗的模式,并根據已處理的問題改善未來的訓練(prompts 和方法)。要如何系統地記錄這些方法的效果并重現它們?

責任編輯:張燕妮 來源: 機器之心
相關推薦

2010-03-16 10:12:38

Windows Azu

2011-05-20 11:10:53

TouchPad惠普

2024-08-19 13:21:14

2015-07-13 10:27:40

GoRust競爭者

2012-02-21 17:35:54

VI編輯器

2011-08-17 09:46:18

微軟蘋果Linux

2009-06-02 18:34:45

VMwareHyper-VVI3

2009-04-22 09:03:07

騰訊手機瀏覽器

2021-07-29 13:31:19

區塊鏈區塊鏈技術

2009-05-31 09:32:51

時代華納備忘錄AOL

2023-02-24 14:03:14

NatureAI

2021-02-26 10:46:11

接口測試DiffUnix系統

2015-07-02 14:58:55

云存儲Gartner

2021-11-10 09:19:42

數據庫程序員性能

2023-08-30 10:24:46

公有云報告

2020-11-05 14:20:01

Google FuchLinux發行版Linux

2021-11-12 08:58:58

CIO客戶體驗首席信息官

2019-05-07 16:12:13

庫克蘋果巴菲特

2012-09-11 09:47:31

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品亚洲一区二区三区 | 全免费a级毛片免费看视频免 | 久在草| 9999在线视频 | 中文二区| 日本人爽p大片免费看 | 国产一区二区日韩 | 国产精品美女久久久久aⅴ国产馆 | 午夜欧美a级理论片915影院 | av网站在线看 | 欧美操操操 | 精品欧美一区二区三区久久久 | 日韩精品一区二区在线 | 国产亚洲高清视频 | 性一交一乱一伦视频免费观看 | 在线免费观看亚洲 | 色黄网站 | 国产一级在线观看 | 国产精品久久久 | 天天干人人 | 男人天堂久久久 | 中文字幕一区在线观看视频 | а_天堂中文最新版地址 | 国产成人a亚洲精品 | 亚洲综合第一页 | 黄片毛片免费看 | 韩日av片 | 久色| 国产日韩一区二区 | 99精品一区二区 | 午夜影院在线播放 | 黑人巨大精品欧美一区二区免费 | 欧美精品一区二区三区四区五区 | 成年人在线视频 | 日韩在线一区二区 | 亚洲欧美第一视频 | 久久91精品 | 日韩在线国产 | 手机在线观看av | 亚洲欧洲综合av | 欧美黄在线观看 |