成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4 做「世界模型」,讓LLM從「錯題」中學習,推理能力顯著提升

人工智能 新聞
在最近的一篇論文,來自西安交大、微軟、北大的研究者嘗試探討了另外一種提升思路:是否可以通過逆向學習過程(即從 LLM 犯過的錯誤中學習)進一步提高其推理能力?

這段時間,大語言模型在各種 NLP 任務中取得了重大進展,尤其是在需要復雜的思維鏈(CoT)推理的數學問題方面。

比如在 GSM8K、MATH 這樣的高難度數學任務的數據集中,包括 GPT-4 和 PaLM-2 在內的專有模型已取得顯著成果。在這方面,開源大模型還有相當的提升空間。為了進一步提高開源大模型處理數學任務的 CoT 推理能力,一種常見的方法是使用注釋 / 生成的問題 - 推理數據對( CoT 數據)對這些模型進行微調,這些數據對會直接教導模型如何在這些任務中執行 CoT 推理。

在最近的一篇論文,來自西安交大、微軟、北大的研究者嘗試探討了另外一種提升思路:是否可以通過逆向學習過程(即從 LLM 犯過的錯誤中學習)進一步提高其推理能力?

就像是一個剛開始學習數學的學生,首先會從書本上的知識點和例題中學習,但也會進行練習。解題失敗后,他便知道自己犯了什么錯誤、如何改正,形成一個「錯題本」。正是通過從錯誤中學習,推理能力得到了進一步提高。

受這個過程的啟發,這項工作探討了 LLM 的推理能力如何從理解和糾正錯誤中受益。

圖片

論文地址:https://arxiv.org/pdf/2310.20689.pdf

具體來說,研究者首先生成錯誤 - 修正數據對(稱為修正數據),然后利用修正數據對 LLM 進行微調。在生成修正數據時,他們使用了多個 LLM(包括 LLaMA 和 GPT 系列模型)來收集不準確的推理路徑(即最終答案不正確),然后使用 GPT-4 作為 「修正器」,為這些不準確的推理路徑生成修正。

生成的修正包含三條信息:(1) 原始解法中不正確的步驟;(2) 解釋該步驟不正確的原因;(3) 如何修正原始解法以得出正確的最終答案。在過濾掉最終答案不正確的修正后,人工評估結果表明,修正數據在后續的微調階段表現出了足夠的質量。研究者使用 QLoRA 對 CoT 數據和修正數據微調了 LLM,從而執行了「從錯誤中學習」(LEMA)。

研究者指出,當前 LLM 能夠在解決問題時采用循序漸進(step-by-step)的方法,然而這種多步驟生成過程并不意味著 LLM 本身就擁有強大的推理能力,因為它們可能只是模仿人類推理的表面行為,而沒有真正理解精確推理所需的底層邏輯和規則。

這種不理解會導致在推理過程中出現錯誤,因此需要「世界模型」的幫助,因為「世界模型」對現實世界的邏輯和規則具有先驗意識。從這個角度來看,本文中 LEMA 框架可以看成是采用了 GPT-4 作為「世界模型」,教導更小的模型遵守這些邏輯和規則,而不僅僅是模仿 step-by-step 的行為。

接下來,我們看一下這項研究的具體方法。

方法概覽

下圖 1(左)為 LEMA 的整體流程,包括兩個主要階段,分別是生成修正數據和微調 LLM。圖 1(右)為 LEMA 在 GSM8K 和 MATH 數據集上的性能表現。

圖片

生成修正數據

給定一個問答示例圖片、一個修正器模型 M_c 和一個推理模型 M_r,研究者生成了錯誤修正數據對圖片,其中圖片表示問題 q_i 的不準確推理路徑,c_i 表示對圖片的修正。


修正不準確的推理路徑。研究者首先使用推理模型 M_r,為每個問題 q_i 采樣了多個推理路徑,然后只保留那些最終得不出正確答案 a_i 的路徑,如下公式(1)所示。

圖片

為錯誤生成修正。對于問題 q_i 和不準確的推理路徑圖片,研究者使用修正器模型 M_c 來生成一個修正,然后在修正中檢查正確答案,如下公式(2)所示。

圖片

這里 P_c 包含 4 個帶注釋的錯誤修正示例,以指導修正器模型應該在生成的修正中包含什么類型的信息。

具體來講,帶注釋的修正包含以下三類信息:

  • 錯誤步驟:原始推理路徑中哪一步出錯了。
  • 解釋:該步驟中出現了什么類型的錯誤;
  • 正確解決方案:如何修正不準確的推理路徑以更好地解決原始問題。

下圖示例 1 簡要地展示了生成修正所用的 prompt。

圖片

生成修正的人工評估。在生成更大規模的數據之前,研究者首先手動評估了生成修正的質量。他們以 LLaMA-2-70B 為 M_r、以 GPT-4 為 M_c,并基于 GSM8K 訓練集生成了 50 個錯誤修正數據對。

研究者將修正劃分為了三個質量等級,分別為優秀(Excellent)、良好(Good)和糟糕(Poor)。三者的示例分別如下所示。

圖片

圖片

圖片

評估結果發現,50 個生成修正中有 35 個達到了優秀質量、11 個為良好、4 個為糟糕。根據這一評估結果,研究者推斷使用 GPT-4 生成修正的整體質量足以進行進一步的微調階段。因此,他們生成了更多大規模的修正,并將所有最終得出正確答案的修正用于微調 LLM。

微調 LLM

在生成修正數據之后,研究者微調了 LLM,從而評估這些模型是否可以從錯誤中學習。他們主要在以下兩種微調設置下進行性能比較。

一是在思維鏈(CoT)數據上微調。研究者僅在問題原理(question-rationale)數據上微調模型。盡管每個任務中有帶注釋的數據,但他們額外采用了 CoT 數據增強。研究者使用 GPT-4 為訓練集中的每個問題生成了更多推理路徑,并過濾掉最終答案錯誤的路徑。他們利用 CoT 數據增強來構建一個強大的微調基線,該基線僅使用 CoT 數據,并有助于對控制微調的數據大小進行消融研究。

二是在 CoT 數據 + 修正數據上微調。除了 CoT 數據,研究者還將生成的錯誤修正數據用于微調(即 LEMA)。他們同樣進行了控制數據大小的消融實驗,以減少增量對數據大小的影響。

下圖附錄 A 中的示例 5 和示例 6 分別展示了用于微調的 CoT 數據和修正數據的輸入 - 輸出格式。

圖片

實驗結果

研究者在五個開源 LLM 和兩個具有挑戰性的數學推理任務上的實驗結果證明了 LEMA 的有效性。

圖片

與僅在 CoT 數據上進行微調相比,LEMA 在各種 LLM 和任務中都能起到持續提升性能的作用。例如,使用 LLaMA-2-70B 的 LEMA 在 GSM8K 和 MATH 上分別取得了 83.5% 和 25.0% 的成績,而僅在 CoT 數據上進行微調則分別取得了 81.4% 和 23.6% 的成績。

圖片

此外,LEMA 與專有 LLM 兼容:帶有 WizardMath-70B /MetaMath-70B 的 LEMA 在 GSM8K 上實現了 84.2%/85.4% 的 pass@1 準確率,在 MATH 上實現了 27.1%/26.9% 的 pass@1 準確率,超過了眾多開源模型在這些挑戰性任務上取得的 SOTA 性能。

隨后的消融研究表明,在相同的數據量下,LEMA 仍然優于 CoT-alone 微調。這表明,CoT 數據和校正數據的有效性并不相同,因為兩種數據源的結合比使用單一數據源能產生更多的改進。這些實驗結果和分析強調了從錯誤中學習在增強 LLM 推理能力方面的潛力。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-15 15:38:59

AI模型

2024-07-16 13:13:26

2023-08-15 13:24:04

GPT-4AGI模型

2023-05-22 15:17:02

谷歌AI

2023-05-29 09:29:52

GPT-4語言模型

2023-03-27 18:18:47

GPT-4AI

2024-08-08 13:04:28

2023-04-04 11:20:40

GPT-4OpenAI

2023-10-14 17:24:49

2023-03-29 10:31:40

MIT論文

2023-08-17 08:00:00

2024-07-08 08:38:00

模型推理

2023-06-19 08:19:50

2024-06-11 14:30:18

2025-04-16 09:35:03

2023-12-26 08:17:23

微軟GPT-4

2023-10-08 13:11:00

訓練數據

2023-05-24 10:01:24

代碼模型

2023-08-11 13:34:06

GPT-4訓練

2024-01-30 21:18:57

模型智能CMMLU
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本久久综合网 | 国产日韩久久 | 中文字幕一区二区在线观看 | 欧美在线激情 | 国产免费拔擦拔擦8x高清 | 精品国产免费人成在线观看 | 一二三区视频 | 国产精品不卡 | 欧美精品1区2区3区 免费黄篇 | 一区二区三区在线播放 | 欧美一级在线观看 | 午夜精品久久久久久久久久久久 | 精品欧美在线观看 | 国产美女视频黄a视频免费 国产精品福利视频 | 国产成人在线一区二区 | 亚洲一区在线日韩在线深爱 | 日韩一区二区在线看 | 中文字幕免费观看 | 天天躁日日躁狠狠躁2018小说 | 日韩视频区 | 欧美特级黄色 | 韩日精品视频 | 男女污污动态图 | 久在线 | 久久久久中文字幕 | 国产精品国产亚洲精品看不卡15 | 亚洲一区毛片 | 91看片| av一区二区在线观看 | www.婷婷| 欧美日韩电影一区二区 | 免费精品久久久久久中文字幕 | 午夜欧美| 成人在线小视频 | av在线影院| 欧美国产日韩在线观看成人 | 国产在线精品免费 | 天天看天天操 | 免费成人高清在线视频 | av影音在线 | 亚洲精品久久久一区二区三区 |