成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2024|Transformer究竟如何推理?基于樣例還是基于規(guī)則

人工智能 新聞
盡管如 ChatGPT 這樣的大語言模型(Large Language Models, LLMs)已經(jīng)在各種復(fù)雜任務(wù)中展現(xiàn)出令人驚艷的性能,它們?cè)谔幚硪恍?duì)人類來說十分簡單的數(shù)學(xué)推理問題時(shí)仍會(huì)面臨困難,例如長整數(shù)加法。

本文經(jīng)計(jì)算機(jī)視覺研究院公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

圖片


  • 論文地址:https://arxiv.org/abs/2402.17709
  • 項(xiàng)目主頁:https://github.com/GraphPKU/Case_or_Rule
  • 論文標(biāo)題:Case-Based or Rule-Based: How Do Transformers Do the Math? 

Case-based or rule-based?

人類可以輕松地學(xué)習(xí)加法的基本規(guī)則,例如豎式加法,并將其應(yīng)用于任意長度的新的加法問題,但 LLMs 卻難以做到這一點(diǎn)。相反,它們可能會(huì)依賴于訓(xùn)練語料庫中見過的相似樣例來幫助解決問題。來自北京大學(xué)張牧涵團(tuán)隊(duì)的 ICML 2024 論文深刻研究了這一現(xiàn)象。研究者們將這兩種不同的推理機(jī)制定義為 “基于規(guī)則的推理”(rule-based reasoning)和 “基于樣例的推理”(case-based reasoning)。圖 1 展現(xiàn)了兩種推理機(jī)制在遇到同一個(gè)加法問題時(shí),采用的不同模式。

圖片

圖 1:case-based reasoning 與 rule-based reasoning 示意圖

由于 rule-based reasoning 對(duì)于獲得系統(tǒng)性的泛化能力 (systematic generalization) 至關(guān)重要,作者在文章中探討了 transformers 在數(shù)學(xué)問題(例如 "")中到底是使用何種推理機(jī)制。為了測試模型是否依賴特定樣例來解決問題,作者使用了 Leave-Square-Out 方法。主要思想是首先需要定位模型可能依賴的訓(xùn)練集中的樣例,然后將它們從訓(xùn)練集中移除,以觀察它們是否影響模型的測試性能。對(duì)于數(shù)學(xué)推理,作者的假設(shè)是,在解決某個(gè)測試樣本時(shí),transformers 傾向于依賴與測試樣本 “接近” 的訓(xùn)練樣本來進(jìn)行推理。因此,作者在樣本的二維空間中挖掉了一塊正方形作為測試集(test square)。根據(jù)假設(shè),若模型在做 case-based reasoning,且模型依賴的是與 test sample 距離較近的 training sample 來做推理,那么模型將無法答對(duì)正方形中心附近的 test samples,因?yàn)槟P驮谟?xùn)練集中沒有見過接近的樣例。

圖片

圖 2:GPT-2 在加法、模加法、九進(jìn)制加法、線性回歸上利用 Leave-Square-Out 方法進(jìn)行 fine-tune 后在全數(shù)據(jù)集上的正確率。其中,紅框中的方形區(qū)域?yàn)闇y試集,其他部分為訓(xùn)練集合。

通過在五個(gè)數(shù)學(xué)任務(wù)(包括加法、模加法、九進(jìn)制加法、線性回歸以及雞兔同籠問題)的干預(yù)實(shí)驗(yàn),transformers 無一例外都表現(xiàn)出了 case-based reasoning 的行為。作者利用 Leave-Square-Out 方法對(duì) GPT-2 進(jìn)行了 fine-tune,具體的模型表現(xiàn)展示于圖 2。可見,測試集內(nèi),模型的性能由邊界到中心迅速下降,出現(xiàn)了 holes。這說明當(dāng)我們把 holes 周圍的 similar cases 移出訓(xùn)練集時(shí),模型便無法做對(duì) holes 中的 test samples 做出準(zhǔn)確推理。也即展現(xiàn)出模型依賴 similar cases 進(jìn)行推理的行為。為了確保結(jié)論的公平性,作者同時(shí)利用 random split 方法對(duì)數(shù)據(jù)集進(jìn)行了訓(xùn)練集 / 測試集的劃分,并觀察到 random split 下模型可輕易在測試集上達(dá)到接近 100% 的準(zhǔn)確率,說明 Leave-Square-Out 實(shí)驗(yàn)中的訓(xùn)練樣例數(shù)是足夠模型完成推理的,且再次側(cè)面印證了 transformers 在做基于樣例的推理(因?yàn)?random split 下所有 test samples 都有接近的 training samples)。

Scratchpad 是否會(huì)改變模型推理行為?

圖片

圖 3:利用 scratchpad 對(duì) GPT-2 在加法任務(wù)上進(jìn)行 fine-tune 后的模型在 test square 中的準(zhǔn)確率。

此外,作者探討了是否可以通過加入 scratchpad,即引導(dǎo)模型在輸出中一位一位地做加法來消除 case-based reasoning 的行為,使模型轉(zhuǎn)向 rule-based reasoning(scratchpad 的具體方法可見圖 4)。圖 3 展示了利用 scratchpad 對(duì) GPT-2 在加法任務(wù)上進(jìn)行 fine-tune 后的模型在 test square 中的準(zhǔn)確率。

一方面,可發(fā)現(xiàn) test square 中仍然有一部分模型無法做對(duì)的區(qū)域,表現(xiàn)出模型仍然在做 case-based reasoning;另一方面,與不加入 scratchpad 時(shí)模型在 test square 中出現(xiàn)整塊連續(xù)的 hole 的現(xiàn)象相比,模型在使用 scratchpad 時(shí)對(duì)于訓(xùn)練樣例的依賴情況顯然發(fā)生了變化。

具體而言,test square 中無法做對(duì)的區(qū)域呈現(xiàn)為三角形,其斜邊沿著個(gè)位和十位的 “進(jìn)位邊界”。例如,圖 3 中自左向右第 2 張圖(test square 邊長)有兩個(gè)三角形區(qū)域,模型的準(zhǔn)確率幾乎為零。小三角形表示,模型無法解決如47+48的問題,因?yàn)橛?xùn)練集中沒有包含十位上進(jìn)位的步驟(所有四十幾 + 四十幾的樣例都在測試集中)。而對(duì)于不涉及十位進(jìn)位的測試樣本,如42+43 ,模型則能夠成功,因?yàn)樗梢詮拇罅科渌?xùn)練數(shù)據(jù)中學(xué)習(xí)到 4+4這個(gè)中間步驟(例如)。對(duì)于大三角形中的數(shù)據(jù)而言,模型無法解決例如57+58這樣的問題,因?yàn)橛?xùn)練集中沒有包含十位上需要進(jìn)位到百位的案例。

這些黑色區(qū)域的形狀和位置表明,只有當(dāng)測試案例的每一步在訓(xùn)練集中都出現(xiàn)過時(shí),模型才能夠成功;否則就會(huì)失敗。更重要的是,這一現(xiàn)象表明,即使有 step-by-step 的推理過程的幫助,transformers 也難以學(xué)會(huì) rule-based reasoning —— 模型仍然在機(jī)械地記憶見過的單個(gè)步驟,而沒有學(xué)會(huì)背后的規(guī)則

其他影響因素

Scratchpad 以外,作者也在文章中對(duì) test square 的位置、大小,模型的大?。ò?GPT-2-Medium,與更大的模型:Llama-2-7B 和 GPT-3.5-Turbo),數(shù)據(jù)集的大小等因素進(jìn)行了豐富的測試。模型在做 case-based reasoning 的結(jié)論是統(tǒng)一的。具體的實(shí)驗(yàn)細(xì)節(jié)可見文章。

Rule-Following Fine-Tuning (RFFT)

通過上述的干預(yù)實(shí)驗(yàn),作者發(fā)現(xiàn) transformers 在數(shù)學(xué)推理中傾向于使用 case-based reasoning,然而,case-based reasoning 會(huì)極大地限制模型的泛化能力,因?yàn)檫@意味著模型如果要做對(duì)新的 test sample ,就需要在訓(xùn)練集中見過相似的樣本。而在訓(xùn)練集中覆蓋到所有未知推理問題的相似樣本是幾乎不可能的(尤其對(duì)于存在長度泛化的問題)。

圖片

圖 4:direct answer,scratchpad 與 rule-following 三種方法的 input-output sequence

為了緩解此類問題,作者提出了名為 Rule-Following Fine-Tuning(RFFT)的規(guī)則遵循微調(diào)技術(shù),旨在教 transformers 進(jìn)行 rule-based reasoning。具體來說,如圖 4 所示,RFFT 在輸入中提供顯式的規(guī)則,然后指導(dǎo) transformers 逐行地回憶規(guī)則并執(zhí)行。

實(shí)驗(yàn)中,作者在 1-5 位數(shù)的加法上使用圖 4 所示的三種方法對(duì) Llama-2-7B 和 GPT-3.5-turbo 進(jìn)行了 fine-tune,并分別在 6-9 與 6-15 位數(shù)的 OOD 的加法任務(wù)上進(jìn)行了測試。

圖片

圖 5:Llama-2-7b 和 GPT-3.5-turbo

由圖 5 可見,RFFT 在長度泛化的性能上明顯超過了 direct answer 和 scratchpad 這兩種微調(diào)方法。使用 Llama-2-7B 進(jìn)行 RFFT 時(shí),模型在 9 位數(shù)的加法中也能保持 91.1% 的準(zhǔn)確率。相比之下,使用 scratchpad 進(jìn)行 fine-tune 的模型在此任務(wù)中的準(zhǔn)確率不到 40%。對(duì)于擁有更強(qiáng)的基礎(chǔ)能力的 GPT-3.5-turbo,RFFT 使其能夠驚人地泛化到涉及多達(dá) 12 位數(shù)字的加法,盡管只在 1-5 位加法上訓(xùn)練了 100 個(gè)訓(xùn)練樣本,但其在 12 位數(shù)的加法上仍然保持了 95% 以上的準(zhǔn)確率。這也顯著超過了 scratchpad 和 direct answer 的結(jié)果。這些結(jié)果突出顯示了 RFFT 在引導(dǎo) transformers 進(jìn)行 rule-based reasoning 方面的有效性,并展現(xiàn)了其在增強(qiáng)模型長度泛化能力方面的潛力。

值得注意的是,作者發(fā)現(xiàn) Llama-2-7B 需要 150,000 個(gè)訓(xùn)練樣本才能泛化到 9 位數(shù)字,而 GPT-3.5 僅用 100 個(gè)訓(xùn)練樣本就能掌握規(guī)則并泛化到 12 位數(shù)字。因此,規(guī)則遵循(rule-following)可能是一種 meta learning ability—— 它可能通過在多樣化的 rule-following 數(shù)據(jù)上進(jìn)行訓(xùn)練而得到加強(qiáng),并可更容易地遷移到新的未在訓(xùn)練集中見過的領(lǐng)域中。相應(yīng)地,基礎(chǔ)模型越強(qiáng)大,理解并學(xué)習(xí)新的規(guī)則就越容易。這也與人類學(xué)習(xí)新規(guī)則的能力相符 —— 經(jīng)驗(yàn)豐富的學(xué)習(xí)者通常學(xué)習(xí)得更快。

總結(jié)

本文探究了 transformers 在做數(shù)學(xué)推理問題時(shí)究竟是采用 case-based reasoning 還是 rule-based reasoning,并提出了 Rule-Following Fine-Tuning 的規(guī)則遵循微調(diào)方法來顯式地教會(huì) transformers 進(jìn)行 rule-based reasoning。RFFT 展現(xiàn)了強(qiáng)大的長度泛化能力,并有潛力全面提升 LLMs 的推理能力。

責(zé)任編輯:張燕妮 來源: 計(jì)算機(jī)視覺研究院
相關(guān)推薦

2024-09-12 15:28:38

localhost?網(wǎng)絡(luò)IPv4

2024-07-30 11:40:00

數(shù)據(jù)庫NoSQLSQL

2025-01-17 10:49:01

2020-10-18 07:25:55

MQ消息冪等架構(gòu)

2022-11-26 00:00:07

內(nèi)存數(shù)組程序

2024-09-03 14:16:54

2016-01-28 09:51:55

2021-12-01 10:05:12

模型人工智能計(jì)算

2011-05-07 15:13:24

兼容墨盒評(píng)測

2012-10-22 13:18:05

KVM

2018-02-01 09:32:16

傳統(tǒng)運(yùn)維SRE

2015-07-09 10:44:53

微服務(wù)分布式DevOps

2022-10-21 16:07:10

編碼器自然語言模型

2019-11-11 09:30:46

區(qū)塊鏈比特幣物聯(lián)網(wǎng)

2011-08-04 10:33:39

筆記本用戶體驗(yàn)

2010-06-30 09:09:15

預(yù)覽版SQL Serv

2020-12-21 09:57:33

無鎖緩存并發(fā)緩存

2025-06-18 13:07:01

2025-01-22 13:15:10

2024-11-21 16:06:02

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕在线第二页 | 男女网站免费观看 | 99国产精品99久久久久久 | 日日骚av| 午夜小视频在线观看 | 日本一卡精品视频免费 | 日日日视频 | 中文字幕视频在线看5 | 精品欧美一区二区精品久久久 | 国产精品区二区三区日本 | 视频三区 | 日韩国产欧美 | 日本久久综合 | 亚洲一区二区中文字幕 | 亚洲综合久久久 | 精品一区二区三区电影 | 国产一区二区精华 | 日本中文字幕在线观看 | 亚洲国产精品一区二区第一页 | 一级全黄少妇性色生活免费看 | 亚洲国产精品久久久久婷婷老年 | 一级在线观看 | 中日av| 天天干天天谢 | 伊人久久综合 | 欧美色性 | www.一级片 | 欧美成人黄色小说 | 91视频在线观看 | 成人特级毛片 | 国产成人网 | 久久人人爽人人爽 | 日韩中文字幕高清 | 欧美一区二区三区在线观看视频 | 成人在线免费 | 国产午夜精品理论片a大结局 | 午夜资源 | 久久久久亚洲精品 | 日韩精品区 | 天天夜夜人人 | 影音先锋欧美资源 |