成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o1帶火的CoT到底行不行?新論文引發(fā)了論戰(zhàn)

人工智能 新聞
對于許多數(shù)據(jù)集和模型而言,僅僅有規(guī)劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規(guī)劃+ CoT 求解器是實現(xiàn)強(qiáng)大性能所必需的。

OpenAI ο1 的誕生極大地提升了人們對 LLM 推理能力和思維鏈(CoT)的興趣。一時之間,似乎思維鏈很快就會成為所有 LLM 的標(biāo)配,但思維鏈并非萬能,就連 OpenAI 自己也提到 o1 在某些任務(wù)上的表現(xiàn)并不比 GPT-4o 強(qiáng),尤其是以語言為中心的任務(wù)。

近日,一篇來自德克薩斯大學(xué)奧斯汀分校、約翰·霍普金斯大學(xué)和普林斯頓大學(xué)的論文引發(fā)了熱議,其模仿莎士比亞《哈姆雷特》的臺詞提出了一個對 AI 研究者和實踐者來說至關(guān)重要的問題:To CoT or not to CoT?

圖片

論文標(biāo)題:To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

論文地址:https://arxiv.org/pdf/2409.12183

GitHub 庫:https://github.com/Zayne-sprague/To-CoT-or-not-to-CoT (待更新)

簡單來說,這篇論文研究了思維鏈(CoT)技術(shù)幫助 LLM 解決各式問題的有效性。

首先,該團(tuán)隊分析了近期的相關(guān)文獻(xiàn),比較了 CoT 與直接回答方法(DA)的性能表現(xiàn)。

之后,他們使用 20 個數(shù)據(jù)集和 14 個當(dāng)今主流的 LLM 在零樣本提示和少樣本提示設(shè)置下進(jìn)行了實驗。

圖 1 簡單總結(jié)了這兩項研究的結(jié)果。

圖片

結(jié)果表明,CoT 能極大助益 LLM 解決涉及數(shù)學(xué)和符號推理的任務(wù),至于其它任務(wù),CoT 的效果并不顯著甚至可能有損模型性能。

另一個發(fā)現(xiàn)是 CoT 能幫助提升執(zhí)行計算和符號操作的執(zhí)行步驟,但卻比不上能使用外部工具的 LLM。這是什么意思呢?該團(tuán)隊發(fā)現(xiàn),相比于使用直接回答方法,使用 CoT 時 LLM 能更好地生成可執(zhí)行的形式化方案規(guī)劃;但如果使用語言模型來生成方案規(guī)劃,然后再使用外部符號解算器來求解該規(guī)劃,性能表現(xiàn)還會更好一些。

這樣的結(jié)果忽然讓 CoT 的處境變得有點尷尬:在 CoT 有用的問題上,我們能使用外部工具做得更好;在另一些問題上,CoT 的能力又有限。

因此,該團(tuán)隊認(rèn)為:「第一,很多廣泛使用 CoT 解決的問題其實根本沒必要使用 CoT:現(xiàn)在已有更高效方法,能以遠(yuǎn)遠(yuǎn)更低的推理成本取得相近的性能。第二,基于提示詞的 CoT 不夠用了,我們看到人們迫切地需要更復(fù)雜精妙的方法,比如基于搜索、交互式智能體或針對 CoT 進(jìn)行過更好微調(diào)的模型的方法?!?/p>

文獻(xiàn)研究

首先,該團(tuán)隊調(diào)研了近期的相關(guān)文獻(xiàn),比較了使用或不用 CoT 的提示詞的效果。

具體指標(biāo)和流程這里就不多介紹了??傊麄儚?110 篇論文(35 篇 ICLR 論文和 75 篇 NAACL 和 EACL 論文)中整理出了 1218 個實驗結(jié)果,涉及 264 個數(shù)據(jù)集。之后,他們將這些相關(guān)任務(wù)分成了 14 類,表 1 展示了其中幾類的定義。

圖片

文獻(xiàn)研究結(jié)果

圖 2 展示了 CoT 為不同類型的任務(wù)帶來的性能增量,即使用 CoT 提示法取得的性能減去使用直接回答法取得的性能。

圖片

可以看到,在這些任務(wù)上,CoT 平均僅能帶來 3.75% 的提升。其中 CoT 帶來增益最大的三類任務(wù)分別是:符號推理、數(shù)學(xué)、邏輯推理。在這三個任務(wù)上,CoT 實現(xiàn)的平均性能為 56.9,而不使用 CoT 的表現(xiàn)為 45.5。而在其它任務(wù)上表現(xiàn)較好的個例(圖中用黃色高亮標(biāo)記出了 10 個),也或多或少與這三個任務(wù)有關(guān)。

但在其它任務(wù)上,CoT 的表現(xiàn)就沒什么亮點了,平均成績僅有 56.8,而就算不使用 CoT,直接回答法也能得到 56.1。該團(tuán)隊認(rèn)為,這一點點提升甚至不能算作是提升,畢竟 CoT 的計算成本明顯更高。

實驗研究

除了研究近期文獻(xiàn),該團(tuán)隊也執(zhí)行了實驗,其中涉及到 20 個數(shù)據(jù)集和 14 個模型,并測試了零樣本提示和少樣本提示兩種設(shè)置,見表 2。

圖片

實驗研究結(jié)果

下面我們通過對一系列問題的解答來了解實驗結(jié)果。

1.在哪些任務(wù)上,零樣本 CoT 優(yōu)于直接提示?

圖 3 左展示了 CoT 在五個推理類別(見圖 1 右)上帶來的平均性能增益;圖 3 右則是 CoT 在每個數(shù)據(jù)集上帶來的平均性能增益。

圖片

可以看到,在非符號推理類別和數(shù)據(jù)集上,特別是那些主要包含常識(CSQA、PIQA、SiQA)、語言理解(WinoGrande)和閱讀理解(AGI LSAT、ARC-Easy、ARC-Challenge)的問題上,零樣本 CoT 和零樣本直接回答的性能幾乎沒有區(qū)別。盡管這些數(shù)據(jù)集涉及推理,但 CoT 并沒有帶來增益。

相比之下,數(shù)學(xué)和符號類別(以及符號和半符號數(shù)據(jù)集)獲得了更大的提升。CoT 在 MATH 和 GSM8k 上帶來的增益分別高達(dá) 41.6% 和 66.9%。在 ContextHub 和 MuSR Murder Mysteries 等半符號數(shù)據(jù)集上,CoT 表現(xiàn)出了中等程度的增益。這些數(shù)據(jù)集需要應(yīng)用邏輯規(guī)則才能得出答案,例如從簡單的自然語言(ContextHub)或更復(fù)雜的常識性陳述(MuSR Murder Mysteries)中解析得到的一階邏輯。

在少樣本設(shè)置下得到的實驗結(jié)果類似。

2.回答格式是否會影響 CoT 的有用性?

除了數(shù)學(xué)之外,許多常用的數(shù)據(jù)集都是多項選擇題。該團(tuán)隊指出,對于兩個非多項選擇題的數(shù)據(jù)集(MuSiQue 和 BiGGen Bench,并且它們需要不同層級的非符號推理才能給出回答),CoT 的表現(xiàn)與直接回答相近。

因此,可以說回答格式對 CoT 的有用性的影響不大。并且,該團(tuán)隊還表示,預(yù)先針對正確響應(yīng)進(jìn)行規(guī)劃或推理甚至可能妨礙 LLM 自由響應(yīng)的能力。

3.CoT 在知識、軟推理和常識推理方面帶來的提升是否顯著?

在 13 個涉及知識、軟推理和常識推理的數(shù)據(jù)集上,該團(tuán)隊測試了 CoT 的表現(xiàn),結(jié)果發(fā)現(xiàn):答案是否定的,但 MMLU、StrategyQA 和 MuSR 是例外。在這三個數(shù)據(jù)集上,CoT 可以帶來比較顯著的增益。

詳細(xì)研究 MMLU 和 MMLU Pro

MMLU 和 MMLU Pro 是兩個范圍廣泛的數(shù)據(jù)集,因此很難簡單地描述它們的特征。該團(tuán)隊詳細(xì)研究了 CoT 在 MMLU 中每個類別上的性能表現(xiàn),以了解 CoT 在不同領(lǐng)域的性能差異。

表 3 給出了 CoT 能為 Llama 3.1 8B 和 70B 在 MMLU 和 MMLU Pro 上帶來最顯著提升的三個類別。

圖片

可以看到,其中一些與數(shù)學(xué)有關(guān),這不出人意料,但也有的屬于「商業(yè)」等類別。不過更進(jìn)一步研究發(fā)現(xiàn),這些類別通常也涉及數(shù)學(xué)(比如資產(chǎn)計算等)。

因此,該團(tuán)隊對 MMLU 進(jìn)行了更細(xì)粒度的研究(實例級)。他們發(fā)現(xiàn)問題或生成的響應(yīng)中是否包含 = 這個符號非常關(guān)鍵,可以說是「符號推理的一個強(qiáng)有力的標(biāo)志」。結(jié)果見圖 4。

圖片

可以看到,當(dāng)有 = 時,CoT 在 MMLU 和 MMLU Pro 上的表現(xiàn)明顯會更好。該團(tuán)隊認(rèn)為這是因為 = 通常出現(xiàn)在數(shù)學(xué)問題中。所以歸根結(jié)底,CoT 依然是能在數(shù)學(xué)問題上為 MMLU 和 MMLU Pro 帶來助益。

CoT 在形式推理方面的優(yōu)勢和劣勢

下面來解釋 CoT 有助于符號推理任務(wù)的原因。很多符號和半符號推理任務(wù)都可以分成兩個階段:規(guī)劃與執(zhí)行。該團(tuán)隊也基于此思路進(jìn)行了分析。

設(shè)置 1 和 2:少樣本直接回答和 CoT:使用之前的少樣本直接回答和 CoT 作為基線。圖 5 給出了在 GSM8K 上每個設(shè)置的示例。

圖片

設(shè)置 3 和 4:規(guī)劃 + 直接求解器以及計劃 + CoT 求解器。

設(shè)置 5:規(guī)劃+工具求解器。

評估結(jié)果

圖 6 展示了選出的代表性模型的結(jié)果。

圖片

可以看到,對于許多數(shù)據(jù)集和模型而言,僅僅有規(guī)劃不足以帶來明顯的性能增益。與直接回答相比,CoT 或規(guī)劃+ CoT 求解器是實現(xiàn)強(qiáng)大性能所必需的。使用其中一種方法跟蹤執(zhí)行情況可帶來最大的準(zhǔn)確性優(yōu)勢,尤其是對于含有大量數(shù)學(xué)內(nèi)容的數(shù)據(jù)集。

盡管 CoT 或規(guī)劃+ CoT 求解器比直接回答和規(guī)劃+直接回答更強(qiáng),但規(guī)劃+工具求解器在大多數(shù)情況下還要更優(yōu)。也就是說,很多時候,使用 CoT 還不如讓 LLM 使用工具。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2012-05-01 20:52:40

2019-10-25 15:45:00

Linux操作系統(tǒng)Windows

2020-09-10 17:22:15

機(jī)器人人工智能系統(tǒng)

2024-10-12 13:51:22

2011-04-21 11:47:21

P2000P105

2024-09-20 15:35:33

2024-09-23 09:20:00

2024-11-07 15:40:00

2018-09-27 13:56:22

iPhone XS信號手機(jī)

2021-01-27 07:33:11

手機(jī)充電快充芯片

2024-09-24 11:01:03

2025-01-28 00:00:00

OOMSpringCglib

2025-01-20 09:28:00

AI工具模型

2014-06-10 11:21:07

技術(shù)侮辱技術(shù)

2024-10-05 00:00:00

2024-09-19 18:03:31

2025-07-03 01:45:00

LLMCoT思維鏈

2025-04-29 09:06:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人午夜免费网站 | 天天操精品视频 | 国产毛片av | 欧美日韩综合精品 | 国产一区二区在线播放视频 | 久久aⅴ乱码一区二区三区 亚洲欧美综合精品另类天天更新 | 日韩免费成人av | 天天曰天天干 | 四虎永久影院 | 亚洲视频在线看 | 国产福利视频导航 | 亚洲永久 | 亚洲性视频 | 日韩欧美手机在线 | 精品久久久av | 久久国内精品 | 亚洲欧美日本国产 | 亚洲国产免费 | 一区二区国产在线 | 91九色在线观看 | 欧美精品久久一区 | 一级片视频免费 | 午夜手机在线 | 久草网址 | 九九热精品视频在线观看 | 亚洲午夜精品一区二区三区他趣 | 在线免费激情视频 | av一级久久 | 伊人网站视频 | 色精品视频 | 人人九九 | 精品久久久久久久人人人人传媒 | 国产在线一区二区 | 国产成人精品视频在线观看 | 91在线看 | 欧美日韩一区二区三区四区 | 国产精品久久久久久久7电影 | 欧美日韩综合一区 | 成人一区二区在线 | 成人高清视频在线观看 | 99热这里都是精品 |