成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機械鸚鵡與真正的智能:大語言模型推理能力的迷思 原創 精華

發布于 2024-12-19 10:32
瀏覽
0收藏

編者按: 大語言模型真的具備推理能力嗎?我們是否誤解了"智能"的本質,將模式匹配誤認為是真正的推理?

本文深入探討了大語言模型(LLMs)是否真正具備推理能力這一前沿科學問題,作者的核心觀點是:LLMs 本質上是高級的模式識別機器,而非真正具備邏輯推理能力。

首先,作者指出,盡管大語言模型在各類推理能力基準測試中表現出色,但其性能實際上高度依賴于訓練數據中的模式識別,而非真正的邏輯推理。其次,文章質疑了目前廣泛使用的思維鏈(Chain-of-Thought)提示詞技術。再者,通過對數學推理的深入分析,作者指出 LLMs 實際上并不理解數學概念,而是在尋找和匹配模式。即便在復雜的數學問題中,模型也常常表現出對無關信息的過度敏感性。

本文作者并未貶低大語言模型的價值,而是客觀地將其定位為擁有非凡記憶能力的系統,期待未來能夠開發出真正具備推理能力的人工智能架構。

作者 | Salvatore Raieli

編譯 | 岳揚

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

image generated by the author using DALL-E

我很少遇到能夠進行推理的數學家。— 柏拉圖

推理能夠引導出結論,但這些結論是否確鑿,還需通過經驗的驗證才能確定。— 羅杰·培根

大語言模型(LLMs)[1]展現出的性能驚人,特別是在自然語言處理[2]的傳統領域(比如回答問題)方面表現突出。更令人驚訝的是,它們在那些需要邏輯推理的復雜任務(如編程和數學問題解決)上也取得了進步。長期以來,這些能力一直被認為是人類獨有的。因此,當人們提出大語言模型(LLMs)能夠解決那些需要推理的任務時,這個觀點引發了激烈的討論。

大語言模型(LLMs)真的能夠進行推理嗎?還是它們僅僅是比較高級的模式匹配器(pattern matchers)?

推理能力對于人工智能系統與人類的有效互動以及在執行關鍵任務時的應用具有決定性意義。這種能力要求系統能夠邏輯性地推理(reason logically)、進行推斷(conduct inference)、解決問題,并基于現有信息作出決策。在科學探索、醫療健康、金融領域以及教育行業中,能夠為我們提供實質性幫助的模型,同樣需要具備這些技能。

新模型的問世使得這場討論愈發激烈。隨著 OpenAI GPT-4o1[3] 的發布,人們對使用思維鏈(COT)訓練模型來提高推理能力產生了濃厚的興趣。經過這種訓練的大語言模型(LLMs)所取得的成果讓一些公司宣稱,現在的 LLMs 已經具備了推理能力,AGI 離我們越來越近了。

因此,當前的我們正處于一場深刻的大辯論之中:一方面,有公司和研究人員堅稱這些模型已經擁有了推理能力[4];而另一方面,也有人將 LLMs 貶稱為“隨機鸚鵡(stochastic parrots)”。

本文將著重探討以下問題的答案:

  • 何謂推理?
  • 大語言模型(LLMs)是否具備真正的推理能力,還是僅僅在做鸚鵡學舌?
  • 我們對于推理能力的評估方法是否準確無誤?

01 何謂推理(reasoning)?

推理是根據現有信息、邏輯和分析內容得出結論或做出決定的基本認知過程。根據亞里士多德的觀點,推理可分為兩種類型:

  • 演繹推理(Deductive reasoning):從普遍原理中得出具體結論。
  • 歸納推理(Inductive reasoning):通過觀察現象來形成一般性結論。

傳統觀念認為,推理是人類獨有的能力。但現在我們發現,靈長類、章魚甚至鳥類也展現出了一定的推理能力,它們能夠進行決策和解決問題。

一般來說,推理被視為解決復雜問題或做出明智選擇的過程。這要求識別問題、將其拆分為小問題、發現其中的規律,然后選擇最佳解決方案。決策過程也相似,需要識別問題、尋找規律,并在做出選擇前對備選方案進行評估。

然而,這些定義存在不明確之處。按照這些標準,LLM 也可以被視為具有推理能力。

02 LLM 能夠推理嗎?

在一系列評估推理能力的基準測試中(如 GLUE[5]、SuperGLUE[6] 和 Hellaswag[7]),大語言模型(LLMs)的表現甚至超越了人類。有人據此認為,LLMs 可以進行推理并得出合乎邏輯的結論。

LLMs 推理能力的提升主要得益于兩個方面:

  • LLMs 在所有針對推理能力評估設計的基準測試中都表現出了推理能力。
  • 隨著模型參數、token 數量和計算資源的增加,模型的新特性不斷涌現。

采用思維鏈(CoT)等技巧,可以讓模型發揮其潛力。如果我們認為 LLMs 不具備推理能力,那么我們就需要對上述觀點提出質疑。

2.1 LLMs 在推理能力基準測試中的驚艷表現

當有人聲稱 LLM 不會推理時,AGI 的支持者會回應說:“看看推理能力基準測試[8]的結果。”這就像是“鴨子測試(duck test)”:如果它能像人一樣解決問題,做出決策,甚至在推理能力基準測試中勝出,那么它很可能就具有人類擁有的推理能力。

然而,也有學者對此表示懷疑1。模型看似能夠進行復雜的推理,但實際上它們依賴的是概率模式匹配,而非嚴謹的形式推理(formal reasoning)。

模型對特定 tokens 的過度依賴表明,它更多的是在利用輸入數據的表面特征,而非深入理解背后推理任務的本質。—— source[9]

換言之,這些脆弱的表現揭示了 LLMs 在遇到與訓練過程中所見模式不同的新案例時,缺乏泛化能力。一旦改變例子中的 tokens,就會導致邏輯錯誤(因為模型無法將新例子與訓練數據中的模式相對應)。因此,模型對于測試案例極為敏感,容易受其影響(這也解釋了為何模型有時看似推理能力驚人,有時卻會以失敗告終)。

通過擾動例子中的 tokens,我們可以看到模型的脆弱性,擾動導致 LLM 無法解決問題(說明其“推理”過于依賴特定的 tokens,并將它們與訓練集中的內容相匹配)。這一點通過訓練數據中例子的出現頻率與測試表現之間的相關性得到了驗證8。

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

“圖論中經典的‘二十五匹馬’問題。上面兩幅子圖由 GPT-4o 生成,僅供參考,通過將‘馬’改為‘兔子’來演示這一概念,這與問題的基本邏輯無關。下面兩幅子圖顯示的是 GPT-4 和 Claude 的實驗結果,其中動物名稱和數量的擾動導致性能顯著下降”。圖片來源:??https://arxiv.org/pdf/2406.11050??

這種現象被稱為“提示詞敏感性”(即模型對于語義上等價的不同提示詞會有不同的反應)11-12。這意味著模型對于與訓練文本更為貼近的提示詞會有更好的響應。

大語言模型(Large Language Models,LLM)同樣對噪聲敏感2。實際上,這些模型很容易受到無關上下文的影響,導致其在進行推理時的表現大打折扣。此外,即便是那些專門用于提升推理能力的提示詞技巧[10],也無法完全消除噪聲的影響。這表明,噪聲對模型記憶中模式識別能力的干擾是顯著的。

2.2 智力被視為一種“涌現屬性”

許多人認為,智力是隨著生物系統自然趨向于復雜化和能力提升而逐漸涌現的[11]。如果生物不能適應這種變化,就會在進化壓力下被淘汰。因此,進化過程會導致生物變得越來越聰明或越來越特化。智力就是在這樣的壓力下逐步進化而來的。智力的發展顯然需要資源,因此大腦發展到了支持智力發展的水平。有些人認為,在模式訓練(pattern training function)中的損失函數就如同一種進化壓力。因此,一旦模型擁有了足夠的“神經元”,它們就能夠發展出推理能力(用專業術語來說,就是隨著模型規模的擴大,推理能力逐漸顯現)。

如前所述,這種推理能力的增強被認為是模型規模增加的結果(無論是參數的數量還是訓練 tokens 的數量)。但是,在一些學者看來,推理能力是一種需要達到一定參數閾值才能顯現的涌現屬性。然而,后續的研究表明,大語言模型(Large Language Models,LLMs)中的涌現屬性[12]可能是一種測量誤差,因此,整個理論就與推理能力的突然出現3, 13有關了。

2.3 CoT is not all you need

其他學者認為,大語言模型(Large Language Models,LLMs)本身具備推理能力,但這種能力需要通過特定方式來激活。思維鏈(Chain-of-thought,CoT)提示詞就是這樣一種方法,它通過中間推理過程幫助模型釋放其潛力,進而引導模型在解決算術問題時得出正確答案4。然而,幾周前的一篇文章對 CoT 的實際效用提出了質疑5:

在 MMLU 基準測試中,CoT 帶來的性能提升,多達 95% 是因為問題或生成的輸出中包含了“=”符號。對于非數學問題,我們并未發現任何跡象表明 CoT 在什么情況下會有幫助。—— source[13]

由此可見,CoT 在解決數學問題上的確有所幫助,但它并不能真正激活 LLM 的推理潛力。盡管如此,CoT 仍被吹噓為靈丹妙藥,并被認為是最新一代 LLMs 推理能力的基礎[14]。

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

通過對思維鏈(Chain-of-thought,CoT)相關文獻的元分析發現,無論是在數學領域還是其他類型的符號推理領域,CoT 都能帶來顯著的性能提升(紅色虛線所示為不同實驗中 CoT 帶來的平均改進效果)。圖片來源:??https://arxiv.org/pdf/2409.12183??

這些發現似乎表明,LLMs 并不具備常識推理能力,但這并不意味著它們完全不具備其他類型的推理能力。

LLMs 真的能夠進行數學推理嗎?

盡管數學推理似乎是 LLMs 在推理方面的優勢,但有研究表明,LLMs 可能只是在識別模式(patterns)。也就是說,它們在尋找模式(patterns)時,并不真正理解這些數學符號的含義。

一些研究者指出6,LLMs 在數學上無法進行形式推理(formal reasoning),因為它們不能制定出行動計劃(這里所說的計劃是指一系列行動策略,通過執行這些策略,可以從初始狀態達到期望的最終狀態)。沒有這樣的計劃,模型就只能簡單復現訓練中遇到的模式(patterns)[15],而無法真正解決問題。在某些情況下,甚至可能是用戶無意中引導 LLM 找到了答案7:

這就是所謂的“聰明的漢斯效應(The Clever Hans Effect)”,LLM 只是在進行猜測,而真正引導它的是處于環路中的人類,他們憑借對正確與錯誤解決方案的了解,無意中操控了 LLM 的輸出 —— 即便他們并非有意為之。因此,確保準確性(如果有的話)的功過都應該歸咎于這個環路中的人類。source:??https://arxiv.org/pdf/2403.04121??

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

LLMs 所聲稱的推理能力,有時實際上是由于參與其中的人類在不自覺中提供了有益的、連續的提示詞。圖片來源:??https://arxiv.org/pdf/2403.04121??

綜上所述,支持大語言模型(LLM)存在推理能力的人們認為,我們之所以看到模型的這些行為,有多方面的原因。但是有幾項研究表明,它們與這些觀點存在沖突。

盡管那些研究堅稱大語言模型(LLM)不具備推理能力,但它們在所有基準測試中都取得了驚人的成績,甚至在一些復雜的測試中超越了人類的表現[16]。因此,我們提供的證據似乎更多是基于理論,而不是基于大語言模型(LLM)解決數學和復雜問題能力的實證研究。

是否是因為人類對于被大語言模型(LLM)超越而感到不滿,還是其中確實存在問題呢?

2.4 發現一名學生在抄襲

無疑,看到有人聲稱大語言模型(LLM)的表現堪比博士生,這讓人感到不悅:

o1-preview 模型的設計初衷是處理具有挑戰性的任務,它通過像人一樣花更多時間思考和優化回答來應對復雜問題。在測試中,這種方法使得模型在物理、化學和生物等領域的表現接近博士生水平。source:??https://venturebeat.com/ai/forget-gpt-5-openai-launches-new-ai-model-family-o1-claiming-phd-level-performance/??

暫且不提這種不快,問題在于我們如何衡量這些模型的能力。我們可能并沒有用正確的方法來測試它們的推理能力,是時候采用新的評測體系了。

這些模型都在 GSM8K(Grade School Math 8K)[17]數據集上進行測試,這個數據集提供了復雜的算術問題,但由于訓練 LLM 時使用了數十億個數據 tokens,存在答案泄露的風險。此外,這個數據集只提供了一個固定問題集上的單一度量標準,對我們了解 LLM 的推理能力幫助有限(有趣的是,LLM 可能在推理完全錯誤的情況下仍然給出正確答案)。而且,這個數據集是靜態的,不允許我們改變測試條件。

在這項研究中,研究者提出了一個新的基準測試數據集 GSM-Symbolic[18] 9,它通過使用符號模板生成不同的問題。通過該數據集,我們可以調整問題的難度,并在測試時提供更精確的控制。這個數據集實際上與之前用于推理測試的數據集相同,只是對問題進行了修改,使得簡單的統計模式匹配(statistical pattern matching)變得困難。如果 LLM 真的具備推理能力,它應該能夠輕松解決這些問題;但如果它無法進行泛化,那么它將無法完成任務。

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

GSM-Symbolic 模板創建過程示意圖。圖片來源:??https://arxiv.org/pdf/2410.05229??

在對最先進的 LLMs 進行測試時,研究者并未發現模型具備形式推理的能力。這些模型并不穩健,當數值發生變化時,性能就會下降,且在問題復雜性提升時,其處理能力會迅速衰退。

如果向問題中插入看似相關卻實際上對推理和結論無影響的語句,模型便容易被誤導。模型會將這些語句考慮在內,從而誘發錯誤。研究指出,模型并沒有真正理解數學概念,而是試圖將這些語句轉化為數學操作。作者們推測,這可能是由于訓練數據集中包含了類似需要轉化為數學操作的例子。

比如,我們觀察到的一種常見情況是,無論上下文如何,模型會將涉及“折扣”的語句理解為“乘法”。這不禁讓人質疑,這些模型是否真正掌握了數學概念。來源:??https://arxiv.org/pdf/2410.05229??

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

圖片來源:??https://arxiv.org/pdf/2410.05229??

這再次證明,模型甚至在模式(patterns)僅僅是背景噪聲的情況下,也會試圖尋找這些模式(patterns)。當噪聲增強,尋找模式(patterns)的難度加大(或者難以一致性地將這些模式(patterns)映射到解決方案上),模型的性能就會大幅下滑10。這一點同樣適用于那些經過 CoT 訓練的 LLMs(比如 ChatGPT4-O1[3])。這進一步說明,CoT 并未真正提升模型的推理能力。

機械鸚鵡與真正的智能:大語言模型推理能力的迷思-AI.x社區

圖片來源:??https://www.arxiv.org/pdf/2409.13373??

03 結束語

本文探討了一個熱門話題:LLMs 是否具備推理能力?或者至少是某種形式的推理能力?

我們所展示的研究成果給出了不同的觀點,認為 LLMs 實質上是高級的模式匹配機器。 總結來說,這些研究指出:

  • LLMs 通過海量 tokens 進行訓練,因此存在主要基準測試數據集發生數據污染的風險。即便模型未曾直接見過某個數學問題,它也可能接觸過眾多類似的案例。
  • 憑借其龐大的知識庫和與生俱來的模式識別能力(歸功于注意力機制和上下文學習[19]),它們能夠解決大部分問題。
  • 它們在應對問題變化、tokens 偏差以及噪聲影響方面的脆弱性,強烈表明 LLMs 并不具備形式推理的能力。最新研究結果顯示,即便采用先進的提示詞技術,模型仍然容易受到噪聲和不相關(甚至可能誤導)信息的影響。
  • 這些模型能夠進行模式匹配,但似乎并不理解解決問題所依據的任何數學概念。

這些發現并未否定 LLMs 的實用性,而是對 LLMs 具備推理能力的觀點提出了質疑。 這些結果表明,可以將 LLM 視為擁有非凡記憶力的機器,卻無法進行推理(或者可以說是迄今為止最精巧的“機械鸚鵡”)。這并非貶低創造它們所需的卓越技術,而是對人類智慧結晶的贊嘆。 為了更深入地理解 LLMs 的能力,以及開發能夠進行推理的新模型架構,可能還需要進一步的研究。

Reference

  1. Jiang, 2024, A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners, ??https://arxiv.org/abs/2406.11050??
  2. Shi, 2023, Large Language Models Can Be Easily Distracted by Irrelevant Context, ??https://proceedings.mlr.press/v202/shi23a.html??
  3. Schaeffer, 2023, Are emergent abilities of large language models a mirage? ??https://arxiv.org/pdf/2304.15004??
  4. Wei, 2022, Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, ??https://arxiv.org/abs/2201.11903??
  5. Sprague, 2024, To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, ??https://arxiv.org/abs/2409.12183??
  6. Valmeekam, 2023, PlanBench: An Extensible Benchmark for Evaluating Large Language Models on Planning and Reasoning about Change
  7. Kambhampati, 2024, Can Large Language Models Reason and Plan? ??https://arxiv.org/abs/2403.04121??
  8. Razeghi, 2022, Impact of Pretraining Term Frequencies on Few-Shot Reasoning, ??https://arxiv.org/abs/2202.07206??
  9. Mirzadeh, 2024, GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, ??https://arxiv.org/abs/2410.05229??
  10. Valmeekam, 2024, LLMs Still Can’t Plan; Can LRMs? A Preliminary Evaluation of OpenAI’s o1 on PlanBench, ??https://www.arxiv.org/abs/2409.13373??
  11. Lu, 2022, Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, ??https://aclanthology.org/2022.acl-long.556/??
  12. Zhao, 2021, Calibrate Before Use: Improving Few-shot Performance of Language Models, ??https://proceedings.mlr.press/v139/zhao21c.html??
  13. Rogers, 2024, Position: Key Claims in LLM Research Have a Long Tail of Footnotes, ??https://openreview.net/forum?id=M2cwkGleRL??

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the authors

Salvatore Raieli

Senior data scientist | about science, machine learning, and AI. Top writer in Artificial Intelligence

END

本期互動內容 ??

?您對未來可能出現的、真正具備推理能力的 AI 系統有什么期待和想象?

??文中鏈接??

[1]??https://github.com/SalvatoreRa/tutorial/blob/main/artificial intelligence/FAQ.md#large-language-models:~:text=Large Language Models,-What is a??

[2]??https://en.wikipedia.org/wiki/Natural_language_processing??

[3]??https://openai.com/index/introducing-openai-o1-preview/??

[4]??https://aibusiness.com/nlp/chatgpt-update-claims-reasoning-capabilities-industry-reacts??

[5]??https://gluebenchmark.com/??

[6]??https://super.gluebenchmark.com/??

[7]??https://deepgram.com/learn/hellaswag-llm-benchmark-guide??

[8]??https://paperswithcode.com/area/reasoning??

[9]??https://arxiv.org/pdf/2406.11050??

[10]??https://www.promptingguide.ai/techniques??

[11]??https://ngsf.in/2021/09/19/intelligence-as-an-emergent-property-in-biological-systems/??

[12]??https://github.com/SalvatoreRa/tutorial/blob/main/artificial intelligence/FAQ.md#large-language-models:~:text=What does it mean emergent properties%3F what it is the scaling law%3F??

[13]??https://arxiv.org/pdf/2409.12183??

[14]??https://openai.com/index/learning-to-reason-with-llms/??

[15]??https://www.lakera.ai/blog/what-is-in-context-learning??

[16]??https://www.technologyreview.com/2023/08/30/1078670/large-language-models-arent-people-lets-stop-testing-them-like-they-were/??

[17]??https://paperswithcode.com/dataset/gsm8k??

[18]??https://machinelearning.apple.com/research/gsm-symbolic??

[19]??http://ai.stanford.edu/blog/understanding-incontext/??

原文鏈接:

??https://towardsdatascience.com/the-savant-syndrome-is-pattern-recognition-equivalent-to-intelligence-242aab928152??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产伦精品一区二区三区视频金莲 | 欧美精品日韩 | 亚洲国产精品一区 | 免费视频99| 欧美成人在线网站 | 91麻豆精品一区二区三区 | 91精品久久久久久久久久入口 | 激情综合五月天 | 亚洲成人高清 | 欧美精品一区二区三区在线播放 | 97超级碰碰| 亚洲高清av在线 | 欧美成人高清视频 | 国产婷婷色一区二区三区 | 91在线免费视频 | 美女131mm久久爽爽免费 | 高清欧美性猛交xxxx黑人猛交 | 免费看淫片 | 国产欧美视频一区二区 | 无码一区二区三区视频 | 欧美一区二区三区高清视频 | 亚洲国产精品一区二区第一页 | 欧美黄色片 | 91视频久久| 成人在线免费网站 | av在线一区二区三区 | 亚洲一页 | 91看片网 | 国产成人影院 | 九一国产精品 | 久久国内精品 | 欧美日韩国产精品激情在线播放 | 亚欧精品 | 91青青草视频| 精品一区在线免费观看 | 久草网免费 | 精品国产1区2区3区 在线国产视频 | 精品久久香蕉国产线看观看亚洲 | 亚洲精品国产偷自在线观看 | 四虎在线观看 | 亚洲一区日韩 |