北大、清華、UvA、CMU等聯合發布：大模型邏輯推理能力最新綜述

2025-05-08 09:10:30

本綜述系統梳理了大語言模型邏輯推理能力的研究現狀。盡管在很多自然語言任務中取得了顯著進展，但大語言模型的邏輯推理能力仍面臨重大挑戰，尤其在邏輯問答和邏輯一致性兩個方面。

當前大模型研究正逐步從依賴擴展定律（Scaling Law）的預訓練，轉向聚焦推理能力的后訓練。鑒于符號邏輯推理的有效性與普遍性，提升大模型的邏輯推理能力成為解決幻覺問題的關鍵途徑。

為推進大語言模型的邏輯推理能力研究，來自北大、清華、阿姆斯特丹大學（UvA）、卡內基梅隆大學（CMU）、MBZUAI 等 5 所高校的研究人員全面調研了該領域最前沿的研究方法和評測基準，聯合發布了調研綜述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》，針對兩個關鍵科學問題 —— 邏輯問答和邏輯一致性，對現有方法進行歸納整理并探討了未來研究方向。

該綜述論文已被 IJCAI 2025 Survey Track 接收，并且作者團隊將于 IJCAI 2025 現場圍繞同一主題進行 Tutorial 演講，全面探討該研究領域的挑戰、方法與機遇。

論文標題：Empowering LLMs with Logical Reasoning: A Comprehensive Survey
論文鏈接：https://arxiv.org/abs/2502.15652

全文概要

大語言模型（LLMs）雖然在很多自然語言任務中取得了顯著成就，但最新研究表明其邏輯推理能力仍存在顯著缺陷。本文將大模型邏輯推理困境主要歸納為兩個方面：

邏輯問答：LLMs 在給定前提和約束條件下進行演繹、歸納或溯因等復雜推理時，往往難以生成正確答案。例如，前提為 “金屬導電；絕緣體不導電；如果某物是由鐵制成的，那么它是金屬；釘子是由鐵制成的”，問題為 “下列斷言是真、假還是無法判斷：釘子不能導電”。為了正確回答這個問題，大語言模型需要自我總結出邏輯推理鏈 “釘子→由鐵制成→金屬→導電”，從而得出該斷言實際為 “假” 的結論。
邏輯一致性：LLMs 在不同問題間容易產生自相矛盾的回答。例如，Macaw 問答模型對 "喜鵲是鳥嗎？" 和 "鳥有翅膀嗎？" 均回答 "是"，但對 "喜鵲有翅膀嗎？" 給出否定答案。

為推進該領域研究，我們系統梳理了最前沿的技術方法并建立了對應的分類體系。具體而言，對于邏輯問答，現有方法可根據其技術路線分為基于外部求解器、提示工程、預訓練和微調等類別。對于邏輯一致性，我們探討了常見的邏輯一致性的概念，包括否定一致性、蘊涵一致性、傳遞一致性、事實一致性及其組合形式，并針對每種邏輯一致性歸納整理了其對應的技術手段。

此外，我們總結了常用基準數據集和評估指標，并探討了若干具有前景的研究方向，例如擴展至模態邏輯以處理不確定性，以及開發能同時滿足多種邏輯一致性的高效算法等。

具體的文章結構如下圖。

圖 1：大模型邏輯推理綜述分類體系，包含邏輯問答和邏輯一致性兩個關鍵科學問題

大模型邏輯推理困境的兩個方面

盡管大語言模型在文本生成、分類和翻譯等廣泛的自然語言任務中展現出了卓越的性能，大語言模型在復雜邏輯推理上仍然面臨著重大挑戰。這是由于大語言模型的預訓練語料庫主要由人類撰寫的文本組成，這些文本缺乏高質量的邏輯推理樣本（如演繹證明），且通過下一詞元預測（next token prediction）或掩碼語言建模（masked language modeling）等任務來學習語法、語義和世界知識，并不能確保大語言模型具備邏輯推理能力。以上局限性會導致大語言模型在需要邏輯推理能力在以下兩個任務表現不佳。

邏輯問答

大語言模型在邏輯問答中往往無法生成正確答案，其要求大語言模型在給定一系列前提和推理規則的情況下，進行復雜的演繹、歸納或溯因推理。具體而言，這些邏輯問題大致可分為兩類：

判斷能否從給定信息中推導出某個斷言，即輸出該斷言的真值：真、假或無法判斷。
從多個選項中找出所有不違背給定前提和約束條件的選項。

令人驚訝的是，在邏輯問題數據集 FOLIO 上，LLaMA 13B 參數模型在 8-shot 下的準確率僅為 33.63%，這只比從真、假和無法判斷中隨機猜測對應的準確率 33.33% 略高一點。這極大地限制了大語言模型在智能問答、自主決策等場景的實際應用。

邏輯一致性

大語言模型在推理復雜問題的過程中回答不同問題時，容易產生自相矛盾的回答，或與知識庫 / 邏輯規則相矛盾，我們稱其違反了邏輯一致性。

需要注意的是，邏輯一致性的形式可以是多樣的。例如，LLaMa-2 70B 參數模型對 “信天翁是一種生物嗎？” 和 “信天翁不是一種生物嗎？” 這兩個問題都回答 “真”，這違反了邏輯的矛盾律。又如，Macaw 問答大模型對 “喜鵲是鳥嗎？” 和 “鳥有翅膀嗎？” 這兩個問題都回答 “是”，但對 “喜鵲有翅膀嗎？” 卻回答 “否”，這不符合三段論推理規則。

許多研究表明，僅在大型問答數據集上進行訓練并不能確保大語言模型的邏輯一致性。這些相互矛盾的回答引發了對大語言模型可靠性和可信度的擔憂，尤其限制了其在高風險場景中的實際部署，如醫療診斷、法律咨詢、工業流程控制等場景。

我們可以將邏輯問答和邏輯一致性視為大語言模型邏輯推理能力的一體兩面。接下來我們將對這兩個方面的最新研究進展進行歸納總結。

提升邏輯問答能力的方法

為了更好地理解大語言模型邏輯推理能力的邊界，探索更有效的技術方法，研究者們開發了許多相關的測評任務與基準數據集，用于評估大模型在邏輯問答任務的性能。在此基礎上，許多研究探索了增強大語言模型邏輯推理能力的方法，這些方法可以大致分為三類：基于外部求解器的方法、基于提示的方法，和預訓練與微調方法。下面進行具體介紹。

1. 基于外部求解器的方法

總體思路是將自然語言（NL）表達的邏輯問題翻譯為符號語言（SL）表達式，然后通過外部求解器進行邏輯推理求解，最后基于多數投票等集成算法生成最終答案，如圖 2 所示。

圖 2：基于外部求解器方法提升大模型邏輯問答能力

2. 基于提示的方法

一類思路是通過設計合理的提示詞，讓 LLMs 在回答問題時顯式地構造邏輯推理鏈；另一類思路是通過設計提示實現 NL 與 SL 的表達轉換，從而增加大模型的邏輯推理能力。

3. 預訓練與微調方法

考慮到預訓練語料庫中缺乏高質量的邏輯多步推理或證明樣本，預訓練和微調方法通過納入演繹證明或包含邏輯推理過程的自然語言例子來增強數據集，并基于該數據集對大模型進行預訓練或微調。

提升邏輯一致性的方法

開發可靠的大語言模型并確保其安全部署變得越來越重要，尤其是在它們被用作知識來源時。在可信性中，邏輯一致性至關重要：具有邏輯一致性的大模型可以有效避免不同問題的回答之間產生矛盾，從而減少大模型幻覺，增強終端用戶在實踐中對大模型可靠性的信心。

邏輯一致性要求大模型在推理復雜問題的過程中回答不同問題時，不與自身回答、知識庫或邏輯規則相矛盾。確保大模型能夠在不自相矛盾的情況下進行推理，也被稱為自洽性（self-consistency）。現有大量研究表明，僅通過在大型數據集上進行訓練無法保證其回答滿足邏輯一致性。

我們根據一個、兩個和多個命題之間應具備的邏輯關系，對各種邏輯一致性進行分類，并探討了增強大模型邏輯一致性的不同方法及其測評指標。

1. 否定一致性（Negation Consistency）

否定一致性要求對單個命題的推理結果不能產生矛盾，即 p 和不能同時成立，且其中只有一個為真：，等價于。

2. 蘊涵一致性（Implication Consistency）

蘊涵一致性基于邏輯規則。這意味著，給定約束和前提 p，可以推出 “q 為真”。如果模型輸出 “q 為假”，那么我們稱該答案違反了蘊涵一致性。

例如，給定物理事實 “所有鐵都是金屬（）”，大模型不應該同時回答 “這種材料是鐵（p）” 為 “真”，和 “這種材料是金屬（q）” 為 “假”。

3. 傳遞一致性（Transitivity Consistency）

傳遞性可以表示三個命題之間的邏輯關系。給定兩個前提和，可以推斷出，這被視為傳遞一致性。研究表明，大模型缺乏傳遞一致性。

例如，Macaw 問答模型對 “喜鵲是鳥嗎？” 和 “鳥有翅膀嗎？” 這兩個問題都回答 “是”，但對 “喜鵲有翅膀嗎？” 卻回答 “否”。根據傳遞性規則，前兩個肯定答案可以推出 “喜鵲有翅膀”，這與對最后一個問題回答 “否” 是相互矛盾的。

4. 事實一致性（Fact consistency）

事實一致性指的是大模型生成的回答或推理結果與給定知識庫（KB）的對齊程度。在事實核查（fact-checking）任務中，通過將模型的回答與可靠的知識庫進行比較，來評估模型的回答是否符合知識庫中給定的事實。

5. 復合一致性（Compositional consistency）

復合一致性要求大模型不僅滿足以上單個邏輯一致性，還應該在組合以上簡單邏輯一致性時對復合邏輯規則仍具有一致性。具體而言，當模型需要通過邏輯運算符（如蘊涵、合取等）將多種邏輯關系組合成復雜的推理鏈時，應確保對每個推導步驟都符合邏輯規則，并使最終結論自洽且邏輯正確。

針對以上每種邏輯一致性，我們都分別探討了其提升方法和評測基準。下圖展示了一類通用的提升大模型回答的邏輯一致性的方法框架，首先對每個問題生成多個候選回答，然后對不同問題的回答計算邏輯一致性的違背程度，最后優化求解為每個問題選擇一個最優答案使邏輯一致性的違背程度降到最低。更多細節請參見我們的原文。

圖 3：一類通用的提升大模型回答的邏輯一致性的方法框架

未來研究方向

模態邏輯推理能力：現有方法多局限于命題邏輯與一階邏輯，未來可考慮將大語言模型的邏輯推理能力擴展至模態邏輯以處理不確定性命題。

高階邏輯推理：由一階邏輯擴展得到的高階邏輯強調對屬性（即謂詞）進行量化，未來可考慮訓練大模型的高階邏輯推理能力以處理更復雜的推理問題。

滿足多種邏輯一致性的高效算法：目前增強邏輯一致性的方法仍存在解決的邏輯一致性單一和計算復雜度過高等問題。因此，開發能同時讓大模型滿足多種邏輯一致性的高效方法至關重要。

結語

本綜述系統梳理了大語言模型邏輯推理能力的研究現狀。盡管在很多自然語言任務中取得了顯著進展，但大語言模型的邏輯推理能力仍面臨重大挑戰，尤其在邏輯問答和邏輯一致性兩個方面。通過建立完整的分類體系，我們對前沿研究方法進行了系統歸納和概述，并整理了用于該領域常用的公開基準數據集與評估指標，探討了未來的重要研究方向。

責任編輯：張燕妮來源：機器之心

自然語言模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看