大模型的條件推理和模態(tài)推理
大型語言模型(LLMs)如GPT-4、Claude和Llama等已經(jīng)展示了令人矚目的能力,這些模型不僅能夠生成流暢的文本,還能在各種任務(wù)中表現(xiàn)出色,如翻譯、摘要、問答等。盡管這些模型在許多方面表現(xiàn)出色,它們在邏輯推理,特別是條件推理和模態(tài)推理方面的能力仍然存在爭議。
條件推理和模態(tài)推理是邏輯學(xué)和認(rèn)知科學(xué)中的核心研究領(lǐng)域。條件推理,即“如果…那么…”的推理形式,是人類思維中最基本的邏輯結(jié)構(gòu)之一。例如,“如果下雨,那么地面會(huì)濕”就是一個(gè)典型的條件推理。模態(tài)推理則涉及“可能”、“必須”等模態(tài)詞的使用,這些詞語表達(dá)了不同的可能性和必然性。例如,“他可能在家”或“她必須完成作業(yè)”就是模態(tài)推理的例子。
在邏輯學(xué)中,條件推理和模態(tài)推理被廣泛研究,因?yàn)樗鼈兩婕暗竭壿嬤B接詞和模態(tài)運(yùn)算符的精確定義和使用。經(jīng)典邏輯中的材料條件分析(material conditional analysis)和模態(tài)邏輯中的可能世界語義(possible worlds semantics)是研究這些推理形式的主要方法。材料條件分析認(rèn)為,“如果p,那么q”在p為假或q為真時(shí)為真,而可能世界語義則通過量化可能世界來解釋模態(tài)詞的含義。
在認(rèn)知科學(xué)中,條件推理和模態(tài)推理被認(rèn)為是人類認(rèn)知能力的重要組成部分。研究表明,人類在日常生活中頻繁使用這些推理形式來進(jìn)行計(jì)劃、決策和問題解決。例如,當(dāng)我們考慮“如果我明天早起,我就能趕上早班車”時(shí),我們實(shí)際上是在進(jìn)行條件推理。同樣,當(dāng)我們說“他可能已經(jīng)離開了”時(shí),我們是在進(jìn)行模態(tài)推理。
7 月 4 日自加利福尼亞大學(xué)伯克利分校、紐約大學(xué)和麻省理工學(xué)院的研究團(tuán)隊(duì)發(fā)表修訂版論文《Conditional and Modal Reasoning in Large Language Models》,論文的主要研究問題是當(dāng)前最先進(jìn)的LLMs在處理?xiàng)l件推理和模態(tài)推理任務(wù)時(shí),能否做出與人類一致的判斷?具體來說,他們希望回答以下幾個(gè)問題:
- LLMs在處理涉及條件句和模態(tài)詞的推理任務(wù)時(shí),表現(xiàn)如何?
- LLMs在這些任務(wù)中是否存在邏輯不一致或錯(cuò)誤判斷?
- 不同的提示方法(如零樣本提示、少樣本提示和鏈?zhǔn)剿季S提示)對LLMs的推理能力有何影響?
- LLMs在邏輯推理任務(wù)中的表現(xiàn)與其他基準(zhǔn)測試(如Chatbot Arena、MMLU和GSM8K)有何關(guān)系?
通過回答這些問題,研究團(tuán)隊(duì)希望揭示LLMs在條件推理和模態(tài)推理方面的能力和局限,為未來的模型改進(jìn)和應(yīng)用提供參考。團(tuán)隊(duì)三位學(xué)者的合作結(jié)合了邏輯學(xué)、哲學(xué)和計(jì)算機(jī)科學(xué)的跨學(xué)科視角,為論文的研究提供了堅(jiān)實(shí)的理論基礎(chǔ)和技術(shù)支持。
圖1:對實(shí)驗(yàn)結(jié)果(第4節(jié))中討論的簡單邏輯推理模式的性能總結(jié) 。猜測準(zhǔn)確率為 50%。較大的模型通常表現(xiàn)更好,大多數(shù)模型在此任務(wù)中表現(xiàn)出明顯的弱點(diǎn)。
研究背景和相關(guān)工作
邏輯推理是人類認(rèn)知的重要組成部分,它涉及從一個(gè)或多個(gè)前提推導(dǎo)出結(jié)論的過程。在哲學(xué)中,邏輯推理被視為一種嚴(yán)格的思維方式,其有效性僅依賴于邏輯詞的含義,如“和”、“或”、“不”、“如果”、“必須”、“可能”等。邏輯推理的有效性意味著,如果前提為真,結(jié)論必然為真,無論前提和結(jié)論中的非邏輯詞如何理解(Tarski, 1936)。
這種嚴(yán)格的邏輯推理與日常生活中的推理有所不同。在日常生活中,人們常常進(jìn)行各種推理,這些推理不僅依賴于邏輯詞的含義,還涉及對世界知識(shí)和背景信息的理解。例如,“A在B的左邊,因此B在A的右邊”在邏輯上并不總是有效,因?yàn)槠湔_性依賴于“左”和“右”的具體含義。然而,“A在B的左邊,因此有東西在B的左邊”則是邏輯有效的,因?yàn)槠湔_性僅依賴于邏輯詞“有東西”的含義。
在大模型(LLMs)的研究中,邏輯推理被廣泛應(yīng)用于評估模型的推理能力。LLMs如GPT-4、Claude和Llama等,已經(jīng)展示了在生成流暢文本和處理復(fù)雜任務(wù)方面的強(qiáng)大能力。然而,評估這些模型在邏輯推理任務(wù)中的表現(xiàn),對于理解它們的推理能力和改進(jìn)模型具有重要意義。
邏輯推理任務(wù)通常包括多步推理和單步推理。多步推理需要從前提到假設(shè)的證明過程,而單步推理則關(guān)注基本的推理模式,如“如果p,那么q;非q;因此,非p”(Modus Tollens)。研究表明,LLMs在多步推理任務(wù)中表現(xiàn)出一定的能力,但在識(shí)別基本推理模式方面仍存在顯著差距(Tafjord et al., 2020; Tian et al., 2021)。
模態(tài)運(yùn)算符如“必須”和“可能”在邏輯學(xué)中被成功地建模為對可能世界的量化。例如,“必須下雨”表示在所有可能的世界中都在下雨,而“可能下雨”表示在某些可能的世界中在下雨。這種解釋方法產(chǎn)生了相應(yīng)的模態(tài)邏輯,其細(xì)節(jié)取決于如何獲得可能世界的域(Kripke, 1963; Kratzer, 1981)。
模態(tài)邏輯的研究進(jìn)展使得我們能夠更好地理解和分析模態(tài)運(yùn)算符的邏輯性質(zhì)。例如,模態(tài)邏輯可以幫助我們分析“可能”和“必須”之間的關(guān)系,以及它們在不同上下文中的使用方式。這對于理解自然語言中的模態(tài)表達(dá)具有重要意義。
條件運(yùn)算符“如果…那么…”也通過可能世界語義進(jìn)行分析。在經(jīng)典邏輯中,“如果p,那么q”被視為材料條件,其在p為假或q為真時(shí)為真。然而,這種處理方式被廣泛認(rèn)為不適用于自然語言中的“如果”。例如,根據(jù)材料條件分析,“如果學(xué)生努力學(xué)習(xí),那么她不會(huì)失敗”將意味著“每個(gè)學(xué)生都會(huì)努力學(xué)習(xí)”,顯然這并不符合我們的直覺(Stalnaker, 1968)。
相反,條件運(yùn)算符通常被視為一種受限的模態(tài)運(yùn)算符,表示在所有p世界中,q為真。這種解釋方法產(chǎn)生了相應(yīng)的條件邏輯,其細(xì)節(jié)取決于哪些p世界在域中,以及其他連接詞和運(yùn)算符的解釋方式(Stalnaker, 1968; Lewis, 1973b)。
材料條件分析和模態(tài)分析在處理?xiàng)l件句時(shí)存在顯著差異。材料條件分析認(rèn)為,“如果p,那么q”在p為假或q為真時(shí)為真,而模態(tài)分析則認(rèn)為,“如果p,那么q”表示在所有p世界中,q為真。盡管材料條件分析在形式邏輯中具有簡潔性和一致性,但它在處理自然語言中的條件句時(shí)往往不符合我們的直覺。
例如,根據(jù)材料條件分析,“如果下雨,那么地面濕”在下雨為假時(shí)為真,即使地面實(shí)際上是干的。然而,模態(tài)分析則認(rèn)為,這種條件句在所有下雨的世界中,地面都是濕的,更符合我們的直覺和實(shí)際經(jīng)驗(yàn)。因此,模態(tài)分析在處理自然語言中的條件句時(shí),通常被認(rèn)為更為準(zhǔn)確和有效。
自然語言推理(NLI)是一種評估模型理解和推理能力的任務(wù)格式。在NLI任務(wù)中,模型需要判斷一個(gè)前提和一個(gè)假設(shè)之間的關(guān)系,具體來說,前提是否蘊(yùn)涵、矛盾或與假設(shè)無關(guān)。NLI任務(wù)通?;诔WR(shí)推理,而不是嚴(yán)格的邏輯推理(Bowman et al., 2015; Williams et al., 2018)。
NLI任務(wù)的評估方法通常包括準(zhǔn)確率、召回率和F1分?jǐn)?shù)等指標(biāo)。這些指標(biāo)用于衡量模型在不同推理任務(wù)中的表現(xiàn),幫助研究人員評估和改進(jìn)模型的推理能力。
本研究與傳統(tǒng)的NLI任務(wù)有所不同。首先,本研究專注于單步邏輯推理,而不是一般的常識(shí)推理。我們關(guān)注的是模型在處理基本邏輯推理模式時(shí)的表現(xiàn),如Modus Tollens、Modus Ponens等,而不是復(fù)雜的多步推理或常識(shí)推理任務(wù)。
其次,本研究引入了哲學(xué)、語言學(xué)和邏輯學(xué)中關(guān)于條件句和模態(tài)的復(fù)雜方法。這些方法幫助我們更準(zhǔn)確地評估模型在處理?xiàng)l件句和模態(tài)詞時(shí)的邏輯推理能力,而不僅僅是基于常識(shí)和背景知識(shí)的推理。
實(shí)驗(yàn)設(shè)計(jì)
模型選擇
在本研究中,我們測試了25個(gè)大型語言模型(LLMs),這些模型包括開源和閉源的不同版本。具體來說,這些模型涵蓋了Anthropic、Google和OpenAI等公司的產(chǎn)品,以及一些本地運(yùn)行的模型。測試的模型包括但不限于以下幾種:
GPT-4系列:包括GPT-4 Turbo(2024-04-09)、GPT-4 Turbo(1106)、GPT-4(0613)、GPT-4(0314)和GPT-4o(2024-05-13)。
Claude系列:包括Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。
Llama系列:包括Llama 3 Instruct 70B、Llama 3 Instruct 8B、Llama 2 Chat 13B、Llama 2 Chat 70B和Llama 2 Chat 7B。
其他模型:如Gemini 1.5 Pro、Gemini 1.5 Flash、Mixtral 8x7B、Phi-2、Mistral 7B、Code Llama 13B、Code Llama 7B、Code Llama 34B、GPT-3.5 Turbo(0613)、GPT-3.5 Turbo(0125)、GPT-3.5 Turbo(1106)和Yi Chat 34B。
這些模型的選擇旨在涵蓋不同的架構(gòu)和訓(xùn)練方法,以便全面評估LLMs在條件和模態(tài)推理任務(wù)中的表現(xiàn)。
表1:檢驗(yàn)的推論;p、 q表示模態(tài)/條件自由命題,?表示“not”,∧表示“or”,→表示“if…”。然后“可能”,?表示“必須”。φ1, . . . , φn?ψ是從前提φ1,φn到結(jié)論ψ。圖1總結(jié)了所有且僅在沒有模態(tài)的無爭議推理上的成功。
對于Anthropic、Google和OpenAI的模型,我們通過各自的API進(jìn)行測試。這些API提供了訪問模型的接口,使我們能夠在云端運(yùn)行推理任務(wù)。對于本地模型,我們使用了LM Studio在Apple M2 Ultra Mac Studio上創(chuàng)建本地推理服務(wù)器。所有本地模型都是在Hugging Face上提供的Q6_K GGUF格式的6位量化版本。這種設(shè)置確保了我們能夠在本地環(huán)境中高效地運(yùn)行推理任務(wù),同時(shí)保持模型的性能和準(zhǔn)確性。
數(shù)據(jù)集構(gòu)建
為了評估LLMs的推理能力,我們創(chuàng)建了一個(gè)包含多個(gè)推理模式的問題庫。這些推理模式包括經(jīng)典的邏輯推理模式,如Modus Tollens(MT)、Modus Ponens(MP)、析取消去(DS)等。每個(gè)推理模式的問題庫包含多個(gè)實(shí)例,以便全面測試模型在不同推理任務(wù)中的表現(xiàn)。
為了確保模型的推理能力評估不受世界知識(shí)的影響,我們?yōu)槊總€(gè)推理模式設(shè)計(jì)了范例實(shí)例和無意義謂詞實(shí)例。例如,對于Modus Tollens(MT),我們設(shè)計(jì)了以下范例實(shí)例:“如果瑪麗參加了婚禮,那么蘇參加了婚禮;蘇沒有參加婚禮;因此,瑪麗沒有參加婚禮。”此外,我們還使用Claude 2創(chuàng)建了19個(gè)額外實(shí)例和20個(gè)無意義謂詞的實(shí)例,如:“如果flugel被blimmed,那么flugel被zargled;flugel沒有被zargled;因此,flugel沒有被blimmed?!边@些無意義謂詞實(shí)例確保了模型的推理判斷基于邏輯形式,而不是具體的世界知識(shí)。
為了測試前提順序?qū)ν评斫Y(jié)果的影響,我們?yōu)槊總€(gè)推理模式設(shè)計(jì)了前提順序交換的版本。例如,對于Modus Tollens(MT),我們設(shè)計(jì)了前提順序交換的版本(MTx),即交換前提的順序。此外,我們還設(shè)計(jì)了無意義謂詞和前提順序交換的組合版本(ox),以全面評估模型在不同前提順序下的推理能力。
表2:在不同提示設(shè)置下,一些簡單推斷的模型性能。
評估方法
在評估過程中,我們對每個(gè)推理模式的問題實(shí)例和每個(gè)LLM進(jìn)行了多次測試,設(shè)置了不同的溫度和提示條件。具體來說,我們在溫度為0和1的情況下進(jìn)行了測試,并使用了零樣本、少樣本和零樣本鏈?zhǔn)剿季S提示條件。溫度設(shè)置為0時(shí),模型的輸出更為確定,而溫度設(shè)置為1時(shí),模型的輸出更具隨機(jī)性。提示條件包括零樣本提示(直接給出問題)、少樣本提示(提供幾個(gè)示例)和零樣本鏈?zhǔn)剿季S提示(引導(dǎo)模型逐步推理)。
為了確保我們的評估結(jié)果具有可靠性,我們進(jìn)行了相關(guān)性分析和詞語敏感性測試。具體來說,我們計(jì)算了模型在無意義謂詞實(shí)例和有意義謂詞實(shí)例上的回答頻率之間的皮爾遜相關(guān)系數(shù)。高相關(guān)性表明模型的推理判斷主要基于邏輯形式,而不是具體實(shí)例的特征。此外,我們測試了使用不同詞語(如“推斷”、“得出結(jié)論”等)對結(jié)果的敏感性,發(fā)現(xiàn)使用不同詞語對結(jié)果影響不大。
通過這些評估方法,我們能夠全面、準(zhǔn)確地評估LLMs在條件和模態(tài)推理任務(wù)中的表現(xiàn),為理解和改進(jìn)模型提供了重要的參考依據(jù)。
實(shí)驗(yàn)結(jié)果
材料分析與模態(tài)分析的差異
在邏輯推理中,材料條件分析和模態(tài)分析是兩種主要的方法。材料條件分析認(rèn)為,“如果p,那么q”在p為假或q為真時(shí)為真,而模態(tài)分析則認(rèn)為,“如果p,那么q”表示在所有p世界中,q為真。在本研究中,我們特別關(guān)注了兩種推理模式:CT(Conditional Transitivity)和AS(Antecedent Strengthening)。
根據(jù)材料條件分析,CT推理模式是有效的。然而,模態(tài)分析和直覺反例表明,CT推理模式實(shí)際上無效。例如,從“如果下雨,那么不下大雨”推導(dǎo)出“如果下大雨,那么不下雨”顯然是不合理的,但如果CT有效,這種推理模式就會(huì)成立(Stalnaker, 1968)。
類似地,AS推理模式在材料條件分析中是有效的,但模態(tài)分析和直覺反例表明,AS推理模式實(shí)際上無效。例如,從“如果火柴被劃燃,它會(huì)點(diǎn)燃”推導(dǎo)出“如果火柴被劃燃且被浸泡在水中,它會(huì)點(diǎn)燃”顯然是不合理的(Stalnaker, 1968)。
在我們的實(shí)驗(yàn)中,LLMs在拒絕CT和AS推理模式方面表現(xiàn)出與人類判斷一致的傾向。這表明,LLMs在處理自然語言中的條件句時(shí),并不像材料條件那樣進(jìn)行推理,而是更接近于模態(tài)分析。這一發(fā)現(xiàn)強(qiáng)調(diào)了在評估LLMs的推理能力時(shí),不應(yīng)簡單地假設(shè)材料條件分析的有效性,否則可能會(huì)錯(cuò)誤地認(rèn)為模型在這些情況下犯了錯(cuò)誤。
不一致性和過度泛化
我們測試了多種涉及模態(tài)與條件句或析取交互的推理模式。這些推理模式特別有趣,因?yàn)檎軐W(xué)和邏輯學(xué)的研究表明,替換模態(tài)句子可以改變推理模式的有效性。例如,析取消去(DS)在布爾句子中是有效的,但在模態(tài)句子中則不一定有效(DSmu)。類似地,否定前件(MT)在布爾句子中是有效的,但在模態(tài)句子中則不一定有效(MTmu)。
圖2:MTmu(上圖)和MTmi(下圖)的零樣本響應(yīng)顯示了許多模型的不一致性。
圖 3:DSmu(上圖)和 DSmi(下圖)的零樣本響應(yīng)顯示許多模型存在不一致。
圖4:當(dāng)我們按某種順序同時(shí)詢問領(lǐng)先模型有關(guān) DSmu、MiN 和 DSmi 的問題時(shí),聯(lián)合一致的響應(yīng)百分比。較大的標(biāo)準(zhǔn)差(誤差線)表明對問題順序具有很強(qiáng)的敏感性,這是非常不理想的。
我們的研究發(fā)現(xiàn),許多LLMs在這些復(fù)雜推理模式上表現(xiàn)出過度泛化的傾向。例如,盡管人類能夠識(shí)別MTmu、DSmu和CMP(Conditional Modus Ponens)推理模式的無效性,許多LLMs卻不能。這表明,LLMs在處理這些復(fù)雜推理模式時(shí),往往會(huì)從簡單的布爾情況過度泛化到更復(fù)雜的情況。
在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)一些模型在拒絕MTmi(模態(tài)否定前件)時(shí)表現(xiàn)出類似人類的判斷,但同時(shí)接受MTmu,這在邏輯上是不一致的。這種不一致性表明,LLMs在處理模態(tài)和條件句的交互時(shí),可能會(huì)出現(xiàn)邏輯錯(cuò)誤。此外,我們還發(fā)現(xiàn),即使是表現(xiàn)最好的模型,在處理CMP推理模式時(shí),仍然會(huì)以高頻率接受其有效性,這與人類判斷相悖。
圖5:CMP、零樣本(上圖)和思維鏈(下圖)的反應(yīng);LLM被問及推理是否保留了可能性,即當(dāng)p→(q→r)是確定的并且p是可能的時(shí),如果q→r必須是可能的。
與流行基準(zhǔn)測試的關(guān)系
為了將我們的邏輯推理任務(wù)與LLMs評估的廣泛領(lǐng)域進(jìn)行比較,我們將模型在我們的基準(zhǔn)測試(非爭議性推理)上的表現(xiàn)與Chatbot Arena(通用輔助)、MMLU(領(lǐng)域知識(shí))和GSM8K(數(shù)學(xué)推理)等流行基準(zhǔn)測試進(jìn)行了比較。結(jié)果顯示,我們的結(jié)果與這些基準(zhǔn)測試的結(jié)果高度相關(guān)。
這種高相關(guān)性支持了邏輯推理能力與數(shù)學(xué)推理能力及領(lǐng)域通用能力相關(guān)的假設(shè)。這表明,邏輯推理能力不僅與數(shù)學(xué)推理能力相關(guān),還與模型的整體能力密切相關(guān)。未來的研究可以進(jìn)一步探討這種因果關(guān)系:提高邏輯推理能力是否也能提高模型的其他推理和輔助能力。
圖6:我們的評估結(jié)果(零樣本)與 LMSYS Elo 評分、MMLU 分?jǐn)?shù)和 GSM8k 分?jǐn)?shù)的相關(guān)性。相關(guān)性分別為 0.74、0.77 和 0.72。所有 p 值均小于 0.01。
討論
在本研究中,我們測試了25個(gè)大型語言模型(LLMs)在條件和模態(tài)推理任務(wù)中的表現(xiàn)??傮w而言,較大的模型在這些推理任務(wù)中表現(xiàn)更好,這與我們在過去幾年中對LLMs的認(rèn)識(shí)一致。具體來說,GPT-4系列模型在大多數(shù)推理任務(wù)中表現(xiàn)優(yōu)異,特別是在零樣本鏈?zhǔn)剿季S提示條件下,表現(xiàn)尤為突出。
即使是最先進(jìn)的模型在某些推理任務(wù)中仍然表現(xiàn)出不一致和反直覺的推理行為。例如,盡管GPT-4系列模型在許多推理模式上表現(xiàn)出色,但在處理涉及模態(tài)和條件句交互的復(fù)雜推理模式時(shí),仍然會(huì)出現(xiàn)邏輯不一致的情況。這表明,盡管LLMs在許多方面已經(jīng)接近人類水平,但在處理某些復(fù)雜推理任務(wù)時(shí)仍存在顯著差距。
鏈?zhǔn)剿季S提示(Chain-of-Thought,CoT)是一種引導(dǎo)模型逐步推理的方法。在我們的實(shí)驗(yàn)中,鏈?zhǔn)剿季S提示顯著提高了模型在推理任務(wù)中的表現(xiàn)。具體來說,GPT-4系列模型、Gemini 1.5 Pro和Claude 3 Opus在使用鏈?zhǔn)剿季S提示時(shí),幾乎達(dá)到了完美的準(zhǔn)確率(98.6%以上),而Llama 3 70B也能夠達(dá)到90%以上的準(zhǔn)確率。
這種提示方法的有效性表明,通過引導(dǎo)模型逐步推理,可以顯著提高其在復(fù)雜推理任務(wù)中的表現(xiàn)。這一發(fā)現(xiàn)對于未來的模型改進(jìn)具有重要意義,因?yàn)樗砻?,通過適當(dāng)?shù)奶崾竞鸵龑?dǎo),可以幫助模型更好地理解和處理復(fù)雜的推理任務(wù)。
盡管鏈?zhǔn)剿季S提示在許多情況下顯著提高了模型的表現(xiàn),但我們?nèi)匀蛔R(shí)別出了一些不一致和反直覺的推理行為。例如,在處理MTmu(模態(tài)否定前件)和DSmu(模態(tài)析取消去)等復(fù)雜推理模式時(shí),許多模型表現(xiàn)出過度泛化的傾向,即從簡單的布爾情況過度泛化到更復(fù)雜的模態(tài)情況。
此外我們還發(fā)現(xiàn),即使是表現(xiàn)最好的模型,在處理CMP(條件推理模式)時(shí),仍然會(huì)以高頻率接受其有效性,這與人類判斷相悖。這些不一致和反直覺的推理行為表明,LLMs在處理某些復(fù)雜推理任務(wù)時(shí),可能會(huì)出現(xiàn)邏輯錯(cuò)誤和判斷失誤。
未來的研究可以進(jìn)一步探討LLMs與人類受試者在推理任務(wù)中的行為比較。盡管本研究報(bào)告了專家人類判斷,但實(shí)驗(yàn)性人類受試者的判斷可能會(huì)展示出與LLMs類似或不同的錯(cuò)誤。這種比較可以幫助我們更好地理解LLMs在推理任務(wù)中的表現(xiàn),并為改進(jìn)模型提供參考。
研究主要集中在一些經(jīng)典的推理模式,如Modus Tollens、Modus Ponens和析取消去等。未來的研究可以探索更多的推理模式,特別是涉及模態(tài)、條件句以及其他邏輯運(yùn)算符的推理模式。例如,廣義量詞、態(tài)度謂詞和程度結(jié)構(gòu)等推理模式也值得進(jìn)一步研究。
模態(tài)和條件推理與其他推理主題,如概率推理、因果模型和心理模擬等,有著天然的聯(lián)系。未來的研究可以探討模態(tài)和條件語言在這些推理主題中的應(yīng)用。例如,模態(tài)和條件語言可以提供另一種視角來研究LLMs和人類在概率推理和因果推理中的表現(xiàn)。
本研究揭示了LLMs在條件和模態(tài)推理任務(wù)中的表現(xiàn)和局限,為未來的模型改進(jìn)和應(yīng)用提供了重要的參考。通過進(jìn)一步探索這些推理模式的復(fù)雜性,以及與其他推理主題的聯(lián)系,我們可以更好地理解和改進(jìn)LLMs的推理能力。(END)
參考資料:https://arxiv.org/pdf/2401.17169
本文轉(zhuǎn)載自 ??大噬元獸??,作者: FlerkenS
