成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="oo6ii"><tbody id="oo6ii"></tbody></rt>

<cite id="oo6ii"><tbody id="oo6ii"></tbody></cite>

<bdo id="oo6ii"><noscript id="oo6ii"></noscript></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

推理正確率下降65.5%！斯坦福、MIT等用「不等式」拷問AI邏輯極限

作者：新智元 2025-06-23 15:22:21

大語言模型在數學證明中常出現推理漏洞，如跳步或依賴特殊值。斯坦福等高校團隊提出IneqMath基準，將不等式證明拆解為可驗證的子任務。結果顯示，模型的推理正確率遠低于答案正確率，暴露出其在數學推理上的缺陷。

在大模型頻頻給出「看似完美」答案的今天，我們是否已經迎來了真正「會推理」的AI？

多位網友分享了自己的經歷，「我試過用LLMs做正割和正切的定理的證明，但是結果錯誤的太多了！」

圖片

「大語言模型在解題的時候可能只是從訓練數據集中概括了推理模式，但是并沒有具體問題用具體的方法分析。」

圖片

「大語言模型的幻覺始終是諸多人工智能應用（包括數學證明）的主要障礙！」

圖片

這些大模型在面對數學證明題目時，自信滿滿地輸出了「解題思路」和「證明過程」，一切看上去井井有條。但你是否注意到，很多推理其實沒有解釋關鍵步驟，甚至直接用一個「看起來合理的句子」替代了邏輯推導？

這不是個別現象，而是結構性問題。近日，來自斯坦福大學、麻省理工學院（MIT）與加州大學伯克利分校的研究團隊聯(lián)合提出了一個創(chuàng)新性數學不等式基準IneqMath，專門用于評估語言模型在復雜數學推理中的嚴謹性與合理性。

圖片

論文鏈接：https://arxiv.org/abs/2506.07927

官方網站：ineqmath.github.io

數據集鏈接：https://huggingface.co/datasets/AI4Math/IneqMath

代碼鏈接：https://github.com/lupantech/ineqmath

在線排行榜：https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

題目可視化展示：https://ineqmath.github.io/#visualization

圖片

圖片

AI會答題，但它真的會「證明」嗎？

過去幾年，像GPT-4、Claude、Gemini等大模型不斷刷新我們對AI能力的認知。它們已經能寫論文、解題，甚至「解釋」自己的推理過程。

但研究者發(fā)現一個驚人的現象：很多模型確實能給出正確答案，但它們的推理過程卻漏洞百出，比如：

跳過中間關鍵步驟，直接下結論
用特殊數值代入來「猜測」一般規(guī)律
數值近似粗糙，邏輯推導不閉合
寫得像人話，但并不是真正的數學語言

這意味著，當前大模型并不具備穩(wěn)定、可靠的邏輯結構。它們可以「合理地猜對」，但無法「嚴格地推理對」。

讓AI暴露推理盲點

為了解決這一問題，研究團隊構建了全新的數學評測體系IneqMath，核心思路是：

用不等式證明題作為切入點
將證明過程拆解為「選擇題」和「填空題」形式的自然語言任務，包括Bound Estimation（界限估計）和Relation Prediction（關系預測）
構建訓練、驗證與測試數據集，涵蓋奧數級難度題目與復雜定理組合
引入五種「自動評審器」，構成LLM-as-Judge框架，審查模型每一步推理的合理性

這種「非形式化但可驗證」的方法，比單純要求形式邏輯更貼近人類實際思維，也能同時定量衡量大語言模型的答案和過程的推理準確性。

其中Bound Estimation（界限估計）和Relation Prediction（關系預測）的題目示例如下：

Bound Estimation（界限估計）測試集題目示例

Relation Estimation（關系判斷）測試集題目示例

從多維角度審查AI推理過程

為了深入評估大模型的推理嚴謹性，研究團隊設計了一個名為LLM-as-Judge的自動審查框架，內部由五個獨立的「評審器」組成，專門從多個維度對模型的解題過程進行細致分析。

這些「評委」分別是Final Answer Judge用來衡量最終的答案是否正確、和4個Step-wise Judge用來從不同的維度衡量推理的步驟是否是正確的。

借助這一系統(tǒng)，研究者不再僅僅關注模型「猜得準」與否，而是能逐步拆解每一步邏輯鏈，判斷模型是否真正具備嚴密推理的能力，而非只是「蒙對了結論」。

這4個Step-wise Judge分別是Toy Case Judge、Logical Gap Judge、Numerical Approximation Judge、Numerical Computation Judge

Toy Case Judge

它的職責是識別模型是否通過代入個別特殊數值（如a=1, b=2）來推導出對所有情況都成立的結論。

圖片

可以看到，該模型在求解過程中借助特定數值的帶入，并依賴代入后表達式的大小關系來推斷其最小上界，這實際上是一種以有限實例推及普遍結論的推理方式。

Toy Case Judge針對模型結果中這種通過特殊取值進行推斷的現象進行了深入剖析，精準地定位了問題，并最終判定為False，說明該結論因基于特例而不具備普遍性，應視為不正確。

Logical Gap Judge

它主要負責判斷模型的推理鏈條中是否存在關鍵步驟的跳過、推導中缺乏解釋的等價變換，或者直接從條件躍遷到結論而沒有交代中間過程。

圖片

可以看到，該語句聲稱「數值檢驗確認最小值發(fā)生在 x = 1」，卻完全未展示任何實際數值結果、評估過程或可視／分析證據來支撐這一說法，這實際上是一種無充足依據的斷言式推理。

Logical Gap Judge針對這類缺乏實證數據與分析佐證的論斷進行了深入評估，精準定位了其中的邏輯空缺，并最終判定為False，指出該結論因證據不足而不具備說服力，應被視為錯誤。

Numerical Approximation Judge

它會檢查模型是否使用了模糊不清的數值估算替代了精確計算，進而破壞了數學證明所要求的嚴謹性。

圖片

可以看到，上述計算依賴于三角函數的近似十進制值。僅通過將S的近似值與114做比較來推斷二者關系，并不具備嚴格的數學依據。

這正是Numerical Approximation Judge所關注的問題：針對這種因過度依賴粗糙近似而產生的誤導性結論，Judge進行了詳盡審查，精確識別了其中的數值近似漏洞，最終判定為False，表明該結論因數值近似失當而不夠嚴謹，應被視為錯誤。

Numerical Computation Judge

它專注于捕捉模型在基礎運算中出現的錯誤，比如簡單的乘法加法算錯，或者代入過程中產生了錯誤的數值推導。

圖片

可以看到，Numerical Computation Judge會首先從響應文本中自動識別出所有的數值計算的表達式

然后基于這些等式生成對應的驗證代碼（這里使用了Sympy的Rational類型）執(zhí)行后卻發(fā)現出現了數值計算上的錯誤。

Numerical Computation Judge正是通過這種提取–編碼–執(zhí)行的數值檢驗流程，精準地定位到計算環(huán)節(jié)的遺漏或錯誤，并最終判定該推斷為False，指出原步驟因數值計算不正確而錯誤。

令人震驚的「Soundness Gap」

研究團隊使用LLM-as-Judge在GPT-4、Claude、Grok、Gemini、Llama等29款主流模型上進行了系統(tǒng)評估，結果顯示：

Grok3 mini最終答案正確率達71.5%，但推理過程正確率僅為6.0%
所有模型推理正確率最多下降65.5%，說明它們經常「猜得準但講不清」
開源模型（如Mistral、Llama）的「邏輯嚴謹性」表現最弱，不超過6%

這意味著目前大語言模型推理鏈條中存在嚴重結構性缺陷，即使答對了，也無法保證中間過程有邏輯閉環(huán)。

圖片

IneqMath打榜

為了推動大語言模型在嚴謹數學論證上的突破，科研團隊搭建了一個持續(xù)更新的IneqMath排行榜，向全球開發(fā)者開放提交。

不論你是在調試輕量化模型，還是在優(yōu)化頂級推理系統(tǒng)，都能將成果上傳平臺，自動化評測其答案正確率與推理完整度。

圖片

排行榜鏈接：https://huggingface.co/spaces/AI4Math/IneqMath-Leaderboard

排行榜提供多種篩選功能，讓您輕松挑選感興趣的模型類別；只需點擊表頭，即可按照任意字段自定義排序。頁面還直觀展示了各模型的關鍵參數，便于快速對比與查看。

如需提交自己的模型結果，點擊進入網頁后即可看到提交界面。上傳模型的結果，并填寫對應的模型參數后，您的模型結果就會自動的在后臺進行評估。

提交后，點擊頁面上方的「Process Query」按鈕，輸入「提交時填寫的郵箱地址」，即可查看評估結果。

在此界面，你可以將成績一鍵發(fā)布至公共排行榜，向大家展示你的出色表現；如對當前排名不滿意，也可隨時在此將其移除。

參考資料：https://ineqmath.github.io/

責任編輯：武曉燕來源：新智元

斯坦福不等式 AI

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：欧美性久久久 | 羞羞视频在线观看 | 中文字幕亚洲视频 | 成人看片在线观看 | 国产一区视频在线 | 日韩一区二区三区四区五区 | 2020天天操 | 丁香婷婷久久久综合精品国产 | 成人午夜高清 | 亚洲视频一区二区三区 | 热久久性| 7777精品伊人久久精品影视 | 亚洲激情视频在线 | 人人九九精| jizz18国产 | 日韩一级免费电影 | 免费在线视频精品 | 国产高清精品一区二区三区 | 国内久久| 精久久 | 亚洲精品小视频在线观看 | 在线成人免费视频 | 精品久久久久久亚洲精品 | 国产精品美女视频 | 国产第一页在线播放 | 国产91精品网站 | 亚洲一区在线日韩在线深爱 | 欧美一级欧美三级在线观看 | 日本一区视频在线观看 | 午夜一区二区三区在线观看 | 天天干天天干 | 国产极品粉嫩美女呻吟在线看人 | 国产精品久久久久久久久久久久久 | 国产资源在线观看 | a级在线免费观看 | 成年人国产在线观看 | 亚州国产| 中文字幕视频在线免费 | 青青久久 | 午夜在线视频一区二区三区 | 在线观看中文字幕 |

<center id="ckqei"><table id="ckqei"></table></center>

<abbr id="ckqei"><code id="ckqei"></code></abbr>

<samp id="ckqei"><noscript id="ckqei"></noscript></samp>

<abbr id="ckqei"></abbr>