大模型玩不好數獨？！Transformer作者初創公司公布排行榜：o3 Mini High“變異數獨”正確率僅2.9%

2025-05-29 08:47:00

人工智能新聞

Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試，用于衡量人工智能的多層次和創造性推理能力。

大模型做數獨，總體正確率只有15%？？？

繼出場自帶十篇完整學術論文的史上首個“AI科學家”之后，Transformer作者Llion Jones又帶著他的創業公司Sakana AI來搞事情了。

這次，Sakana AI公布了一個AI模型解決數獨問題能力的排行榜。

問題集是該公司推出的全新基準Sudoku-Bench，包含了從簡單的4x4到復雜的9x9現代數獨問題，旨在考驗大模型創造性推理能力。

榜單顯示，大模型不僅總體正確率只有15%，在9×9的現代數獨中，即使是高性能模型o3 Mini High，正確率也只有2.9%。

Sudoku-Bench項目在2025NVIDIA GTC開發者大會上進行了展示。

NVIDIA首席執行官黃仁勛對此評價：

像數獨這樣的謎題將有助于提高AI的推理能力。

Sudoku-Bench全新基準測試

Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試，用于衡量人工智能的多層次和創造性推理能力。

1、現有問題：大模型的 “記憶依賴癥”

目前大多數推理基準測試存在一個缺陷：大模型往往通過記憶標準答案或固定模式來完成任務，而不是真正運用邏輯推理能力。

當遇到與訓練數據中 “類似” 的問題時，模型會直接套用記憶中的解決方案，而非通過邏輯推導得出答案。

對于全新規則或未見過的模式，模型往往無法有效應對，因為缺乏可直接匹配的記憶模板。

傳統數獨游戲對大模型來說可能已經 “太簡單”，它們可能只是記住了套路，而不是學會如何創造性地解決新問題。

2、解決方案：Sudoku-Bench用 “變異數獨” 考倒大模型

近年來，各種各樣具有獨特規則的衍生謎題出現。

這些“變異數獨”謎題需要多步驟和創造性的推理技巧，但只有一個正確答案，特點是無法通過記憶解決，必須通過多步邏輯推理找到 “突破口”。

這些特點使得“變異數獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數獨”示例，你不僅需要遵循原始規則，而且沿著彩色線條排列的數字還需要遵循額外的規則。

Sudoku-Bench基準包括傳統和現代數獨（變異數獨）問題，難度分級，從當前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。

Sudoku-Bench還包含了由Nikoli（日本著名的數獨公司，數獨正是其名稱的由來）提供的100道手工數獨題。

3、大模型的 “慘敗”：基線實驗結果

在今年3月該基準發布后，研究人員測試了多個AI模型，包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內的最先進大模型。

為了給模型一個公平的機會，團隊為模型提供了部分完成的謎題，并評估它們完成謎題的能力。

結果顯示，一些模型在這種輔助下表現得相當不錯，但關鍵結果在于最后兩列。

即使是最先進的模型，平均連一個正確的數字都放不下，而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示：

無工具輔助時，所有模型在100個謎題中的總體正確率低于15%；
小網格（4x4）表現稍好（40%-73% 正確率），但9x9網格幾乎全敗，正確率接近0%，即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
模型常犯錯誤包括：錯誤解答、放棄解題、誤判規則矛盾，尤其是面對需要 “突破口” 的謎題時，只會盲目猜測，無法像人類一樣通過邏輯鏈縮小搜索范圍。

測試團隊詳細列出了模型在每個謎題上的表現，感興趣的朋友可戳文末鏈接查看～

關于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones（Transformer作者之一）和David Ha于2023 年7月在東京成立，主要對生成文本和圖像的AI基本模型進行研究。

此前，該公司開源發布了AI科學家和AI審稿人，前者一出場就獨自完成了十篇完整的學術論文，包括但不限于擴散模型方向、Transformer與強化學習等，引起了不小的轟動。

后者能對AI寫的論文進行評審，提供改進意見，主打“以我之矛攻我之盾”。

該公司還發布了一種名為“連續思維機器 (CTM)”的新型AI模型，通過像人類一樣“逐步”思考并學習世界的內部模型，超越了簡單的模式識別，并獲得了逐步解決迷宮等復雜問題的能力。

Sakana AI還與Cracking The Cryptic（YouTube 上最大的謎題評論頻道之一）合作，Cracking The Cryptic每天都會演示一些世界上最好的數獨謎題的邏輯解決方案。

Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數據。這些數據可以作為訓練AI推理模型的理想數據，并與Sudoku-Bench一起發布。

著名的數獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數獨游戲：沿著Sakana AI紅色標志線相鄰的任何數字都必須包含一個偶數和一個奇數。

感興趣的朋友可以嘗試一下（解答過程已附在文末）～

技術報告：https://arxiv.org/abs/2505.16135

排行榜：https://pub.sakana.ai/sudoku/

Github：https://github.com/SakanaAI/Sudoku-Bench

奇偶魚題目：https://sudokupad.app/wsj7iunsg6解答過程：https://www.youtube.com/watch?v=JdHSSNKuIzU

責任編輯：張燕妮來源：量子位

模型推理測試

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型玩不好數獨？！Transformer作者初創公司公布排行榜：o3 Mini High“變異數獨”正確率僅2.9%

Sudoku-Bench全新基準測試

關于Sakana AI