成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型玩不好數獨?!Transformer作者初創公司公布排行榜:o3 Mini High“變異數獨”正確率僅2.9%

人工智能 新聞
Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試,用于衡量人工智能的多層次和創造性推理能力。

大模型做數獨,總體正確率只有15%???

圖片

繼出場自帶十篇完整學術論文的史上首個“AI科學家”之后,Transformer作者Llion Jones又帶著他的創業公司Sakana AI來搞事情了。

這次,Sakana AI公布了一個AI模型解決數獨問題能力的排行榜

問題集是該公司推出的全新基準Sudoku-Bench,包含了從簡單的4x4到復雜的9x9現代數獨問題,旨在考驗大模型創造性推理能力

榜單顯示,大模型不僅總體正確率只有15%,在9×9的現代數獨中,即使是高性能模型o3 Mini High,正確率也只有2.9%。

圖片

Sudoku-Bench項目在2025NVIDIA GTC開發者大會上進行了展示。

NVIDIA首席執行官黃仁勛對此評價:

像數獨這樣的謎題將有助于提高AI的推理能力。

圖片

Sudoku-Bench全新基準測試

Sudoku-Bench是Sakana AI在今年3月發布的一項由不同難度級別的數獨謎題組成的基準測試,用于衡量人工智能的多層次和創造性推理能力。

1、現有問題:大模型的 “記憶依賴癥”

目前大多數推理基準測試存在一個缺陷:大模型往往通過記憶標準答案或固定模式來完成任務,而不是真正運用邏輯推理能力

當遇到與訓練數據中 “類似” 的問題時,模型會直接套用記憶中的解決方案,而非通過邏輯推導得出答案。

對于全新規則或未見過的模式,模型往往無法有效應對,因為缺乏可直接匹配的記憶模板。

傳統數獨游戲對大模型來說可能已經 “太簡單”,它們可能只是記住了套路,而不是學會如何創造性地解決新問題。

2、解決方案:Sudoku-Bench用 “變異數獨” 考倒大模型

近年來,各種各樣具有獨特規則的衍生謎題出現。

這些“變異數獨”謎題需要多步驟和創造性的推理技巧,但只有一個正確答案,特點是無法通過記憶解決,必須通過多步邏輯推理找到 “突破口”。

這些特點使得“變異數獨”成為測試AI推理能力的理想選擇。

以下就是一個“變異數獨”示例,你不僅需要遵循原始規則,而且沿著彩色線條排列的數字還需要遵循額外的規則。

圖片

Sudoku-Bench基準包括傳統和現代數獨(變異數獨)問題,難度分級,從當前模型可以解決的簡單問題到甚至最先進的推理模型也無法處理的極其困難的問題。

圖片

Sudoku-Bench還包含了由Nikoli(日本著名的數獨公司,數獨正是其名稱的由來)提供的100道手工數獨題

圖片

3、大模型的 “慘敗”:基線實驗結果

在今年3月該基準發布后,研究人員測試了多個AI模型,包括Gemini 2.5 Pro、GPT-4.1、Claude 3.7等在內的最先進大模型。

為了給模型一個公平的機會,團隊為模型提供了部分完成的謎題,并評估它們完成謎題的能力。

圖片

結果顯示,一些模型在這種輔助下表現得相當不錯,但關鍵結果在于最后兩列。

即使是最先進的模型,平均連一個正確的數字都放不下,而OpenAI最新的推理模型ChatGPT o3是唯一能夠解決基準測試中所有謎題的模型。

最新的排行榜顯示:

  • 無工具輔助時,所有模型在100個謎題中的總體正確率低于15%
  • 小網格(4x4)表現稍好(40%-73% 正確率),但9x9網格幾乎全敗,正確率接近0%,即使是高性能模型“o3 Mini High”的正確率也只有2.9%。
  • 模型常犯錯誤包括:錯誤解答、放棄解題、誤判規則矛盾,尤其是面對需要 “突破口” 的謎題時,只會盲目猜測,無法像人類一樣通過邏輯鏈縮小搜索范圍。

圖片

測試團隊詳細列出了模型在每個謎題上的表現,感興趣的朋友可戳文末鏈接查看~

關于Sakana AI

Sakana AI由前谷歌研究人員Llion Jones(Transformer作者之一)和David Ha于2023 年7月在東京成立,主要對生成文本和圖像的AI基本模型進行研究。

此前,該公司開源發布了AI科學家AI審稿人,前者一出場就獨自完成了十篇完整的學術論文,包括但不限于擴散模型方向、Transformer與強化學習等,引起了不小的轟動。

后者能對AI寫的論文進行評審,提供改進意見,主打“以我之矛攻我之盾”。

圖片

該公司還發布了一種名為“連續思維機器 (CTM)”的新型AI模型,通過像人類一樣“逐步”思考并學習世界的內部模型,超越了簡單的模式識別,并獲得了逐步解決迷宮等復雜問題的能力。

圖片

Sakana AI還與Cracking The Cryptic(YouTube 上最大的謎題評論頻道之一)合作,Cracking The Cryptic每天都會演示一些世界上最好的數獨謎題的邏輯解決方案。

圖片

Sakana AI獲得了這些視頻的文字記錄以及答題過程中采取的行動數據。這些數據可以作為訓練AI推理模型的理想數據,并與Sudoku-Bench一起發布。


著名的數獨出題人Marty Sears還為Sakana AI定制了一款名為“奇偶魚”的數獨游戲:沿著Sakana AI紅色標志線相鄰的任何數字都必須包含一個偶數和一個奇數。

感興趣的朋友可以嘗試一下(解答過程已附在文末)~

圖片

技術報告:https://arxiv.org/abs/2505.16135

排行榜:https://pub.sakana.ai/sudoku/

Github:https://github.com/SakanaAI/Sudoku-Bench

奇偶魚題目:https://sudokupad.app/wsj7iunsg6解答過程:https://www.youtube.com/watch?v=JdHSSNKuIzU

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-18 14:59:16

2024-01-26 13:18:00

AI訓練

2025-04-23 08:30:05

2020-03-07 22:01:58

編程語言JavaPython

2024-12-24 16:15:04

2015-12-17 10:30:44

2025-04-17 14:09:52

OpenAI模型編程

2017-12-28 15:35:30

編程語言JavaPHP

2024-08-26 08:00:00

模型AI

2025-01-16 08:30:00

LLMAI訓練

2024-07-23 12:32:11

2016-10-18 15:24:13

Google谷歌開源

2024-06-19 11:45:34

2012-12-27 12:27:48

Google Play2012Android

2013-08-23 09:41:19

2014-11-26 09:40:02

編程語言Ruby

2014-11-26 10:49:32

編程語言

2024-09-19 17:44:04

2009-04-10 09:06:45

福布斯硬件企業排行榜

2023-09-21 10:30:05

AI開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费视频一区二区 | 一区二区三区中文字幕 | 97国产一区二区精品久久呦 | 国产精品久久欧美久久一区 | 欧美激情精品久久久久久 | 超碰人人艹 | 人人看人人爽 | 欧美一区二区视频 | a精品视频 | 超碰人人人| 综合色播| 亚洲视频一区在线观看 | 国产精品久久久久久久久久 | 亚洲视频中文字幕 | 人操人免费视频 | 全免费a级毛片免费看视频免费下 | 国精产品一品二品国精在线观看 | aaa在线 | 亚洲精品国产成人 | 日韩精品一区二区久久 | 国产精品永久免费视频 | 亚洲精品欧美 | 一区二区三区欧美大片 | 99成人 | 成人久久 | 逼逼视频| 久久国产精品久久久久久 | 日韩欧美精品一区 | 91精品国产乱码久久久久久久久 | 亚洲午夜av久久乱码 | 午夜影院在线观看免费 | 欧美综合国产精品久久丁香 | 国产精品国产成人国产三级 | 国产精品日韩欧美一区二区三区 | av片在线观看 | 欧美激情一区 | 免费在线观看一区二区三区 | 国产精品日韩欧美一区二区 | 久久成人一区 | 黄网站涩免费蜜桃网站 | 久久久久久国产精品mv |