新研究發(fā)現(xiàn) AI 無法讀懂模擬時(shí)鐘，還不能告訴你某天是周幾

作者：清源 2025-05-19 08:49:46

根據(jù)外媒 LiveScience 報(bào)道，有些人類能輕松完成的任務(wù)，AI 卻無法勝任。譬如，AI 能編程、畫出逼真的圖像、生成接近人類語氣的文本，甚至在部分考試中取得不錯(cuò)成績(jī)，但在日常生活中最基礎(chǔ)的“看鐘”“算日子”這類事情上，卻頻繁出錯(cuò) —— 要么讀不準(zhǔn)指針位置，要么算不出星期幾。

5 月 17 日消息，根據(jù)外媒 LiveScience 今日?qǐng)?bào)道，有些人類能輕松完成的任務(wù)，AI 卻無法勝任。譬如，AI 能編程、畫出逼真的圖像、生成接近人類語氣的文本，甚至在部分考試中取得不錯(cuò)成績(jī)，但在日常生活中最基礎(chǔ)的“看鐘”“算日子”這類事情上，卻頻繁出錯(cuò) —— 要么讀不準(zhǔn)指針位置，要么算不出星期幾。

研究人員在 2025 年“國際學(xué)習(xí)表征會(huì)議”（ ICLR ）上介紹了這項(xiàng)發(fā)現(xiàn)，有關(guān)的論文已經(jīng)在 arXiv 上發(fā)布，目前尚未通過同行評(píng)審。

愛丁堡大學(xué)研究員、論文作者 Rohit Saxena 表示：“人類從小就能掌握時(shí)間與日歷概念，而 AI 在這方面的不足，是一個(gè)值得警惕的信號(hào)。”他指出，若要將 AI 應(yīng)用于現(xiàn)實(shí)生活中對(duì)時(shí)間敏感的場(chǎng)景，比如排班、自動(dòng)化流程或輔助技術(shù)，這類基本能力的缺陷必須解決。

研究團(tuán)隊(duì)向多個(gè)具備圖文處理能力的大語言模型輸入了一組專門制作的時(shí)鐘與日歷圖像，受測(cè)模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。測(cè)試結(jié)果顯示，這些模型在判斷時(shí)鐘時(shí)間或推算日期星期的任務(wù)上，正確率都未超過一半。

Saxena 表示：“過去的 AI 訓(xùn)練依賴大量帶標(biāo)簽的例子，而讀時(shí)鐘需要的是空間推理。模型不僅要識(shí)別指針是否重疊，還要理解角度、分辨各種風(fēng)格的表盤，比如羅馬數(shù)字或藝術(shù)化設(shè)計(jì)。這遠(yuǎn)比單純識(shí)別‘這是一個(gè)時(shí)鐘’更復(fù)雜。”

日歷問題同樣難住了 AI。例如在“每年第 153 天是星期幾”這類問題上，錯(cuò)誤率依然居高不下。研究顯示，AI 讀時(shí)鐘的正確率僅為 38.7%，判斷日歷的準(zhǔn)確率更低，只有 26.3%。

Saxena 解釋道：“對(duì)傳統(tǒng)計(jì)算機(jī)來說，算術(shù)輕而易舉，但對(duì)大模型而言則不然。AI 并不執(zhí)行算法，而是依靠從訓(xùn)練數(shù)據(jù)中學(xué)到的模式來預(yù)測(cè)答案。”他指出，雖然 AI 有時(shí)能答對(duì)問題，但其推理過程缺乏一致性，也不基于固定規(guī)則，這正是研究所揭示的差距。

研究還揭示了另一個(gè)問題，即當(dāng) AI 的訓(xùn)練樣本缺乏某類現(xiàn)象時(shí)，比如閏年或復(fù)雜的日歷規(guī)則，其表現(xiàn)往往更差。Saxena 表示：“即使模型了解‘閏年’這一概念，也不代表它們能將這個(gè)知識(shí)正確應(yīng)用到具體的視覺判斷中。”

IT之家從報(bào)道中獲悉，研究強(qiáng)調(diào)了兩個(gè)方面的改進(jìn)方向：一是訓(xùn)練數(shù)據(jù)應(yīng)包含更多具有代表性的示例；二是應(yīng)重新審視 AI 如何整合邏輯推理與空間感知，尤其是在處理不常遇到的任務(wù)時(shí)。

責(zé)任編輯：龐桂玉來源： IT之家

AI 人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新研究發(fā)現(xiàn) AI 無法讀懂模擬時(shí)鐘，還不能告訴你某天是周幾