新研究發(fā)現(xiàn) AI 無法讀懂模擬時(shí)鐘,還不能告訴你某天是周幾
5 月 17 日消息,根據(jù)外媒 LiveScience 今日?qǐng)?bào)道,有些人類能輕松完成的任務(wù),AI 卻無法勝任。譬如,AI 能編程、畫出逼真的圖像、生成接近人類語氣的文本,甚至在部分考試中取得不錯(cuò)成績(jī),但在日常生活中最基礎(chǔ)的“看鐘”“算日子”這類事情上,卻頻繁出錯(cuò) —— 要么讀不準(zhǔn)指針位置,要么算不出星期幾。
研究人員在 2025 年“國際學(xué)習(xí)表征會(huì)議”( ICLR )上介紹了這項(xiàng)發(fā)現(xiàn),有關(guān)的論文已經(jīng)在 arXiv 上發(fā)布,目前尚未通過同行評(píng)審。
愛丁堡大學(xué)研究員、論文作者 Rohit Saxena 表示:“人類從小就能掌握時(shí)間與日歷概念,而 AI 在這方面的不足,是一個(gè)值得警惕的信號(hào)。”他指出,若要將 AI 應(yīng)用于現(xiàn)實(shí)生活中對(duì)時(shí)間敏感的場(chǎng)景,比如排班、自動(dòng)化流程或輔助技術(shù),這類基本能力的缺陷必須解決。
研究團(tuán)隊(duì)向多個(gè)具備圖文處理能力的大語言模型輸入了一組專門制作的時(shí)鐘與日歷圖像,受測(cè)模型包括 Meta 的 Llama 3.2-Vision、Anthropic 的 Claude-3.5 Sonnet、谷歌的 Gemini 2.0 和 OpenAI 的 GPT-4o。測(cè)試結(jié)果顯示,這些模型在判斷時(shí)鐘時(shí)間或推算日期星期的任務(wù)上,正確率都未超過一半。
Saxena 表示:“過去的 AI 訓(xùn)練依賴大量帶標(biāo)簽的例子,而讀時(shí)鐘需要的是空間推理。模型不僅要識(shí)別指針是否重疊,還要理解角度、分辨各種風(fēng)格的表盤,比如羅馬數(shù)字或藝術(shù)化設(shè)計(jì)。這遠(yuǎn)比單純識(shí)別‘這是一個(gè)時(shí)鐘’更復(fù)雜。”
日歷問題同樣難住了 AI。例如在“每年第 153 天是星期幾”這類問題上,錯(cuò)誤率依然居高不下。研究顯示,AI 讀時(shí)鐘的正確率僅為 38.7%,判斷日歷的準(zhǔn)確率更低,只有 26.3%。
Saxena 解釋道:“對(duì)傳統(tǒng)計(jì)算機(jī)來說,算術(shù)輕而易舉,但對(duì)大模型而言則不然。AI 并不執(zhí)行算法,而是依靠從訓(xùn)練數(shù)據(jù)中學(xué)到的模式來預(yù)測(cè)答案。”他指出,雖然 AI 有時(shí)能答對(duì)問題,但其推理過程缺乏一致性,也不基于固定規(guī)則,這正是研究所揭示的差距。
研究還揭示了另一個(gè)問題,即當(dāng) AI 的訓(xùn)練樣本缺乏某類現(xiàn)象時(shí),比如閏年或復(fù)雜的日歷規(guī)則,其表現(xiàn)往往更差。Saxena 表示:“即使模型了解‘閏年’這一概念,也不代表它們能將這個(gè)知識(shí)正確應(yīng)用到具體的視覺判斷中。”
IT之家從報(bào)道中獲悉,研究強(qiáng)調(diào)了兩個(gè)方面的改進(jìn)方向:一是訓(xùn)練數(shù)據(jù)應(yīng)包含更多具有代表性的示例;二是應(yīng)重新審視 AI 如何整合邏輯推理與空間感知,尤其是在處理不常遇到的任務(wù)時(shí)。