AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂? 原創(chuàng)

發(fā)布于 2025-5-28 10:27

瀏覽

0收藏

中國與西班牙的聯(lián)合研究質(zhì)疑當前AI通過數(shù)據(jù)擴容實現(xiàn)類人泛化能力的可行性，強調(diào)需突破架構(gòu)限制以構(gòu)建抽象推理機制，并呼吁重新審視“智能”的本質(zhì)定義。

引言

中國和西班牙研究人員發(fā)表的一篇新論文發(fā)現(xiàn)，即使是像GPT-4.1這樣的先進多模態(tài)人工智能模型，也難以從模擬時鐘圖像中識別時間。時鐘中細微的視覺變化都可能導(dǎo)致嚴重的解讀錯誤，而微調(diào)也只對熟悉的示例有效。這一結(jié)果引發(fā)了人們對這些模型在現(xiàn)實世界任務(wù)中處理不熟悉圖像時的可靠性的擔憂。

當人類對某個領(lǐng)域（例如重力或其他基本物理原理）有了足夠深入的理解時，我們就能超越具體的例子，掌握其背后的抽象概念。這使我們能夠創(chuàng)造性地跨情境運用這些知識，并通過識別實際應(yīng)用中的原理來識別新的實例，即使是那些我們從未見過的實例。

當一個領(lǐng)域足夠重要時，我們甚至可能在它并不存在的地方感知到它，就像??空想性錯視??一樣，其驅(qū)動力在于無法識別真實實例的高昂代價。這種模式識別的生存機制如此強大，以至于它甚至促使我們在沒有模式的地方??尋找更廣泛的模式??。?

一個領(lǐng)域在我們心中灌輸?shù)迷皆纭⒃椒磸?fù)，它的基礎(chǔ)就越??深??，并且會持續(xù)一生；我們在兒童時期接觸到的最早的視覺數(shù)據(jù)集之一就是教學(xué)時鐘，其中印刷材料或交互式模擬時鐘被用來教我們?nèi)绾慰磿r間：?

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

??幫助孩子學(xué)習(xí)認識時間的教具???

盡管??手表設(shè)計時尚的變化??有時會給我們帶來挑戰(zhàn)，但這種早期領(lǐng)域掌握的彈性令人印象深刻，即使面對復(fù)雜或“古怪”的設(shè)計選擇，我們也能辨別模擬鐘面：?

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

??高級定制腕表??中的一些挑戰(zhàn)性面孔?

人類??不需要成千上萬的例子??來了解時鐘的工作原理；一旦掌握了基本概念，我們幾乎可以識別任何形式，即使是扭曲或抽象的形式。?

相比之下，人工智能模型在完成這項任務(wù)時面臨的困難凸顯了一個更深層次的問題：它們的表面實力可能更多地取決于大量的曝光，而不是理解。

超越模仿游戲？

在近期對大型模型的研究中，表面表現(xiàn)與真正“理解”之間的矛盾反復(fù)浮現(xiàn)。上個月，浙江大學(xué)和西湖大學(xué)在一篇題為《博士級LLM真正掌握初等加法嗎？》（非本文重點）的?論文??中重新闡述了這個問題，并得出結(jié)論：?

“盡管基準令人印象深刻，但模型顯示出對模式匹配而非真正理解的嚴重依賴，這由符號表示的失敗和基本屬性的違反所證明。

明確的規(guī)則規(guī)定會損害性能，這表明存在固有的架構(gòu)限制。這些見解揭示了評估方面的差距，并強調(diào)了對能夠進行超越模式識別的真正數(shù)學(xué)推理的架構(gòu)的需求。”

本周，這個問題再次被提出，由南京航空航天大學(xué)和西班牙馬德里理工大學(xué)合作完成。這篇題為《多模態(tài)大型語言模型（MLLM）真的學(xué)會了在模擬時鐘上報時嗎？》的??新論文?探討了多模態(tài)模型對報時理解的程度。?

盡管論文中僅詳細介紹了研究進展，但研究人員的初步測試表明，OpenAI的?GPT-4.1??多模態(tài)語言模型難以從多種時鐘圖像中正確讀取時間，即使在簡單的情況下也經(jīng)常給出錯誤的答案。?

這表明模型的訓(xùn)練數(shù)據(jù)可能存在缺口，因此需要一個更均衡的數(shù)據(jù)集，以測試模型是否能夠真正學(xué)習(xí)其背后的概念。因此，作者整理了一個模擬時鐘的合成數(shù)據(jù)集，均勻地覆蓋了所有可能的時間，并避免了互聯(lián)網(wǎng)圖像中常見的偏差：

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

研究人員合成模擬時鐘數(shù)據(jù)集中的一個??示例?，用于在新研究中微調(diào)GPT模型?

??在對新數(shù)據(jù)集進行微調(diào)?之前，GPT-4.1一直無法讀取這些時鐘。然而，在接觸了新數(shù)據(jù)集一段時間后，它的表現(xiàn)有所改善——但前提是新圖像與它之前見過的圖像相似。?

當時鐘的形狀或指針的樣式發(fā)生變化時，準確度會急劇下降；即使是很小的調(diào)整，例如更細的指針或箭頭（下圖最右邊），也足以使其偏離目標；此外，GPT-4.1還難以解讀達利風格的“?融化時鐘??”：?

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

??標準設(shè)計的時鐘圖像（左）、變形的時鐘圖像（中）和修改后的指針圖像（右），以及GPT-4.1微調(diào)前后返回的時間??

作者推斷，當前的模型（例如GPT-4.1）可能主要通過視覺模式匹配來學(xué)習(xí)讀鐘，而不是通過任何更深層次的時間概念，并斷言：

“當時鐘變形或指針變細并帶有箭頭時，GPT-4.1就會失效。在150個隨機時間上進行的時間估計中，初始時鐘的平均絕對誤差（MAE）為232.48秒，形狀變形時為1380.69秒，指針改變時為3726.93秒。

這些結(jié)果表明，MLLM并沒有學(xué)會看時間，而是記住了模式。”

足夠的時間

大多數(shù)訓(xùn)練數(shù)據(jù)集依賴于抓取的網(wǎng)絡(luò)圖像，這些圖像往往會重復(fù)特定的時間——尤其是10:10，這是??手表廣告中流行的設(shè)置??：?

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

從新論文中，我們可以看到模擬時鐘圖像中“十點十分”時間的流行情況

由于所描繪的時間范圍有限，模型可能只能看到狹窄范圍的時鐘配置，從而限制了其超越這些重復(fù)模式進行概括的能力。

關(guān)于模型為何無法正確解釋時鐘扭曲的問題，論文指出：

“盡管GPT-4.1在標準時鐘圖像上表現(xiàn)非常出色，但令人驚訝的是，通過使時鐘指針變細并添加箭頭來修改時鐘指針會導(dǎo)致其準確性顯著下降。

直觀地看，人們可能會認為視覺上更復(fù)雜的變化——扭曲的表盤——會對性能產(chǎn)生更大的影響，但這種修改似乎影響相對較小。

這就引出了一個問題：MLLM如何解讀時鐘，以及它們?yōu)槭裁磿。恳环N可能性是，較細的指針會削弱模型感知方向的能力，從而削弱其對空間方向的理解。

或者，當模型嘗試將時針、分針和秒針組合成準確的時間讀數(shù)時，可能會有其他因素造成混淆。”

作者認為，找出這些失敗的根本原因是推進多模態(tài)模型的關(guān)鍵：如果問題在于模型如何感知空間方向，微調(diào)可能會提供一個簡單的解決方案；但如果問題源于整合多種視覺線索的更大困難，那么這表明這些系統(tǒng)在處理信息的方式上存在更根本的弱點。

微調(diào)測試

為了測試模型的缺陷能否通過實踐克服，GPT-4.1在上述綜合合成數(shù)據(jù)集上進行了微調(diào)。在進行微調(diào)之前，它的預(yù)測結(jié)果非常分散，所有類型的鐘面都存在顯著的誤差。在對數(shù)據(jù)集進行微調(diào)之后，其在標準鐘面上的準確率顯著提高，而在變形鐘面上的準確率則有所提升（但幅度較小）。

然而，指針經(jīng)過修改的時鐘，例如指針變得更細或變成箭頭狀，仍然會產(chǎn)生很大的誤差。

出現(xiàn)了兩種截然不同的故障模式：在正常和變形的時鐘上，模型通常會錯誤判斷指針的方向；但在指針樣式改變的時鐘上，它經(jīng)常混淆每根指針的功能，將小時誤認為分鐘，或?qū)⒎昼娬`認為秒。

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

這張對比圖展示了模型最初的弱點以及通過微調(diào)實現(xiàn)的部分改進，圖中顯示了150個隨機選擇的時鐘的預(yù)測時間與實際時間（以秒為單位）。左側(cè)是微調(diào)之前，GPT-4.1的預(yù)測結(jié)果比較分散，并且通常與正確值相差甚遠，紅色對角線表示正確值。右側(cè)是在平衡合成數(shù)據(jù)集上進行微調(diào)之后，預(yù)測結(jié)果與真實值更加接近，盡管仍然存在一些誤差。

這表明該模型已經(jīng)學(xué)會將指針的厚度等視覺特征與特定角色聯(lián)系起來，并且在這些線索發(fā)生變化時會遇到困難。

對不熟悉的設(shè)計的有限改進進一步引發(fā)了人們的懷疑：這種模型是否學(xué)習(xí)了報時的抽象概念，或者僅僅是改進了其模式匹配。

指針類型

因此，盡管微調(diào)提高了GPT-4.1在傳統(tǒng)模擬時鐘上的性能，但它對指針較細或箭頭形狀的時鐘的影響要小得多，這增加了一種可能性，即該模型的失敗不是源于抽象推理，而是源于對哪根指針是哪根指針的混淆。

為了測試消除這種混淆后準確率是否會提高，研究人員對模型對“修改后的指針”數(shù)據(jù)集的預(yù)測進行了新的分析。輸出結(jié)果分為兩組：GPT-4.1正確識別時針、分針和秒針的情況；以及未能正確識別的情況。

在微調(diào)之前和之后，對預(yù)測的平均絕對誤差（MAE）進行評估，并將結(jié)果與標準時鐘的結(jié)果進行比較；還使用表盤位置作為基線測量了每個指針的角度誤差：

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

修改后的指針數(shù)據(jù)集中，微調(diào)前后有和沒有指針類型混淆的時鐘的誤差比較

混淆時鐘指針的角色會導(dǎo)致最大的誤差。當GPT-4.1將時針誤認為分針或?qū)⒎轴樥`認為時針時，最終的時間估算結(jié)果往往相差甚遠。相比之下，錯誤判斷正確識別的指針方向所導(dǎo)致的誤差較小。在三個指針中，時針在微調(diào)前的角度誤差最大，而秒針的角度誤差最小。

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

在修改后的指針數(shù)據(jù)集中，經(jīng)過微調(diào)之前和之后，對于有和沒有指針角色混淆的預(yù)測，指針類型的角度誤差。

為了僅關(guān)注方向性誤差，分析僅限于模型正確識別每個指針功能的案例。如果該模型已經(jīng)內(nèi)化了一般的報時概念，那么它在這些示例上的表現(xiàn)應(yīng)該與在標準時鐘上的準確度相當。然而，它并沒有，準確度仍然明顯下降。

為了檢驗指針形狀是否會影響模型的方向感，研究人員進行了第二項實驗：創(chuàng)建了兩個新的數(shù)據(jù)集，每個數(shù)據(jù)集包含60個只有時針的合成時鐘，指向不同的分鐘刻度。一組數(shù)據(jù)集使用原始指針設(shè)計，另一組數(shù)據(jù)集使用修改后的版本。要求模型說出指針指向的刻度標記的名稱。

結(jié)果表明，修改后的指針識別準確率略有下降，但不足以解釋模型的整體缺陷。即使在之前表現(xiàn)良好的任務(wù)中，一個不熟悉的視覺特征似乎也足以擾亂模型的整體解讀。

AI為何讀不懂鐘表？模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

GPT-4.1在標準、扭曲和修改后的時鐘上進行微調(diào)前后的性能，突出了不均衡的收益和持續(xù)存在的弱點。

結(jié)論

雖然這篇論文的重點乍一看似乎無關(guān)緊要，但視覺語言模型能否學(xué)會以100%的準確率讀取模擬時鐘，這一點其實也并不重要。這篇文章的真正意義在于它聚焦于一個更深層次的反復(fù)出現(xiàn)的問題：用更多（也更多樣化）的數(shù)據(jù)來填充模型，是否能夠獲得人類通過抽象和泛化獲得的那種領(lǐng)域理解；或者，唯一可行的途徑是否是向該領(lǐng)域注入足夠多的樣本，以便在推理過程中預(yù)測所有可能的變化。

這兩種方式都會引發(fā)人們對當前架構(gòu)真正學(xué)習(xí)能力的懷疑。