AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂? 原創(chuàng)
中國與西班牙的聯(lián)合研究質(zhì)疑當前AI通過數(shù)據(jù)擴容實現(xiàn)類人泛化能力的可行性,強調(diào)需突破架構(gòu)限制以構(gòu)建抽象推理機制,并呼吁重新審視“智能”的本質(zhì)定義。
引言
中國和西班牙研究人員發(fā)表的一篇新論文發(fā)現(xiàn),即使是像GPT-4.1這樣的先進多模態(tài)人工智能模型,也難以從模擬時鐘圖像中識別時間。時鐘中細微的視覺變化都可能導(dǎo)致嚴重的解讀錯誤,而微調(diào)也只對熟悉的示例有效。這一結(jié)果引發(fā)了人們對這些模型在現(xiàn)實世界任務(wù)中處理不熟悉圖像時的可靠性的擔憂。
當人類對某個領(lǐng)域(例如重力或其他基本物理原理)有了足夠深入的理解時,我們就能超越具體的例子,掌握其背后的抽象概念。這使我們能夠創(chuàng)造性地跨情境運用這些知識,并通過識別實際應(yīng)用中的原理來識別新的實例,即使是那些我們從未見過的實例。
當一個領(lǐng)域足夠重要時,我們甚至可能在它并不存在的地方感知到它,就像??空想性錯視??一樣,其驅(qū)動力在于無法識別真實實例的高昂代價。這種模式識別的生存機制如此強大,以至于它甚至促使我們在沒有模式的地方??尋找更廣泛的模式??。?
一個領(lǐng)域在我們心中灌輸?shù)迷皆纭⒃椒磸?fù),它的基礎(chǔ)就越??深??,并且會持續(xù)一生;我們在兒童時期接觸到的最早的視覺數(shù)據(jù)集之一就是教學(xué)時鐘,其中印刷材料或交互式模擬時鐘被用來教我們?nèi)绾慰磿r間:?
盡管??手表設(shè)計時尚的變化??有時會給我們帶來挑戰(zhàn),但這種早期領(lǐng)域掌握的彈性令人印象深刻,即使面對復(fù)雜或“古怪”的設(shè)計選擇,我們也能辨別模擬鐘面:?
??高級定制腕表??中的一些挑戰(zhàn)性面孔?
人類??不需要成千上萬的例子??來了解時鐘的工作原理;一旦掌握了基本概念,我們幾乎可以識別任何形式,即使是扭曲或抽象的形式。?
相比之下,人工智能模型在完成這項任務(wù)時面臨的困難凸顯了一個更深層次的問題:它們的表面實力可能更多地取決于大量的曝光,而不是理解。
超越模仿游戲?
在近期對大型模型的研究中,表面表現(xiàn)與真正“理解”之間的矛盾反復(fù)浮現(xiàn)。上個月,浙江大學(xué)和西湖大學(xué)在一篇題為《博士級LLM真正掌握初等加法嗎?》(非本文重點)的?論文??中重新闡述了這個問題,并得出結(jié)論:?
“盡管基準令人印象深刻,但模型顯示出對模式匹配而非真正理解的嚴重依賴,這由符號表示的失敗和基本屬性的違反所證明。
明確的規(guī)則規(guī)定會損害性能,這表明存在固有的架構(gòu)限制。這些見解揭示了評估方面的差距,并強調(diào)了對能夠進行超越模式識別的真正數(shù)學(xué)推理的架構(gòu)的需求。”
本周,這個問題再次被提出,由南京航空航天大學(xué)和西班牙馬德里理工大學(xué)合作完成。這篇題為《多模態(tài)大型語言模型(MLLM)真的學(xué)會了在模擬時鐘上報時嗎?》的??新論文?探討了多模態(tài)模型對報時理解的程度。?
盡管論文中僅詳細介紹了研究進展,但研究人員的初步測試表明,OpenAI的?GPT-4.1??多模態(tài)語言模型難以從多種時鐘圖像中正確讀取時間,即使在簡單的情況下也經(jīng)常給出錯誤的答案。?
這表明模型的訓(xùn)練數(shù)據(jù)可能存在缺口,因此需要一個更均衡的數(shù)據(jù)集,以測試模型是否能夠真正學(xué)習(xí)其背后的概念。因此,作者整理了一個模擬時鐘的合成數(shù)據(jù)集,均勻地覆蓋了所有可能的時間,并避免了互聯(lián)網(wǎng)圖像中常見的偏差:
研究人員合成模擬時鐘數(shù)據(jù)集中的一個??示例?,用于在新研究中微調(diào)GPT模型?
??在對新數(shù)據(jù)集進行微調(diào)?之前,GPT-4.1一直無法讀取這些時鐘。然而,在接觸了新數(shù)據(jù)集一段時間后,它的表現(xiàn)有所改善——但前提是新圖像與它之前見過的圖像相似。?
當時鐘的形狀或指針的樣式發(fā)生變化時,準確度會急劇下降;即使是很小的調(diào)整,例如更細的指針或箭頭(下圖最右邊),也足以使其偏離目標;此外,GPT-4.1還難以解讀達利風格的“?融化時鐘??”:?
??標準設(shè)計的時鐘圖像(左)、變形的時鐘圖像(中)和修改后的指針圖像(右),以及GPT-4.1微調(diào)前后返回的時間??
作者推斷,當前的模型(例如GPT-4.1)可能主要通過視覺模式匹配來學(xué)習(xí)讀鐘,而不是通過任何更深層次的時間概念,并斷言:
“當時鐘變形或指針變細并帶有箭頭時,GPT-4.1就會失效。在150個隨機時間上進行的時間估計中,初始時鐘的平均絕對誤差(MAE)為232.48秒,形狀變形時為1380.69秒,指針改變時為3726.93秒。
這些結(jié)果表明,MLLM并沒有學(xué)會看時間,而是記住了模式。”
足夠的時間
大多數(shù)訓(xùn)練數(shù)據(jù)集依賴于抓取的網(wǎng)絡(luò)圖像,這些圖像往往會重復(fù)特定的時間——尤其是10:10,這是??手表廣告中流行的設(shè)置??:?
從新論文中,我們可以看到模擬時鐘圖像中“十點十分”時間的流行情況
由于所描繪的時間范圍有限,模型可能只能看到狹窄范圍的時鐘配置,從而限制了其超越這些重復(fù)模式進行概括的能力。
關(guān)于模型為何無法正確解釋時鐘扭曲的問題,論文指出:
“盡管GPT-4.1在標準時鐘圖像上表現(xiàn)非常出色,但令人驚訝的是,通過使時鐘指針變細并添加箭頭來修改時鐘指針會導(dǎo)致其準確性顯著下降。
直觀地看,人們可能會認為視覺上更復(fù)雜的變化——扭曲的表盤——會對性能產(chǎn)生更大的影響,但這種修改似乎影響相對較小。
這就引出了一個問題:MLLM如何解讀時鐘,以及它們?yōu)槭裁磿。恳环N可能性是,較細的指針會削弱模型感知方向的能力,從而削弱其對空間方向的理解。
或者,當模型嘗試將時針、分針和秒針組合成準確的時間讀數(shù)時,可能會有其他因素造成混淆。”
作者認為,找出這些失敗的根本原因是推進多模態(tài)模型的關(guān)鍵:如果問題在于模型如何感知空間方向,微調(diào)可能會提供一個簡單的解決方案;但如果問題源于整合多種視覺線索的更大困難,那么這表明這些系統(tǒng)在處理信息的方式上存在更根本的弱點。
微調(diào)測試
為了測試模型的缺陷能否通過實踐克服,GPT-4.1在上述綜合合成數(shù)據(jù)集上進行了微調(diào)。在進行微調(diào)之前,它的預(yù)測結(jié)果非常分散,所有類型的鐘面都存在顯著的誤差。在對數(shù)據(jù)集進行微調(diào)之后,其在標準鐘面上的準確率顯著提高,而在變形鐘面上的準確率則有所提升(但幅度較小)。
然而,指針經(jīng)過修改的時鐘,例如指針變得更細或變成箭頭狀,仍然會產(chǎn)生很大的誤差。
出現(xiàn)了兩種截然不同的故障模式:在正常和變形的時鐘上,模型通常會錯誤判斷指針的方向;但在指針樣式改變的時鐘上,它經(jīng)常混淆每根指針的功能,將小時誤認為分鐘,或?qū)⒎昼娬`認為秒。
這張對比圖展示了模型最初的弱點以及通過微調(diào)實現(xiàn)的部分改進,圖中顯示了150個隨機選擇的時鐘的預(yù)測時間與實際時間(以秒為單位)。左側(cè)是微調(diào)之前,GPT-4.1的預(yù)測結(jié)果比較分散,并且通常與正確值相差甚遠,紅色對角線表示正確值。右側(cè)是在平衡合成數(shù)據(jù)集上進行微調(diào)之后,預(yù)測結(jié)果與真實值更加接近,盡管仍然存在一些誤差。
這表明該模型已經(jīng)學(xué)會將指針的厚度等視覺特征與特定角色聯(lián)系起來,并且在這些線索發(fā)生變化時會遇到困難。
對不熟悉的設(shè)計的有限改進進一步引發(fā)了人們的懷疑:這種模型是否學(xué)習(xí)了報時的抽象概念,或者僅僅是改進了其模式匹配。
指針類型
因此,盡管微調(diào)提高了GPT-4.1在傳統(tǒng)模擬時鐘上的性能,但它對指針較細或箭頭形狀的時鐘的影響要小得多,這增加了一種可能性,即該模型的失敗不是源于抽象推理,而是源于對哪根指針是哪根指針的混淆。
為了測試消除這種混淆后準確率是否會提高,研究人員對模型對“修改后的指針”數(shù)據(jù)集的預(yù)測進行了新的分析。輸出結(jié)果分為兩組:GPT-4.1正確識別時針、分針和秒針的情況;以及未能正確識別的情況。
在微調(diào)之前和之后,對預(yù)測的平均絕對誤差(MAE)進行評估,并將結(jié)果與標準時鐘的結(jié)果進行比較;還使用表盤位置作為基線測量了每個指針的角度誤差:
修改后的指針數(shù)據(jù)集中,微調(diào)前后有和沒有指針類型混淆的時鐘的誤差比較
混淆時鐘指針的角色會導(dǎo)致最大的誤差。當GPT-4.1將時針誤認為分針或?qū)⒎轴樥`認為時針時,最終的時間估算結(jié)果往往相差甚遠。相比之下,錯誤判斷正確識別的指針方向所導(dǎo)致的誤差較小。在三個指針中,時針在微調(diào)前的角度誤差最大,而秒針的角度誤差最小。
在修改后的指針數(shù)據(jù)集中,經(jīng)過微調(diào)之前和之后,對于有和沒有指針角色混淆的預(yù)測,指針類型的角度誤差。
為了僅關(guān)注方向性誤差,分析僅限于模型正確識別每個指針功能的案例。如果該模型已經(jīng)內(nèi)化了一般的報時概念,那么它在這些示例上的表現(xiàn)應(yīng)該與在標準時鐘上的準確度相當。然而,它并沒有,準確度仍然明顯下降。
為了檢驗指針形狀是否會影響模型的方向感,研究人員進行了第二項實驗:創(chuàng)建了兩個新的數(shù)據(jù)集,每個數(shù)據(jù)集包含60個只有時針的合成時鐘,指向不同的分鐘刻度。一組數(shù)據(jù)集使用原始指針設(shè)計,另一組數(shù)據(jù)集使用修改后的版本。要求模型說出指針指向的刻度標記的名稱。
結(jié)果表明,修改后的指針識別準確率略有下降,但不足以解釋模型的整體缺陷。即使在之前表現(xiàn)良好的任務(wù)中,一個不熟悉的視覺特征似乎也足以擾亂模型的整體解讀。
GPT-4.1在標準、扭曲和修改后的時鐘上進行微調(diào)前后的性能,突出了不均衡的收益和持續(xù)存在的弱點。
結(jié)論
雖然這篇論文的重點乍一看似乎無關(guān)緊要,但視覺語言模型能否學(xué)會以100%的準確率讀取模擬時鐘,這一點其實也并不重要。這篇文章的真正意義在于它聚焦于一個更深層次的反復(fù)出現(xiàn)的問題:用更多(也更多樣化)的數(shù)據(jù)來填充模型,是否能夠獲得人類通過抽象和泛化獲得的那種領(lǐng)域理解;或者,唯一可行的途徑是否是向該領(lǐng)域注入足夠多的樣本,以便在推理過程中預(yù)測所有可能的變化。
這兩種方式都會引發(fā)人們對當前架構(gòu)真正學(xué)習(xí)能力的懷疑。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:??AI’s Struggle to Read Analogue Clocks May Have Deeper Significance??,作者:Martin Anderson