成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂? 原創(chuàng)

發(fā)布于 2025-5-28 10:27
瀏覽
0收藏

中國與西班牙的聯(lián)合研究質(zhì)疑當前AI通過數(shù)據(jù)擴容實現(xiàn)類人泛化能力的可行性,強調(diào)需突破架構(gòu)限制以構(gòu)建抽象推理機制,并呼吁重新審視“智能”的本質(zhì)定義。

引言

中國和西班牙研究人員發(fā)表的一篇新論文發(fā)現(xiàn),即使是像GPT-4.1這樣的先進多模態(tài)人工智能模型,也難以從模擬時鐘圖像中識別時間。時鐘中細微的視覺變化都可能導(dǎo)致嚴重的解讀錯誤,而微調(diào)也只對熟悉的示例有效。這一結(jié)果引發(fā)了人們對這些模型在現(xiàn)實世界任務(wù)中處理不熟悉圖像時的可靠性的擔憂。

當人類對某個領(lǐng)域(例如重力或其他基本物理原理)有了足夠深入的理解時,我們就能超越具體的例子,掌握其背后的抽象概念。這使我們能夠創(chuàng)造性地跨情境運用這些知識,并通過識別實際應(yīng)用中的原理來識別新的實例,即使是那些我們從未見過的實例。

當一個領(lǐng)域足夠重要時,我們甚至可能在它并不存在的地方感知到它,就像??空想性錯視??一樣,其驅(qū)動力在于無法識別真實實例的高昂代價。這種模式識別的生存機制如此強大,以至于它甚至促使我們在沒有模式的地方??尋找更廣泛的模式??。?

一個領(lǐng)域在我們心中灌輸?shù)迷皆纭⒃椒磸?fù),它的基礎(chǔ)就越????,并且會持續(xù)一生;我們在兒童時期接觸到的最早的視覺數(shù)據(jù)集之一就是教學(xué)時鐘,其中印刷材料或交互式模擬時鐘被用來教我們?nèi)绾慰磿r間:?

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

??幫助孩子學(xué)習(xí)認識時間的教具???

盡管??手表設(shè)計時尚的變化??有時會給我們帶來挑戰(zhàn),但這種早期領(lǐng)域掌握的彈性令人印象深刻,即使面對復(fù)雜或“古怪”的設(shè)計選擇,我們也能辨別模擬鐘面:?

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

??高級定制腕表??中的一些挑戰(zhàn)性面孔?

人類??不需要成千上萬的例子??來了解時鐘的工作原理;一旦掌握了基本概念,我們幾乎可以識別任何形式,即使是扭曲或抽象的形式。?

相比之下,人工智能模型在完成這項任務(wù)時面臨的困難凸顯了一個更深層次的問題:它們的表面實力可能更多地取決于大量的曝光,而不是理解。

超越模仿游戲?

在近期對大型模型的研究中,表面表現(xiàn)與真正“理解”之間的矛盾反復(fù)浮現(xiàn)。上個月,浙江大學(xué)和西湖大學(xué)在一篇題為《博士級LLM真正掌握初等加法嗎?》(非本文重點)的?論文??中重新闡述了這個問題,并得出結(jié)論:?

“盡管基準令人印象深刻,但模型顯示出對模式匹配而非真正理解的嚴重依賴,這由符號表示的失敗和基本屬性的違反所證明。

明確的規(guī)則規(guī)定會損害性能,這表明存在固有的架構(gòu)限制。這些見解揭示了評估方面的差距,并強調(diào)了對能夠進行超越模式識別的真正數(shù)學(xué)推理的架構(gòu)的需求。”

本周,這個問題再次被提出,由南京航空航天大學(xué)和西班牙馬德里理工大學(xué)合作完成。這篇題為《多模態(tài)大型語言模型(MLLM)真的學(xué)會了在模擬時鐘上報時嗎?》的??新論文?探討了多模態(tài)模型對報時理解的程度。?

盡管論文中僅詳細介紹了研究進展,但研究人員的初步測試表明,OpenAI的?GPT-4.1??多模態(tài)語言模型難以從多種時鐘圖像中正確讀取時間,即使在簡單的情況下也經(jīng)常給出錯誤的答案。?

這表明模型的訓(xùn)練數(shù)據(jù)可能存在缺口,因此需要一個更均衡的數(shù)據(jù)集,以測試模型是否能夠真正學(xué)習(xí)其背后的概念。因此,作者整理了一個模擬時鐘的合成數(shù)據(jù)集,均勻地覆蓋了所有可能的時間,并避免了互聯(lián)網(wǎng)圖像中常見的偏差:

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

研究人員合成模擬時鐘數(shù)據(jù)集中的一個??示例?,用于在新研究中微調(diào)GPT模型?

??在對新數(shù)據(jù)集進行微調(diào)?之前,GPT-4.1一直無法讀取這些時鐘。然而,在接觸了新數(shù)據(jù)集一段時間后,它的表現(xiàn)有所改善——但前提是新圖像與它之前見過的圖像相似。?

當時鐘的形狀或指針的樣式發(fā)生變化時,準確度會急劇下降;即使是很小的調(diào)整,例如更細的指針或箭頭(下圖最右邊),也足以使其偏離目標;此外,GPT-4.1還難以解讀達利風格的“?融化時鐘??”:?

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

??標準設(shè)計的時鐘圖像(左)、變形的時鐘圖像(中)和修改后的指針圖像(右),以及GPT-4.1微調(diào)前后返回的時間??

作者推斷,當前的模型(例如GPT-4.1)可能主要通過視覺模式匹配來學(xué)習(xí)讀鐘,而不是通過任何更深層次的時間概念,并斷言:

“當時鐘變形或指針變細并帶有箭頭時,GPT-4.1就會失效。在150個隨機時間上進行的時間估計中,初始時鐘的平均絕對誤差(MAE)為232.48秒,形狀變形時為1380.69秒,指針改變時為3726.93秒。

這些結(jié)果表明,MLLM并沒有學(xué)會看時間,而是記住了模式。”

足夠的時間

大多數(shù)訓(xùn)練數(shù)據(jù)集依賴于抓取的網(wǎng)絡(luò)圖像,這些圖像往往會重復(fù)特定的時間——尤其是10:10,這是??手表廣告中流行的設(shè)置??:?

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

從新論文中,我們可以看到模擬時鐘圖像中“十點十分”時間的流行情況

由于所描繪的時間范圍有限,模型可能只能看到狹窄范圍的時鐘配置,從而限制了其超越這些重復(fù)模式進行概括的能力。

關(guān)于模型為何無法正確解釋時鐘扭曲的問題,論文指出:

“盡管GPT-4.1在標準時鐘圖像上表現(xiàn)非常出色,但令人驚訝的是,通過使時鐘指針變細并添加箭頭來修改時鐘指針會導(dǎo)致其準確性顯著下降。

直觀地看,人們可能會認為視覺上更復(fù)雜的變化——扭曲的表盤——會對性能產(chǎn)生更大的影響,但這種修改似乎影響相對較小。

這就引出了一個問題:MLLM如何解讀時鐘,以及它們?yōu)槭裁磿。恳环N可能性是,較細的指針會削弱模型感知方向的能力,從而削弱其對空間方向的理解。

或者,當模型嘗試將時針、分針和秒針組合成準確的時間讀數(shù)時,可能會有其他因素造成混淆。”

作者認為,找出這些失敗的根本原因是推進多模態(tài)模型的關(guān)鍵:如果問題在于模型如何感知空間方向,微調(diào)可能會提供一個簡單的解決方案;但如果問題源于整合多種視覺線索的更大困難,那么這表明這些系統(tǒng)在處理信息的方式上存在更根本的弱點。

微調(diào)測試

為了測試模型的缺陷能否通過實踐克服,GPT-4.1在上述綜合合成數(shù)據(jù)集上進行了微調(diào)。在進行微調(diào)之前,它的預(yù)測結(jié)果非常分散,所有類型的鐘面都存在顯著的誤差。在對數(shù)據(jù)集進行微調(diào)之后,其在標準鐘面上的準確率顯著提高,而在變形鐘面上的準確率則有所提升(但幅度較小)。

然而,指針經(jīng)過修改的時鐘,例如指針變得更細或變成箭頭狀,仍然會產(chǎn)生很大的誤差。

出現(xiàn)了兩種截然不同的故障模式:在正常和變形的時鐘上,模型通常會錯誤判斷指針的方向;但在指針樣式改變的時鐘上,它經(jīng)常混淆每根指針的功能,將小時誤認為分鐘,或?qū)⒎昼娬`認為秒。

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

這張對比圖展示了模型最初的弱點以及通過微調(diào)實現(xiàn)的部分改進,圖中顯示了150個隨機選擇的時鐘的預(yù)測時間與實際時間(以秒為單位)。左側(cè)是微調(diào)之前,GPT-4.1的預(yù)測結(jié)果比較分散,并且通常與正確值相差甚遠,紅色對角線表示正確值。右側(cè)是在平衡合成數(shù)據(jù)集上進行微調(diào)之后,預(yù)測結(jié)果與真實值更加接近,盡管仍然存在一些誤差。

這表明該模型已經(jīng)學(xué)會將指針的厚度等視覺特征與特定角色聯(lián)系起來,并且在這些線索發(fā)生變化時會遇到困難。

對不熟悉的設(shè)計的有限改進進一步引發(fā)了人們的懷疑:這種模型是否學(xué)習(xí)了報時的抽象概念,或者僅僅是改進了其模式匹配。

指針類型

因此,盡管微調(diào)提高了GPT-4.1在傳統(tǒng)模擬時鐘上的性能,但它對指針較細或箭頭形狀的時鐘的影響要小得多,這增加了一種可能性,即該模型的失敗不是源于抽象推理,而是源于對哪根指針是哪根指針的混淆。

為了測試消除這種混淆后準確率是否會提高,研究人員對模型對“修改后的指針”數(shù)據(jù)集的預(yù)測進行了新的分析。輸出結(jié)果分為兩組:GPT-4.1正確識別時針、分針和秒針的情況;以及未能正確識別的情況。

在微調(diào)之前和之后,對預(yù)測的平均絕對誤差(MAE)進行評估,并將結(jié)果與標準時鐘的結(jié)果進行比較;還使用表盤位置作為基線測量了每個指針的角度誤差

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

修改后的指針數(shù)據(jù)集中,微調(diào)前后有和沒有指針類型混淆的時鐘的誤差比較

混淆時鐘指針的角色會導(dǎo)致最大的誤差。當GPT-4.1將時針誤認為分針或?qū)⒎轴樥`認為時針時,最終的時間估算結(jié)果往往相差甚遠。相比之下,錯誤判斷正確識別的指針方向所導(dǎo)致的誤差較小。在三個指針中,時針在微調(diào)前的角度誤差最大,而秒針的角度誤差最小。

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

在修改后的指針數(shù)據(jù)集中,經(jīng)過微調(diào)之前和之后,對于有和沒有指針角色混淆的預(yù)測,指針類型的角度誤差。

為了僅關(guān)注方向性誤差,分析僅限于模型正確識別每個指針功能的案例。如果該模型已經(jīng)內(nèi)化了一般的報時概念,那么它在這些示例上的表現(xiàn)應(yīng)該與在標準時鐘上的準確度相當。然而,它并沒有,準確度仍然明顯下降。

為了檢驗指針形狀是否會影響模型的方向感,研究人員進行了第二項實驗:創(chuàng)建了兩個新的數(shù)據(jù)集,每個數(shù)據(jù)集包含60個只有時針的合成時鐘,指向不同的分鐘刻度。一組數(shù)據(jù)集使用原始指針設(shè)計,另一組數(shù)據(jù)集使用修改后的版本。要求模型說出指針指向的刻度標記的名稱。

結(jié)果表明,修改后的指針識別準確率略有下降,但不足以解釋模型的整體缺陷。即使在之前表現(xiàn)良好的任務(wù)中,一個不熟悉的視覺特征似乎也足以擾亂模型的整體解讀。

AI為何讀不懂鐘表?模擬時鐘暴露的認知短板與AI進化隱憂?-AI.x社區(qū)

GPT-4.1在標準、扭曲和修改后的時鐘上進行微調(diào)前后的性能,突出了不均衡的收益和持續(xù)存在的弱點。

結(jié)論

雖然這篇論文的重點乍一看似乎無關(guān)緊要,但視覺語言模型能否學(xué)會以100%的準確率讀取模擬時鐘,這一點其實也并不重要。這篇文章的真正意義在于它聚焦于一個更深層次的反復(fù)出現(xiàn)的問題:用更多(也更多樣化)的數(shù)據(jù)來填充模型,是否能夠獲得人類通過抽象和泛化獲得的那種領(lǐng)域理解;或者,唯一可行的途徑是否是向該領(lǐng)域注入足夠多的樣本,以便在推理過程中預(yù)測所有可能的變化。

這兩種方式都會引發(fā)人們對當前架構(gòu)真正學(xué)習(xí)能力的懷疑。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:??AI’s Struggle to Read Analogue Clocks May Have Deeper Significance??,作者:Martin Anderson

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復(fù)
舉報
1條回復(fù)
按時間正序
/
按時間倒序
開源情報研究
開源情報研究

只是缺少訓(xùn)練,這個應(yīng)該不是很難的問題

回復(fù)
2025-5-28 16:45:51
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久综合一区二区 | 亚洲欧美精品国产一级在线 | 亚洲最大福利网 | 99久久日韩精品免费热麻豆美女 | 一区二区三区av夏目彩春 | 久久久久国产一级毛片高清网站 | 正在播放一区二区 | 网站黄色在线 | 毛片一级片| 欧美一级二级视频 | 蜜月va乱码一区二区三区 | 亚州精品天堂中文字幕 | 久久亚洲天堂 | 日韩免费高清视频 | 国产91久久精品一区二区 | 国产精品视频偷伦精品视频 | 国产7777| 国产视频不卡一区 | 99精品欧美一区二区蜜桃免费 | 欧美日韩国产一区二区 | 伊人免费视频二 | 国产一区二区电影 | 91亚洲精品久久久电影 | 欧美性一区二区三区 | 国产一二三视频在线观看 | 亚洲国产欧美日韩 | 成人做爰www免费看 午夜精品久久久久久久久久久久 | 一级毛片视频 | 久久久成人动漫 | 极品一区 | 黄色在线免费观看 | 99re免费| 狠狠干天天干 | 中文字幕免费视频 | 亚洲综合婷婷 | 精品久久久久久久久久久久久 | av在线免费看网址 | 国产一区二区视频在线观看 | 欧美成人免费在线视频 | 亚洲福利在线观看 | 欧美成人手机视频 |