《自然》機器智能:人工智能與人類的思維不同維度,深度神經網絡如何“看待”世界,與人類有何不同? 精華
深度神經網絡(DNN)早已不僅僅是數學家的玩具,它們已廣泛應用于語音識別、圖像分類、語言理解乃至戰略博弈等高復雜度任務中。在許多感知任務上,它們甚至趕超了人類的表現。這也引出了一個令人著迷的問題:這些“聰明”的機器到底在多大程度上理解世界的方式與我們人類類似?
正是在這樣的背景下,認知神經科學與人工智能研究者的目光開始聚焦于“表征對齊”(representational alignment)這一核心問題。所謂表征,是指系統內部對信息的編碼與處理方式;而“對齊”意指兩個系統——比如人腦與人工智能網絡——是否在處理相同輸入時,產生了結構相似或語義一致的內部表示。這不僅僅是理論上的好奇,更事關重大:若能理解DNN與人類在信息處理上的差異,我們將能更有效地構建出更安全、可解釋、甚至更“類人”的AI系統。同時,反向地,這類研究也為人類認知機制的建模與模擬提供了前所未有的工具。
6 月 23 日,發表于 Nature Machine Intelligence的論文《Dimensions underlying the representational alignment of deep neural networks with humans》,正是一次對這個問題的深度剖析。研究團隊并不滿足于以往研究中使用的“黑盒式”相似性指標(如相關系數、方差解釋率)來衡量人機對齊程度——這些指標雖然可以告訴我們兩者“看起來差不多”,卻無法揭示“為何不同”或“哪一點相似”。換句話說,表征的“程度”已無法滿足認知對齊研究,必須進一步探索“機制”層面的對比。
為了解決這個難題,研究團隊提出了一種基于行為任務的新穎框架。他們將一個DNN模型與人類實驗參與者置于相同的行為環境中,利用一個經典的三選一任務(Odd-One-Out Task),來逼迫兩者作出相似性判斷。接著,他們通過一種變分嵌入優化方法,將DNN和人類在任務中的選擇結果映射到低維的表征空間中,從而捕捉驅動這些行為背后的“概念維度”。這些維度可能是視覺性的,比如顏色、形狀,也可能是語義性的,比如“食物”或“工具”。
更精彩的是,該研究不止步于定量評估,而是通過維度級別的解釋性技術(包括Grad-CAM熱圖、StyleGAN圖像生成與因果操控實驗)驗證每個維度所承載的信息是否真正“可解釋”、并分析它們在人類與DNN中的表現差異。
這樣的工作,顯然不是單一領域的努力所能實現的。成果背后,是一個跨越多個歐洲研究機構的多學科團隊。團隊的核心由德國萊比錫的馬普人類認知與大腦科學研究所的“視覺與計算認知小組”主導,第一作者Florian P. Mahner 與共第一作者 Lukas Muttenthaler 分別來自 Max Planck、柏林工業大學機器學習組,以及柏林學習與數據研究中心(BIFOLD)。他們的研究結合了來自神經科學、機器學習、心理學三個方向的精粹;而來自荷蘭 Donders 腦認知研究所的 Umut Gü?lü 則以其在深度學習與大腦表征對比方面的研究貢獻了理論與建模的深度。
1.實驗方法與數據采集
要真正探究人類與深度神經網絡(DNN)在圖像處理上的相似與分歧,必須從行為開始。正如這篇論文所展示的那樣,實驗設計的靈魂,是一個簡單卻富有洞察力的心理學范式:三選一任務(Odd-One-Out Task)。
圖1 | 通過模擬奇數任務中的行為決策,類似于人類捕獲核心DNN對象表示的計算框架
三選一任務:將人類與DNN置于“相同考場”
這個任務的本質非常直觀:每輪呈現三張圖像,參與者(無論是人類還是模型)都需挑選出那張“最不像”的。相比傳統的配對相似度評分,這種方法有一個突出的優勢——它引導系統自主地揭示自己認為的“概念邊界”,從而讓內在表征自然浮出水面。
研究團隊利用了一個體量驚人的人類判斷數據集,來源于 THINGS 數據庫,共包含 470萬條odd-one-out選擇,覆蓋1854類對象。而對于DNN,研究者將任務移植到預訓練的 VGG-16 模型上,模擬其在三圖比較中的“選擇行為”,并借此采樣了 2000萬組三元組數據,遠超人類數量上的限制,確保模型表征的統計穩健性。
構建DNN的“認知維度圖譜”:從特征到理解
接下來的關鍵,是如何將行為輸出轉化為可解釋的嵌入空間。研究團隊選用了 VGG-16 網絡中倒數第二層(即離決策最近的表征層)作為起點,將其高維激活向量通過點積變換,量化三張圖間的相似關系。最相似的兩張即被視為同類,第三張為“異類”。
但模型輸出的并不是直接可解讀的維度。為了解構這些“內部特征”,研究者應用了 VICE(Variational Interpretable Concept Embedding) 方法。與其說它是一種嵌入技術,不如說它是一套認知提取機制:研究者初始化了150維嵌入空間,并采用帶有稀疏性約束的 spike-and-slab 高斯先驗,結合非負性(ReLU),構建了一組具備語義連貫性且便于解釋的低維向量。最終,他們在訓練過程中通過剪枝與重參數采樣,保留了約70維的DNN嵌入,以及 68維的人類嵌入,兩者均表現出良好的擬合與可重復性。
打開“黑箱”:AI維度可解釋性的三重路徑
為了讓這些維度不是僅僅“數學上合理”,而是真正“認知上有意義”,研究者使用了三種技術路徑進行驗證。
Grad-CAM 熱圖:對于任一維度,他們通過梯度反向傳播生成圖像區域熱力圖,揭示究竟是圖像中的哪部分“點燃”了該認知維度。比如一個“透明度”維度,很可能聚焦在玻璃、水等高光區域。
激活最大化生成:借助預訓練生成模型 StyleGAN-XL,研究者逆向生成“最能激活該維度”的圖像。這不僅是驗證,也是視覺化展示:當一個維度代表“圓形綠色物體”時,生成圖像就會出現青蘋果、青檸檬之類圖像,令人信服。
因果操控實驗:為了驗證維度是否真正反映某種視覺或語義屬性,研究者直接對圖像進行操控(如改色、換背景、調整形狀),觀察特定維度的響應變化。這種操控從因果關系上增強了維度的解釋力。
表征相似性重構:不是“像不像”,而是“怎么像”
最后一步,是將這些構建出的嵌入空間映射到更高層的結構比較中。研究者借助代表性相似性分析(RSA),分別構建了人類與DNN的對象相似性矩陣,并逐步對齊兩者的維度。結果顯示,兩者在某些維度上表現出高度一致(個別維度 Pearson r 超過 0.80),但在全局結構上仍呈現語義與視覺偏好的根本差異。
更重要的是,這種結構重構不僅顯示了“對齊程度”,還揭示了“對齊路徑”。從維度加入的先后順序、解釋力提升的邊際變化、到最終高維空間的投影軌跡,都為研究者提供了一種“理解AI如何理解世界”的新視角。
2.主要實驗結果與發現
進入實驗結果部分,就如同步入一間照亮黑箱的顯微實驗室。那些原本只存在于神經網絡深層中的“抽象維度”,終于通過可視化與行為映射的方式,被逐一“譯碼”出來。
圖2 | 從人類和DNN行為推斷出的代表性嵌入
a,從人類和DNN衍生的表征嵌入中可視化示例維度,選擇被評為語義、混合視覺-語義和視覺的維度,以及從人類判斷中獲得的維度標簽。注意,顯示的圖像僅反映具有公共域許可證的圖像,而不是完整圖像集76。
b,每個維度的評級程序,該程序基于根據數字權重對前k個圖像進行可視化。人類參與者將每個人類和DNN維度標記為主要語義、視覺、混合視覺-語義或不清楚(未顯示不清楚的評級;7.35%的維度用于人類,8.57%用于VGG-16)。
c,標記為視覺和語義的維度的相對重要性,其中VGG-16相對于人類表現出視覺和混合維度的優勢,而人類則表現出語義維度的明顯優勢。
嵌入維度:是顏色,是形狀,也可能是“有機的綠色”
令人興奮的第一發現是,這些由 DNN 學到的嵌入維度并非完全晦澀難解。在維度可視化與人類標簽評估中,研究者發現其中不少維度具有清晰的語義與視覺內涵。比如,有些維度代表“白色”“圓形”“透明”等純粹的視覺屬性;而另一些則指向“食品相關”“火焰”“科技物品”等更概念化的語義標簽。甚至還有一些維度同時體現了視覺與語義,例如“綠色且有機”——似乎是在描述青蘋果,也可能是花椰菜。
但值得注意的是,DNN 顯然更偏愛視覺性的維度。無論是在具體維度的權重分布,還是在最大激活圖像的生成中,模型往往傾向于捕捉物體的低層感知特征。而相較之下,人類表征更強調語義組織,往往繞過表面形狀而直指“它是什么”。
這種“視覺偏好”的現象不只存在于最終輸出的嵌入中,它甚至貫穿了 VGG-16 網絡從卷積層到全連接層的整個信息傳遞通路。這種網絡結構上的傾向,也許正是它在處理圖像時與人類表征策略產生分歧的根源。
表征對齊:不是非黑即白,而是層次漸變的拼圖
當研究者試圖將人類與 DNN 的嵌入維度進行對齊分析時,一個有趣的圖景浮現了。雖然在全局表示相似度(通過代表性相似性分析,RSA)中,二者表現出中等程度的結構一致性(r≈0.55),但深入到維度層面卻發現高度不均:有些維度對齊得非常好,相關性高達 0.80;而另一些則幾乎毫無交集。
進一步的累積分析顯示,需要大約40個 DNN 維度才能解釋95%的人類表征相似度變異。這說明兩個重要事實:一是人類認知表征的多樣性并非來自個別“超級維度”,而是維度整體結構的綜合作用;二是DNN雖能在某些關鍵維度上模擬人類判斷,但要全面對齊,還需對網絡策略進行深層調整。
圖3 | 圖像屬性與嵌入維度的相關性
研究團隊使用Grad-CAM55根據他們最初用于對三元組選擇進行采樣的倒數第二個DNN特征的梯度來可視化不同圖像部分的重要性。梯度是在完全可微可解釋性模型中獲得的,該模型與嵌入中的維度w有關。b,我們將三個不同圖像和維度的熱圖可視化。每一列都顯示了圖像各部分與該維度的相關性。對于這個數字,我們根據公共領域中可用的圖像對嵌入進行了過濾76。
行為決策:行為相似≠心智對齊
光看輸出行為,有時我們可能會誤以為 DNN 已與人類無異。例如,在 odd-one-out 任務中,模型與人類在許多圖像三元組上的選擇結果一致。但當研究者使用 jackknife 重采樣技術挖掘每個維度對行為決策的具體影響時,真相開始顯露。
人類判斷中,語義維度的貢獻遠超視覺維度;而 DNN 在做出相同行為選擇時,往往依賴的是完全不同的視覺偏向維度。也就是說,盡管表面行為相似,但驅動背后的“認知加工路徑”截然不同。就像兩位畫家畫出類似的畫,卻一位專注于光影結構,另一位則著重于畫中情緒與意象。
這種差異的存在并非令人沮喪,恰恰相反,它揭示了為何“相似的表現”并不意味著“本質的契合”。也許正是通過這種維度級的剖析,我們才能建立起真正“理解人工智能行為來源”的方法論基礎。
3.方法學反思
回顧整項研究的設計與執行,很難不對其方法上的巧思與工程上的細致留下深刻印象。但所有工具都有鋒利與鈍化的一面,本節便是一次冷靜的檢視,也是一次展望未來的躍身。
一個嵌入,更近一步理解
首先讓我們來看這項工作的核心方法:基于三選一任務的行為數據,與變分可解釋性嵌入(VICE)的結合。這種組合本身就是一個方法學創新。相比于傳統的圖像分類任務或主觀打分法,三選一任務逼迫系統在最小語境中做出判斷,從而最大化激活那些關鍵的表征維度。而 VICE 則像是認知空間的顯影劑,它在高維行為數據中提取出具有認知意義的低維構造——一個個貼近感知和語義原型的“概念維度”。
這種方法有兩個突出的優點:其一,能夠精準提取少數核心維度,避免將模型表征過擬合于冗余特征;其二,稀疏性約束保障每個維度承擔獨立、明確的認知功能,而非彼此冗余混淆。再加上非負性約束,這些維度更符合人類解釋的“構件式思維”——比如“尖銳”這個維度,不可能通過“非圓滑”負向組合得到。
但與此同時,我們也不能忽視局限性。一方面,三選一任務雖優雅,卻存在復雜圖像語境下可擴展性受限的隱憂。是否不同類型任務會觸發不同的表征維度?現有框架尚未對此提供系統回答。另一方面,VICE 的性能依賴于貝葉斯優化與先驗設定,其結果解釋力雖高,但對訓練穩定性與模型參數選擇較為敏感,或許對不同網絡架構的普適性仍需驗證。
框架之外還有海洋:未來如何拓展這張“認知地圖”
這項研究的真正潛力,藏在它已鋪就的路徑之后。研究團隊已在討論中提出:若將該框架應用于不同類型的深度神經網絡——例如卷積網絡之外的 Vision Transformer(ViT)、多模態模型如 CLIP,是否能揭示新的維度結構?同時,如果將輸入從自然圖像拓展至視頻、文本、甚至多感官信息,又是否會產生“跨模態對齊”的認知映射?
另一個令人興奮的方向,是將該維度框架與神經影像數據接軌。在 fMRI 或EEG研究中,若人類大腦對某類對象激活的腦區結構能夠映射到這些嵌入維度中,我們或許就能實現一次真正意義上的人腦—人工系統—行為三層對齊,為認知神經科學打開更深的建模想象。
此外,研究也提示了一個被長期低估的因素:任務指令的語言與語境。不同的行為任務,甚至同一任務中不同的指令用語,是否會引導人類與AI表征方式出現差異?比如“選擇你最不喜歡的那一個”,與“選出與其他兩個最不像的”之間看似細微的語義差別,可能就足以顯著影響模型學習與行為偏好。
4.討論與意義
在深入地對比人類與深度神經網絡(DNN)在圖像表征中的表現后,研究者描繪出一幅鮮明而令人深思的圖景:看似表現相近,實則內里迥異。人類與機器的思維方式,或許在行為表層可以“殊途同歸”,但在認知路徑上卻分道揚鑣。
語義偏好 vs. 視覺偏倚:認知策略的分歧
研究清晰地指出,人類在處理視覺任務時更傾向于動用語義信息。我們看到一張圖片,不僅識別出顏色和形狀,還迅速賦予它“是什么”這樣的意義歸屬。相比之下,DNN,尤其是以圖像分類為訓練目標的模型,表現出極強的視覺偏倚:它更依賴顏色、紋理、邊緣等感知特征,即使在任務本質上需要語義判斷時也不例外。
為何會如此?這背后的成因既有網絡結構的物理約束,也與訓練目標密不可分。傳統的圖像分類任務獎勵的是表面相似性和模式識別,而不是對“物是什么”的理解。換句話說,DNN更像是一個精密的視覺篩子,而人類的大腦則是一個語義引擎。即便像 CLIP 這樣在圖文配對上訓練的多模態模型,也未能完全逃脫視覺偏見的束縛——這說明,僅靠語義標簽是不足以喚醒真正的“概念認知”的。
圖4|最大限度地激活圖像以嵌入尺寸。a、 使用StyleGAN-XL58,我們優化了一個潛在代碼,以在特定的嵌入維度上最大化預測響應。b、嵌入中不同維度的可視化。我們展示了得分最高的前十張圖片維度和相應的前十生成圖像。對于這個數字,我們根據公共領域中可用的圖像對嵌入進行了過濾76。
這一區別并非小事,它深刻影響著我們對人工智能認知能力的判斷:表征方式的不同意味著AI和人類在理解世界時走的是兩條路,即便終點相似,旅程和地圖卻全然不同。這對構建更類人的AI系統提供了理論支點,也為模擬人類高級認知行為的模型設計提供了糾偏指南。
打開“黑箱”的鑰匙:可解釋性的多維演繹
在AI被廣泛應用于現實決策場景的當下,模型的透明性已不再是學術的點綴,而是倫理與安全的基本要求。本研究通過精妙地整合多種可解釋性技術,讓我們得以窺見DNN在做出某一判斷時,究竟是“看到”了什么。
圖5 |決定人類和VGG-16嵌入維度相似性的因素。
Grad-CAM 熱圖揭示了模型關注的圖像區域;StyleGAN-XL 的激活最大化則提供了某一維度“心目中最典型的對象形象”;而因果操控實驗則通過擾動顏色、形狀與背景,觀察表征維度的響應變化。這些方法在本研究中交錯呼應,最終繪出了一幅維度—行為—語義三位一體的可解釋圖譜。
它不只是驗證,更是一種從“操作層面”理解機器“概念形成機制”的路徑。在未來的AI安全性評估與信任機制建設中,這類技術有望成為標準工具之一。
從對齊到優化:為AI“修圖”的指南針
或許最具現實意義的問題是:既然我們知道了DNN在語義上存在偏差,我們能否修正它?
答案是肯定的。這項研究不僅指出了問題,還提供了思路。通過嵌入對齊分析,我們可以識別出那些與人類表征高度一致的維度,從而反向指導模型架構與訓練策略的微調。例如,通過強化語義信號、引入多模態預訓練或擴展更具概念層級的數據集,未來的DNN有望在保持強大感知能力的同時,進一步接近人類的理解方式。
圖6 |人類和DNN的公開行為選擇。
這也提醒我們,在評估AI是否“像人類”時,不能僅看表面表現,還應深入其認知策略與表征結構。從圖像識別、語言理解到決策支持,真正類人的AI需要建立在認知層次的對齊之上,而非僅僅復刻行為的相似性。
未來的研究,將有望在這條路徑上走得更遠,不同架構的系統對比、更復雜認知任務中的對齊分析、以及與神經成像數據的直接映射聯動……這一切,正慢慢勾勒出一幅人機認知橋梁的宏圖。而本研究,正是架起這座橋梁的第一塊結構梁。
參考資料:???https://www.nature.com/articles/s42256-025-01041-7??
本文轉載自??獨角噬元獸??,作者:FlerkenS
