首個像人類一樣思考的網(wǎng)絡(luò)!Nature子刊:AI模擬人類感知決策
從能力上來講,當(dāng)前AI的專業(yè)性已經(jīng)在多方面超越人類。
不過咱們也依然保有一些「神圣」的特性。
比如人腦的效率很高,一碗米飯就能提供半天的算力,一個雞腿就能輸出好多好多token。
比如我們的靈魂與情感,在理性認知的同時也會產(chǎn)生超越常理的行為。
至于最終的超級智能到底需不需要學(xué)習(xí)人類的這些神秘特性,也許試過才知道。
——小AI你想進步嗎?先來模仿我吧。
近日,來自佐治亞理工學(xué)院的研究人員,開發(fā)了首個與人類思考方式相近的神經(jīng)網(wǎng)絡(luò)——RTNet。
論文地址:https://www.nature.com/articles/s41562-024-01914-8
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的決策行為與人類有著顯著不同。
以圖像分類的CNN為例,不管輸入圖像看上去是簡單還是復(fù)雜,網(wǎng)絡(luò)的計算量都是固定的,且相同的輸入必然得到相同的輸出。
人類則一般傾向于簡單題做得快,但偶爾也會粗心大意犯點低級錯誤。
全新的RTNet能夠模擬人類的感知行為,可以生成隨機決策和類似人類的響應(yīng)時間(RT)分布。
RTNet的內(nèi)部機制更接近人類產(chǎn)生RT的真實機制,其核心假設(shè)為:RT是由順序采樣和結(jié)果積累的過程生成的。
下圖是RTNet的網(wǎng)絡(luò)結(jié)構(gòu),分為兩階段:
一階段采用Alexnet架構(gòu),但權(quán)重參數(shù)為BNN的形式,與一般神經(jīng)網(wǎng)絡(luò)權(quán)重為確定值不同,BNN在訓(xùn)練時學(xué)習(xí)的是分布。
BNN在每次推理時,從學(xué)到的分布中隨機采樣出本次使用的權(quán)重,從而引入了隨機性。
二階段是一個累加的過程,以分類任務(wù)為例,事先設(shè)置一個閾值,每次推理的結(jié)果累加到各自的分類上,直到某一類到達了閾值,則推理停止。
由此可知,RTNet在原理上至少模擬了人類決策的兩種特性:首先是BNN引入的隨機性,其次是對于不同難度任務(wù)有不同的完成時間(RT),因為更簡單的圖像可以用更少的推理次數(shù)累積到閾值。
作者還通過全面的測試,表明RTNet復(fù)刻了人類準(zhǔn)確度、RT和置信度的所有基本特征,并且比所有當(dāng)前替代方案都做得更好。
模仿人類感知決策
人類感知決策有六個基本特征:
1)人類的決策是隨機的,這意味著相同的刺激可以在不同的試驗中引發(fā)不同的反應(yīng)
2)增加速度壓力會縮短RT但降低準(zhǔn)確性(SAT)
3)更困難的決策會導(dǎo)致準(zhǔn)確性降低和RT延長
4)RT分布右偏,并且這種偏斜會隨著任務(wù)難度的增加而增加
5)正確試驗的RT低于錯誤試驗
6)正確試驗的信心高于錯誤試驗
目前,對于現(xiàn)有的圖像可計算模型,能夠在多大程度上再現(xiàn)人類的全部行為特征,我們所做的工作還相對較少。
本文中,作者選擇了在這方面表現(xiàn)最先進的幾個神經(jīng)網(wǎng)絡(luò):CNet、BLNet和MSDNet,作為RTNet的對比對象。
實驗設(shè)計
人類對照組
選取60名參與者執(zhí)行數(shù)字辨別任務(wù),分別報告感知到的數(shù)字,以及評估自己的決策信心。
每次試驗開始時,參與者注視一個小的白色十字架500-1,000毫秒,隨后展示需要辨別的圖像300毫秒。
數(shù)字圖像來源于MNIST數(shù)據(jù)集,使用1到8之間的數(shù)字,并疊加不同程度的噪聲。
參與者使用計算機鍵盤報告感知到的數(shù)字,將左手的四個手指放在數(shù)字1-4上,右手的四個手指放在5-8上。這樣參與者可以在不看鍵盤的情況下做出反應(yīng),從而減少額外的干擾。
實驗包括對SAT和不同任務(wù)難度的測試。
SAT測試要求參與者注重其反應(yīng)速度或準(zhǔn)確性,并在實驗中交替進行速度和準(zhǔn)確性的測試。
通過向圖像中添加不同程度的均勻噪聲來改變?nèi)蝿?wù)難度。簡單任務(wù)包含0.25的平均均勻噪聲(范圍為0-0.5),而困難任務(wù)包含0.4的均勻噪聲(范圍為0-0.8)。(ps:相對的圖像像素值為0到1之間)
另外,為了適應(yīng)測試,人類組也參與了訓(xùn)練階段,分為無噪聲、關(guān)注準(zhǔn)確性和關(guān)注速度三部分,每個部分進行50次訓(xùn)練。
測試階段由960次實驗組成,分為四輪,整合了SAT條件以及不同的難度等級。
RTNet
RTNet采用Alexnet架構(gòu)有兩個原因:一是為了匹配實驗中的其他網(wǎng)絡(luò),太小了吃虧。
另一方面RTNet的BNN很難訓(xùn)練,又限制了模型不能太大。綜合考慮就Alexnet比較合適。
在BNN中,權(quán)重被建模為概率分布,而不是點估計。按照貝葉斯推理規(guī)則,可以使用以下公式推斷權(quán)重w的后驗分布:
但是,對于大型網(wǎng)絡(luò)來說,這種計算是難以完成的,因此,計算這個后驗分布通常使用變分推斷來近似。
指定一個替代分布q (w) 來近似后驗,并調(diào)整其參數(shù)以最大化兩個分布之間的相似性,分布之間的相似性通過KL散度來量化:
但由于p (x) 難以計算,這時可以通過定義一個證據(jù)下限 (ELBO) 函數(shù)代理目標(biāo)函數(shù)來繞過此計算:
研究人員對RTNet的BNN模塊進行了總共15個epoch的訓(xùn)練,批次大小為500,在MNIST測試集上實現(xiàn)了高于97%的分類準(zhǔn)確率。
作者使用60種均值方差的組合作為初始化,訓(xùn)練了60個RTNet實例,來對標(biāo)60個人類受試者,同樣,下面介紹的其他網(wǎng)絡(luò)也用類似的方法(隨機種子)分別生成60個實例。
CNet
CNet 建立在殘差網(wǎng)絡(luò) (ResNet) 的架構(gòu)之上,利用跳過連接在輸入處理期間引入傳播延遲。
在每個處理步驟中,所有層中的所有單元都會并行更新。但是,由于每個殘差塊引入的傳播延遲,更簡單的感知特征會在塊之間更快地傳輸。
通常,殘差塊t需要t?1個時間步才能接收完整且穩(wěn)定的輸入。在處理過程中的任何時間點,網(wǎng)絡(luò)都可以生成預(yù)測。
但是,如果時間步長t小于殘差塊的數(shù)量,則響應(yīng)將基于較高塊中的不穩(wěn)定表示。
BLNet
BLNet是一個RCNN,由標(biāo)準(zhǔn)前饋CNN和循環(huán)連接組成,這些循環(huán)連接將每一層都連接到自身,最后的讀出層通過softmax函數(shù)計算每個時間步的網(wǎng)絡(luò)輸出。
在每個時間步長,給定層從兩個來源接收輸入:來自前一個卷積層的前饋輸入和來自自身的循環(huán)輸入。
如果當(dāng)前的計算結(jié)果超過預(yù)定義的閾值,網(wǎng)絡(luò)就會生成響應(yīng)。
MSDNet
MSDNet 的架構(gòu)類似于標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò),但其每一層后都有提前退出分類器。
在每個輸出層,使用softmax函數(shù)計算每個選擇的結(jié)果,如果任何一個方案的結(jié)果超過預(yù)定義值,網(wǎng)絡(luò)將停止處理并立即產(chǎn)生響應(yīng)。
實驗結(jié)果
下圖a – e ,分別表示人類、RTNet、CNet、BLNet和MSDNet所做決策的隨機性。暖色表示兩次呈現(xiàn)圖像時給出的反應(yīng)相同,而冷色表示兩次呈現(xiàn)圖像時給出的反應(yīng)不同。
人類和RTNet表現(xiàn)出隨機決策,隨機性隨著任務(wù)難度和速度壓力的增加而增加。但是,CNet、BLNet和MSDNet的決策是完全確定性的。
下圖展現(xiàn)了人類參與者和模型表現(xiàn)出的行為效果:
其中,人類的RT以秒為單位,神經(jīng)網(wǎng)絡(luò)的RT以所消耗的推理次數(shù)(RTNet)、傳播步驟數(shù)(CNet)、前饋掃描數(shù)(BLNet)和層數(shù)(MSDNet)來衡量。
所有模型均能夠復(fù)制在人類身上觀察到的SAT。但SAT對人類、RTNet和BLNet的影響比其他模型要強得多,且各個RT分布顯示出,速度和準(zhǔn)確度焦點條件之間存在明顯分離。
總體而言,RTNet產(chǎn)生的RT分布比所有其他網(wǎng)絡(luò)都更好地反映了人類數(shù)據(jù)中觀察到的模式。
需要注意的是,CNet、BLNet和MSDNet只能產(chǎn)生小于或等于其層數(shù)或殘差塊的不同 RT,相比之下,RTNet可以處理任意數(shù)量的樣本,而不管其架構(gòu)中的層數(shù)是多少。
上圖展示了在所有實驗條件下,針對各個參與者的人體數(shù)據(jù)和每個模型之間的逐圖相關(guān)性,在所有條件下分別計算準(zhǔn)確度、RT和置信度的相關(guān)性。
對于每個測量,RTNet 的相關(guān)性都比CNet、BLNet或MSDNet更強。而在所有情況下,RTNet的預(yù)測都相當(dāng)接近噪聲上限。
討論
與認知模型的關(guān)系
傳統(tǒng)的決策認知模型通常被稱為順序抽樣模型。
RTNet在概念上更類似于順序抽樣模型的一個子組,稱為種族模型:每個選擇都有自己的積累系統(tǒng),并且每個選擇的證據(jù)都是并行積累的。
RTNet與傳統(tǒng)認知模型相比具有兩個重要優(yōu)勢。首先,RTNet是圖像可計算的,可以應(yīng)用于實際圖像,而傳統(tǒng)模型則不能。
其次,傳統(tǒng)認知模型無法自然地捕捉不同選擇之間的關(guān)系,而RTNet在訓(xùn)練其核心的BNN期間學(xué)習(xí)了選擇之間的所有關(guān)系。
生物學(xué)可行性
生理記錄揭示了人類視覺系統(tǒng)處理的幾個特點:
首先,從視覺皮層的一個區(qū)域到另一個區(qū)域的傳導(dǎo)大約需要10毫秒,來自光感受器的信號在70-100毫秒內(nèi)到達顳下皮層的視覺層次頂端。因此,純前饋網(wǎng)絡(luò)中從輸入到輸出的一次掃描應(yīng)該在幾百毫秒以內(nèi)。
其次,視覺皮層每一層的神經(jīng)元在刺激開始后的幾百毫秒內(nèi)繼續(xù)激發(fā)動作電位,并從后面的處理層接收強烈的循環(huán)輸入。
最后,神經(jīng)元處理是有噪聲的,即相同的圖像輸入會在不同的試驗中產(chǎn)生非常不同的神經(jīng)元激活。
由上面的介紹可知,RTNet基本符合了人類視覺的生物學(xué)特性。