成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

人工智能 深度學(xué)習(xí)
人類的規(guī)劃是分層級(jí)的。無(wú)論是做晚餐這種簡(jiǎn)單的事,還是如出國(guó)旅行這種稍微復(fù)雜的事,我們通常都會(huì)先在腦海中勾勒出想要實(shí)現(xiàn)的目標(biāo),接著進(jìn)一步把目標(biāo)逐步細(xì)化為一系列詳細(xì)的下級(jí)目標(biāo)、下下級(jí)目標(biāo)等,最終實(shí)際的行動(dòng)順序會(huì)比最開(kāi)始的計(jì)劃復(fù)雜得多。

 本文轉(zhuǎn)載自公眾號(hào)“讀芯術(shù)”(ID:AI_Discovery)

人類的規(guī)劃是分層級(jí)的。無(wú)論是做晚餐這種簡(jiǎn)單的事,還是如出國(guó)旅行這種稍微復(fù)雜的事,我們通常都會(huì)先在腦海中勾勒出想要實(shí)現(xiàn)的目標(biāo),接著進(jìn)一步把目標(biāo)逐步細(xì)化為一系列詳細(xì)的下級(jí)目標(biāo)、下下級(jí)目標(biāo)等,最終實(shí)際的行動(dòng)順序會(huì)比最開(kāi)始的計(jì)劃復(fù)雜得多。

[[344748]]

高效規(guī)劃需要了解構(gòu)成分層規(guī)劃的實(shí)質(zhì)的抽象高級(jí)概念。至今,人類習(xí)得這種抽象的概念的過(guò)程仍然未知。

人類能自發(fā)構(gòu)建這種高級(jí)概念,可以根據(jù)所處環(huán)境的任務(wù)、回報(bào)和結(jié)構(gòu),做出高效的規(guī)劃。同時(shí),由于這種行為與底層計(jì)算的形式化模型是一致的,這些發(fā)現(xiàn)因此得以建立在既定的計(jì)算原則上,并和以前分層規(guī)劃的相關(guān)研究聯(lián)系起來(lái)。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

分層規(guī)劃示例

上圖描述了一個(gè)分層規(guī)劃的例子,即一個(gè)人是如何規(guī)劃離開(kāi)在劍橋的辦公室,之后前往印度的Patna購(gòu)買(mǎi)一件夢(mèng)想的婚紗裝飾。圓表示狀態(tài),箭頭表示狀態(tài)之間的轉(zhuǎn)換。每個(gè)狀態(tài)代表了一組較低級(jí)別的狀態(tài)。加粗的箭頭表示的是通常最先在腦海中閃現(xiàn)的高級(jí)狀態(tài)之間的轉(zhuǎn)換。

 

貝葉斯視角

當(dāng)應(yīng)用于計(jì)算式智能體時(shí),分層規(guī)劃使模型具備更高級(jí)的規(guī)劃本領(lǐng)。通過(guò)假設(shè)一個(gè)在特定環(huán)境結(jié)構(gòu)下的生成過(guò)程,可以從貝葉斯視角對(duì)分層代表進(jìn)行建模。有關(guān)這一問(wèn)題的現(xiàn)有工作包括開(kāi)發(fā)一個(gè)計(jì)算框架,以便在一系列簡(jiǎn)化過(guò)的關(guān)于層級(jí)結(jié)構(gòu)的假設(shè)下獲取分層代表,即模擬人們?nèi)绾卧跓o(wú)獎(jiǎng)勵(lì)環(huán)境的心理表征下,創(chuàng)建方便規(guī)劃的狀態(tài)集群。

在為了預(yù)測(cè)聚類的形成,并將該模型與人類的數(shù)據(jù)進(jìn)行比較,我們創(chuàng)建了一個(gè)結(jié)合聚類和獎(jiǎng)勵(lì)的層次化發(fā)現(xiàn)的貝葉斯認(rèn)知模型。

我們分析了靜態(tài)和動(dòng)態(tài)兩種獎(jiǎng)勵(lì)機(jī)制下的情況,發(fā)現(xiàn)人類將獎(jiǎng)勵(lì)信息泛化到高層集群中,并利用獎(jiǎng)勵(lì)的信息來(lái)創(chuàng)建集群,說(shuō)明模型可以預(yù)測(cè)獎(jiǎng)勵(lì)泛化和基于獎(jiǎng)勵(lì)的集群形成。

 

理論背景

心理學(xué)和神經(jīng)科學(xué)交叉的關(guān)鍵領(lǐng)域即是形式上理解人類行為與指定行為的關(guān)系。我們想知道:完成某個(gè)任務(wù)后,人工智能接著會(huì)采用什么樣的計(jì)劃和方法?人類是如何發(fā)現(xiàn)有用的抽象概念?

這個(gè)問(wèn)題很有趣,人類和動(dòng)物擁有適應(yīng)新環(huán)境的獨(dú)特能力,以前關(guān)于動(dòng)物學(xué)習(xí)的文獻(xiàn)表明,這種靈活性源于目標(biāo)的分層代表,這使復(fù)雜的任務(wù)分解成可延伸至各種環(huán)境的低級(jí)子程序。

分組

分組發(fā)生在動(dòng)作被組合成可以實(shí)現(xiàn)更遠(yuǎn)目標(biāo)的延時(shí)的動(dòng)作序列,它通常出現(xiàn)在學(xué)習(xí)從目標(biāo)導(dǎo)向系統(tǒng)轉(zhuǎn)移到以刻板的方式執(zhí)行動(dòng)作的習(xí)慣系統(tǒng)之后。

從計(jì)算的角度來(lái)看,由于這種分層代表,智能體能夠在開(kāi)環(huán)中快速執(zhí)行操作;可以在遇到已知的問(wèn)題時(shí)重復(fù)利用熟悉的操作序列;甚至能夠調(diào)整已建立的動(dòng)作序列來(lái)解決以前遇到過(guò)的問(wèn)題,從而更加快速地學(xué)習(xí)并延長(zhǎng)時(shí)間范圍內(nèi)的計(jì)劃。

智能體不需要考慮與目標(biāo)相關(guān)的細(xì)枝末節(jié),例如,去商店的目標(biāo)被分解為離開(kāi)房間、步行和進(jìn)入商店,而不是起床、左腳前移到右腳前移等。

分層強(qiáng)化學(xué)習(xí)

智能體如何做出能得到獎(jiǎng)勵(lì)的決定是強(qiáng)化學(xué)習(xí)的主題。分層強(qiáng)化學(xué)習(xí)(HRL)已成為描述分層學(xué)習(xí)和規(guī)劃的主流框架,在對(duì)HRL建模的研究中,已經(jīng)存在圍繞構(gòu)建模型的潛在方法的觀點(diǎn)。

筆者關(guān)注到人們自發(fā)地將環(huán)境規(guī)劃為制約規(guī)劃的狀態(tài)集群。在時(shí)間和記憶方面,這種分層規(guī)劃比平面規(guī)劃更為有效,后者包括低級(jí)別的行動(dòng),并有賴于人們有限的工作記憶容量。

在下圖中,粗節(jié)點(diǎn)和粗邊表示必須在短期記憶范圍內(nèi)考慮和維護(hù)它們,以便計(jì)算規(guī)劃,灰色箭頭表示集群成員。低級(jí)別圖G中,從狀態(tài)s到狀態(tài)g的規(guī)劃所需步驟至少是與實(shí)際執(zhí)行計(jì)劃的步驟相同(頂部),引入高級(jí)圖H緩解了這一問(wèn)題,降低了計(jì)算成本(中間)。同時(shí),進(jìn)一步擴(kuò)展遞歸層次減少了規(guī)劃(底部)所涉及的時(shí)間和內(nèi)存。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

Solway等人提供了一個(gè)最優(yōu)分層的正式定義,但他們沒(méi)有明確大腦可能如何發(fā)現(xiàn)它。筆者假設(shè)了一個(gè)最優(yōu)分層取決于環(huán)境結(jié)構(gòu),包括圖結(jié)構(gòu)和環(huán)境可觀察特征的分布,特別是獎(jiǎng)勵(lì)。

模型

假設(shè)智能體將其環(huán)境視作一個(gè)圖,其中節(jié)點(diǎn)是在環(huán)境中的狀態(tài),邊是狀態(tài)之間的轉(zhuǎn)變。這些狀態(tài)和轉(zhuǎn)變可以是抽象的,同樣,它也可以如地鐵站及其中的行駛的列車(chē)路線一樣是具體的。

結(jié)構(gòu)

將可觀測(cè)環(huán)境表示為圖G=(V,E),潛分層表示為H。G和H都是無(wú)權(quán)無(wú)向的,H由集群組成,其間G中的每個(gè)低級(jí)節(jié)點(diǎn)恰好屬于一個(gè)集群,以及連接這些集群的橋或高級(jí)邊。集群k和k′之間的橋只有在某些v,v′∈V之間存在一條邊使v∈k和v′∈k'的情況下才會(huì)存在,即H中的每一條高級(jí)邊在G中都有一條對(duì)應(yīng)的低級(jí)邊。

在下圖中,顏色表示集群分配。規(guī)劃時(shí)規(guī)劃者會(huì)考慮黑色邊緣,但忽略灰色邊緣,粗邊對(duì)應(yīng)于集群之間的轉(zhuǎn)變,集群w和z之間的轉(zhuǎn)變是通過(guò)一個(gè)橋來(lái)完成的。

 

 

高級(jí)圖(頂部)和低級(jí)圖(底部)的例子

在添加獎(jiǎng)勵(lì)之前,學(xué)習(xí)算法在發(fā)現(xiàn)最優(yōu)分層的時(shí)候會(huì)受以下制約:

  • 小集群
  • 集群內(nèi)的緊密連接
  • 集群間的稀疏連接

然而,我們不希望集群太小——在極端情況下,每個(gè)節(jié)點(diǎn)都是自己的集群,這讓層次結(jié)構(gòu)毫無(wú)用處。此外,雖然跨集群的稀疏連接是我們所期望的,但我們也希望集群之間的橋梁仍存,借以保留底層圖片的屬性。

我們使用了離散時(shí)間隨機(jī)的中餐館過(guò)程(CRP)作為聚類的先驗(yàn)。分層發(fā)現(xiàn)在倒置生成模型以獲得分層H后驗(yàn)概率的過(guò)程中實(shí)現(xiàn)。在中正式出現(xiàn)的生成模型生成了該分層。

獎(jiǎng)勵(lì)

在圖G的語(yǔ)境中,獎(jiǎng)勵(lì)可以解釋為頂點(diǎn)的可視特征。由于人們通常基于可視的特征進(jìn)行聚類,因此由獎(jiǎng)勵(lì)誘導(dǎo)的聚類模型是合理的。此外,我們?cè)O(shè)定了每個(gè)狀態(tài)都提供一個(gè)隨機(jī)確定的獎(jiǎng)勵(lì),而智能體的目標(biāo)是最大化總獎(jiǎng)勵(lì)。

因?yàn)槲覀兗僭O(shè)集群會(huì)誘導(dǎo)獎(jiǎng)勵(lì),所以建立的每個(gè)集群具有均等回報(bào)。該集群中的每個(gè)節(jié)點(diǎn)都有一個(gè)從均等獎(jiǎng)勵(lì)集群為中心的分布中提取的均等獎(jiǎng)勵(lì)。最后,每個(gè)可視獎(jiǎng)勵(lì)都是從以該節(jié)點(diǎn)的均等獎(jiǎng)勵(lì)為中心的分布中提取的。

為了簡(jiǎn)化推論,首先假設(shè)報(bào)酬是恒定的、靜態(tài)的。某些在固定概率的觀測(cè)值之間變化的獎(jiǎng)勵(lì)被標(biāo)記為動(dòng)態(tài)的。

我們用了兩個(gè)實(shí)驗(yàn)來(lái)驗(yàn)證關(guān)于人類行為的假設(shè),以及了解模型的預(yù)測(cè)能力。特別的是,我們研究了集群在多大程度上推動(dòng)了對(duì)獎(jiǎng)勵(lì)的推導(dǎo),以及在多大程度上獎(jiǎng)勵(lì)驅(qū)動(dòng)了集群的形成。對(duì)于每個(gè)實(shí)驗(yàn),我們都收集人類數(shù)據(jù)并將其與模型的預(yù)測(cè)進(jìn)行比較。

 

集群誘導(dǎo)獎(jiǎng)勵(lì)

第一個(gè)實(shí)驗(yàn)的目標(biāo)是了解獎(jiǎng)勵(lì)在狀態(tài)集群中普及的方式。我們測(cè)試了圖形結(jié)構(gòu)是否驅(qū)動(dòng)了集群的形成,以及人們是否將在一個(gè)節(jié)點(diǎn)上觀察到的獎(jiǎng)勵(lì)推廣到該節(jié)點(diǎn)所屬的集群。

建立

讓32名受試者按照下面的場(chǎng)景,選擇下一個(gè)要訪問(wèn)的節(jié)點(diǎn)。下面的圖表或是它的翻轉(zhuǎn)版本會(huì)被隨機(jī)地呈現(xiàn)在參與者面前,以確保沒(méi)有人為偏差或未介紹的圖形結(jié)構(gòu)。我們預(yù)測(cè)參與者選擇的節(jié)點(diǎn)會(huì)靠近位于更大集群處的標(biāo)記節(jié)點(diǎn),第一種情況下,灰色節(jié)點(diǎn)位于藍(lán)色節(jié)點(diǎn)左側(cè),灰色節(jié)點(diǎn)位于藍(lán)色節(jié)點(diǎn)右側(cè)。

以下任務(wù)和相關(guān)圖表會(huì)展示給參與者:

你在一個(gè)由多個(gè)獨(dú)立礦山和隧道組成的大型金礦中工作。礦井布局如下圖所示(每個(gè)圓圈代表一個(gè)礦井,每條線代表一個(gè)隧道)。你每天都有報(bào)酬,此外當(dāng)天發(fā)現(xiàn)的每克黃金都有10美元的報(bào)酬。你每天只挖一個(gè)礦,并記錄下當(dāng)天的黃金產(chǎn)量(以克為單位)。在過(guò)去的幾個(gè)月里,你發(fā)現(xiàn)平均來(lái)說(shuō),每個(gè)礦每天產(chǎn)出約15克黃金。昨天,你在下圖中挖了一個(gè)藍(lán)色的礦,得到了30克黃金。你今天要在兩個(gè)礦井(陰影部分)中挖哪一個(gè)?請(qǐng)圈出你選擇的礦。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

展示給參與者的礦井圖紙

我們希望大多數(shù)參與者能夠自動(dòng)識(shí)別以下用桃色和薰衣草色的節(jié)點(diǎn)來(lái)表示的不同集群,并根據(jù)這些集群決定選哪一個(gè)集群。假設(shè)參與者會(huì)選擇桃色而非薰衣草色的的節(jié)點(diǎn),因?yàn)闃?biāo)簽為30的節(jié)點(diǎn)(比平均值大得多)位于桃色集群中。

 

 

展示給參與者的和集群類似的礦井圖紙

推論

我們使用了Metropolis-within-Gibbs抽樣,對(duì)H近似套用了貝葉斯推導(dǎo)。這組樣本通過(guò)H的后續(xù)取樣來(lái)更新H的每個(gè)分量,在一個(gè)Metropolis-Hastings步驟中對(duì)所有其他分量進(jìn)行條件調(diào)節(jié)。使用高斯隨機(jī)游走作為連續(xù)分量的建議分布,并使用有前提的CRP先驗(yàn)作為分組分配的建議分布。該方法可以被解釋為隨機(jī)爬山算法后續(xù)定義了一個(gè)效用函數(shù)。

結(jié)果

在真人組和模擬組中各有32名參與者。模型輸出的前三個(gè)集群如下所示(左側(cè)區(qū)域)。所有前三名的結(jié)果都是一樣的,這表明該模型以很高的可信度識(shí)別了有色分組。

參與者和靜態(tài)獎(jiǎng)勵(lì)模型的結(jié)果顯示在下面的條形圖(右面區(qū)域)中,展示了選擇下一訪問(wèn)節(jié)點(diǎn)2的人類和模擬受試者的比例。實(shí)心黑線表示平均值,黑色虛線表示2.5%和97.5%。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

聚類實(shí)驗(yàn)中獎(jiǎng)賞泛化的結(jié)果

下表中的p-value是通過(guò)右尾二項(xiàng)檢定計(jì)算的,其中空值假設(shè)為二項(xiàng)分布,而非選擇左、右灰色節(jié)點(diǎn)。顯著性水平取0.05,人體實(shí)驗(yàn)結(jié)果和模型結(jié)果均具有統(tǒng)計(jì)學(xué)意義。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

人類行為與靜態(tài)獎(jiǎng)勵(lì)模型

 

獎(jiǎng)勵(lì)誘導(dǎo)集群

第二個(gè)實(shí)驗(yàn)的目標(biāo)是確定獎(jiǎng)勵(lì)是否會(huì)誘發(fā)集群。我們預(yù)測(cè),即使圖的結(jié)構(gòu)本身不會(huì)誘導(dǎo)聚類,但相鄰位置相同獎(jiǎng)賞的節(jié)點(diǎn)也會(huì)聚集在一起。

Solway等人的研究表明人們更喜歡跨越最少分層邊界的路徑。因此,在兩條完全相同的路徑之間,選擇其中一條路徑的唯一原因是它跨越了更少的分層邊界。對(duì)此可能的反駁是,人們會(huì)選擇的是獎(jiǎng)勵(lì)更高的路徑。

然而,在下面詳述的建立中,只在目標(biāo)狀態(tài)下會(huì)提供獎(jiǎng)勵(lì),而不是沿著所選的路徑漸次累積。此外,獎(jiǎng)勵(lì)的大小在不同的試驗(yàn)中是不同的。因此,人們不太可能因該路徑的節(jié)點(diǎn)有更高的獎(jiǎng)勵(lì)而喜歡上一條路徑。

建立

這個(gè)實(shí)驗(yàn)是在網(wǎng)絡(luò)上使用亞馬遜Mechanical-Turk(MTurk)。參與者會(huì)獲得以下任務(wù)背景:

假設(shè)你是一名礦工,在由隧道連接的金礦網(wǎng)絡(luò)中工作。每個(gè)礦每天產(chǎn)出一定數(shù)量的黃金(以“點(diǎn)數(shù)”指代)。在每一天,你的工作是從一個(gè)起始礦井導(dǎo)航到一個(gè)目標(biāo)礦井,并在目標(biāo)礦井收集點(diǎn)數(shù)。在某些日子里,你可以自由選擇任何你喜歡的礦井。此時(shí),你應(yīng)該試著選一個(gè)所得點(diǎn)數(shù)最高的礦。而在其他日子里,只有一個(gè)礦是可用的。該礦的點(diǎn)呈綠色,其他礦點(diǎn)呈灰色不可選。此時(shí)你只能導(dǎo)航到可用礦井。每個(gè)礦井的點(diǎn)數(shù)都會(huì)在上面寫(xiě)明。當(dāng)前礦井將用粗邊界突出顯示。你可以使用箭頭鍵(上、下、左、右)在礦井之間導(dǎo)航。一旦你到達(dá)目標(biāo)礦井,按空格鍵收集點(diǎn)數(shù)并開(kāi)始第二天的工作。實(shí)驗(yàn)將有100天(試驗(yàn))。

下面的圖表(左邊)呈現(xiàn)給參與者。為了控制潛在的左右不對(duì)稱性,與之前的實(shí)驗(yàn)一樣,參與者被隨機(jī)分配到圖中所示的布局或其水平翻轉(zhuǎn)版本。預(yù)期的誘導(dǎo)集群也被描述,并編號(hào)了節(jié)點(diǎn)以供參考(右邊)。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

向MTurk參與者展示的礦井圖(左),以及可能的集群(右)

我們將第一種情況稱為參與者選擇自由式導(dǎo)航到任何礦井,第二種情況是參與者固定選擇式導(dǎo)航到指定礦井。參加者在每次試驗(yàn)中都會(huì)獲得金錢(qián)獎(jiǎng)勵(lì),以阻止隨機(jī)響應(yīng)。

在每次試驗(yàn)中,獎(jiǎng)勵(lì)值的變化概率為0.2。新的獎(jiǎng)勵(lì)從區(qū)間[0,300]中隨機(jī)抽取。然而在試驗(yàn)之間,獎(jiǎng)勵(lì)的分組保持不變:節(jié)點(diǎn)1、2和3始終共有一個(gè)獎(jiǎng)勵(lì)值,節(jié)點(diǎn)4、5和6共有另一種的獎(jiǎng)勵(lì)值,節(jié)點(diǎn)7、8、9和10具有第三種獎(jiǎng)勵(lì)值。

前99次試驗(yàn)允許參與者建立一個(gè)集群的分層結(jié)構(gòu)。實(shí)驗(yàn)的最終試驗(yàn)要求參與者從節(jié)點(diǎn)6導(dǎo)航到節(jié)點(diǎn)1。假設(shè)獎(jiǎng)勵(lì)誘導(dǎo)了上面所示的集群,我們預(yù)測(cè)更多的參與者將選擇通過(guò)節(jié)點(diǎn)5的路徑,該節(jié)點(diǎn)只跨越了一個(gè)集群邊界,而通過(guò)節(jié)點(diǎn)7的路徑跨越兩個(gè)集群邊界。

推論

我們建立了固定選擇案例的模型,假設(shè)所有100個(gè)試驗(yàn)中的任務(wù)都與提交給參與者的第100個(gè)試驗(yàn)相同。首先假定靜態(tài)獎(jiǎng)勵(lì),在所有的測(cè)試中,該獎(jiǎng)勵(lì)保持不變。接下來(lái),假設(shè)動(dòng)態(tài)獎(jiǎng)勵(lì),即每次試驗(yàn)的獎(jiǎng)勵(lì)都會(huì)發(fā)生變化。

與之前模型預(yù)測(cè)參與者選擇的節(jié)點(diǎn)的實(shí)驗(yàn)不同,本實(shí)驗(yàn)關(guān)注的是參與者選擇的從起始節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的完整路徑中的第二個(gè)節(jié)點(diǎn)。因此,為了將模型與人為數(shù)據(jù)進(jìn)行比較,使用廣度優(yōu)先搜索的一種變體(以下稱為分層BFS)來(lái)預(yù)測(cè)從起始節(jié)點(diǎn)(節(jié)點(diǎn)6)到目標(biāo)節(jié)點(diǎn)(節(jié)點(diǎn)1)的路徑。

靜態(tài)獎(jiǎng)勵(lì)。對(duì)于每個(gè)受試者,使用Metropolis-within-Gibbs抽樣,從后驗(yàn)樣本中取樣,并選擇最有可能的分層,即具有最高后驗(yàn)概率的分層。然后,使用層次化的BFS,首先在集群間找路徑,然后在集群內(nèi)的節(jié)點(diǎn)間找路徑。

動(dòng)態(tài)獎(jiǎng)勵(lì)。對(duì)于動(dòng)態(tài)獎(jiǎng)勵(lì),我們使用在線推斷。對(duì)于每個(gè)模擬的參與者,每個(gè)試驗(yàn)的取樣只進(jìn)行10步,然后保存分層并添加有關(guān)修改后獎(jiǎng)勵(lì)的信息。接下來(lái)從保存的分層開(kāi)始再次采樣。在人為試驗(yàn)中,盡管在群體中獎(jiǎng)勵(lì)總是相等的,但是每個(gè)試驗(yàn)開(kāi)始時(shí)獎(jiǎng)勵(lì)被重新隨機(jī)分配新值的概率為0.2。

這種推理方法模擬了人類參與者在許多的試驗(yàn)過(guò)程中累積學(xué)習(xí)的方式。為了達(dá)到實(shí)驗(yàn)?zāi)康模僭O(shè)人們一次只記住一個(gè)分層,而不會(huì)同時(shí)更新多個(gè)分層。對(duì)數(shù)后驗(yàn)被修改以判罰未連接集群,因?yàn)樵谶@類推論下,此類集群更加普遍。

結(jié)果

人類組和兩個(gè)模擬組都有95名參與者。相等數(shù)量的參與者選擇通過(guò)節(jié)點(diǎn)5和通過(guò)節(jié)點(diǎn)7的路徑為零假設(shè)代表,因?yàn)樵跊](méi)有任何其他信息的情況下,假設(shè)兩條路徑的長(zhǎng)度相等,參與者選擇其中一條的可能性相等。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

人類行為與靜態(tài)和動(dòng)態(tài)獎(jiǎng)勵(lì)模型

如上表所示,人類試驗(yàn)和靜態(tài)獎(jiǎng)勵(lì)建模的結(jié)果在α=0.05時(shí)具有統(tǒng)計(jì)學(xué)意義。此外,如下所示,人類試驗(yàn)的結(jié)果位于正態(tài)分布的第90個(gè)百分位數(shù),以0.5為中心,給出零假設(shè)時(shí)的預(yù)期比例。

在該圖中,我們包括由靜態(tài)獎(jiǎng)勵(lì)模型(第一行),具有在斷開(kāi)的組成部分之間形成簇的靜態(tài)獎(jiǎng)勵(lì)模型(第二行)和動(dòng)態(tài)獎(jiǎng)勵(lì)模型(第三行)標(biāo)識(shí)的聚類。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

模擬識(shí)別的集群

靜態(tài)獎(jiǎng)勵(lì)。我們使用了1000次Metropolis-in-Gibbs采樣來(lái)生成每個(gè)樣本,每個(gè)樣本的老化和滯后均為1。靜態(tài)獎(jiǎng)勵(lì)下的模擬肯定會(huì)有利于通過(guò)節(jié)點(diǎn)5的路徑達(dá)到統(tǒng)計(jì)上有意義的水平。此外,由于其目的是對(duì)人類行為進(jìn)行建模,因此鑒于人類數(shù)據(jù)也具有統(tǒng)計(jì)學(xué)意義(0.0321<α= 0.05),那么該結(jié)果是有意義的。

 

如何教會(huì)AI像人類一樣進(jìn)行規(guī)劃?

 

人類和模擬受試者的選擇

動(dòng)態(tài)獎(jiǎng)勵(lì)。為了模擬人類試驗(yàn),我們進(jìn)行了100次試驗(yàn),每次試驗(yàn)進(jìn)行了10次Metropolis-within-Gibbs迭代,以便后方取樣。burnin和lag再次設(shè)置為1。

盡管比起靜態(tài)獎(jiǎng)勵(lì)模型下的模擬組,動(dòng)態(tài)獎(jiǎng)勵(lì)模型下的模擬者組離假設(shè)更遠(yuǎn),但比起靜態(tài)獎(jiǎng)勵(lì),在線推理方法似乎更適合創(chuàng)建人類數(shù)據(jù)的模型。在動(dòng)態(tài)獎(jiǎng)勵(lì)模型下,56名人類參與者和54名模擬參與者選擇了節(jié)點(diǎn)5(3.4%的差異),而靜態(tài)獎(jiǎng)勵(lì)模型下的64名模擬參與者(18.5%的差異)。

上面的柱狀圖顯示了選擇路徑的第二個(gè)節(jié)點(diǎn)是節(jié)點(diǎn)5的人類和模擬者的比例。實(shí)心黑線表示在給出零假設(shè)的情況下的預(yù)期比例,黑色虛線表示第10和第90個(gè)百分位。

人類似乎會(huì)自發(fā)地將環(huán)境組織成支持分層規(guī)劃的狀態(tài)集群,從而通過(guò)將問(wèn)題分解為不同抽象級(jí)別的子問(wèn)題,來(lái)解決具有挑戰(zhàn)性的問(wèn)題。人們總是依賴這種等級(jí)分明的陳述來(lái)完成大大小小的任務(wù),而他們往往第一次嘗試就成功了。

 

我們證明了一個(gè)最優(yōu)分層不僅取決于圖的結(jié)構(gòu),而且還取決于環(huán)境的可視特征,即獎(jiǎng)勵(lì)的分布。我們建立了分層貝葉斯模型,以了解聚類如何誘發(fā)靜態(tài)獎(jiǎng)勵(lì),以及靜態(tài)和動(dòng)態(tài)獎(jiǎng)勵(lì)如何誘發(fā)聚類,并發(fā)現(xiàn)就我們的模型捕獲人類行為的緊密程度而言,大多數(shù)結(jié)果在統(tǒng)計(jì)層面上都是顯著的。

 

 

責(zé)任編輯:華軒 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2024-08-14 14:43:00

2022-07-28 14:46:01

人工智能機(jī)器人計(jì)算機(jī)科學(xué)

2020-01-09 17:03:29

人工智能技術(shù)算法

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務(wù)價(jià)值

2015-03-16 12:50:44

2023-04-05 14:19:07

FlinkRedisNoSQL

2023-09-22 11:56:57

模型駕駛

2018-10-25 22:34:34

機(jī)器人人工智能系統(tǒng)

2021-09-07 10:29:11

JavaScript模塊CSS

2017-05-22 10:33:14

PythonJuliaCython

2021-12-28 11:23:36

SQLServerExcel數(shù)據(jù)分析

2025-05-30 09:10:00

2024-01-05 07:36:54

人工智能創(chuàng)造力模型

2013-12-17 09:02:03

Python調(diào)試

2013-12-31 09:19:23

Python調(diào)試

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2020-07-30 15:14:16

AI阿里SIGIR 2020

2017-04-26 14:02:18

大數(shù)據(jù)數(shù)據(jù)分析Excel

2016-10-08 00:24:53

httptcp實(shí)時(shí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久黄色 | 狠狠婷婷综合久久久久久妖精 | 福利视频一区二区 | 在线看免费的a | 一级黄色播放 | 男人天堂网址 | 成人av鲁丝片一区二区小说 | 久久久久久中文字幕 | 99精品国产成人一区二区 | 日本亚洲精品成人欧美一区 | 国产精品视频一区二区三区 | 亚洲精品视频免费观看 | 青青草视频网站 | 日韩精品一区二区三区中文在线 | 中文在线一区二区 | 免费看a | 婷婷激情综合 | 天天操网| www.国产精 | 亚洲先锋影音 | 亚洲在线免费 | 国产精品欧美一区二区三区不卡 | 精品影院| 欧美第一页 | 精品二三区 | 天天操天天射综合网 | 欧美黄色绿像 | 国产激情视频在线 | 国产精品中文字幕在线 | 五月婷婷丁香 | 五月激情婷婷六月 | 日日夜夜天天干 | 在线啊v| 国产精品网址 | 亚洲不卡在线视频 | 蜜桃毛片 | 中文字幕一区二区不卡 | 成年人精品视频 | 看毛片的网站 | 亚洲午夜视频在线观看 | 免费黄网站在线观看 |