成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從認知學到進化論,詳述強化學習兩大最新突破

開發 開發工具 深度學習
作為AI技術,利用了情景記憶和元學習的deep RL方法也可以應用于心理學和神經科學,尤其是這些技術隱含的關于快速和慢速學習模式之間基本聯系。

大數據文摘出品

編譯:李雷、錢天培

深層強化學習(deep RL)近年來在人工智能方面取得了令人矚目的進步,在Atari游戲、圍棋及***制撲克等領域戰勝了人類。

通過將表征學習與獎勵驅動行為相結合,深層強化學習又引發了心理學和神經科學領域的諸多討論。

不過,深度強化學習過程往往需要大量的訓練數據。正因如此,多數人認為這些算法可能與人類學習有著本質的區別。

事實上,這種擔憂只出現在深度強化學習技術的早期階段。隨后的AI研究工作已使deep RL系統能更快速有效地學習。

這些AI研究中有兩個特別有趣又有前景的技術,分別是情景記憶(對特定事件的記憶,episodic memory)和元學習(學會如何學習,meta-learning)。

今天,我們就會著重介紹這兩種新技術——它們或將為強化學習帶來重要變革。

作為AI技術,利用了情景記憶和元學習的deep RL方法也可以應用于心理學和神經科學,尤其是這些技術隱含的關于快速和慢速學習模式之間基本聯系。

強大但低效:***波深度強化學習浪潮

在過去的幾年里,人工智能(AI)研究取得了革命性的進展,神經網絡或“深度學習”方法的再次興起使圖像識別、自然語言處理以及許多其他領域產生突破。這些發展引起了心理學家、心理語言學家和神經科學家的興趣,他們對人工智能的發展是否會帶來有關人類認知和腦功能的新假說感到好奇。

從這個角度來看,人工智能研究的一個特別吸引人的地方就是深度強化學習(deep RL)。deep RL將神經網絡建模與強化學習結合起來,這是一套以獎懲而非明確指令驅動學習的方法。經過數十年的空想之后,deep RL在過去的5年里已經成為人工智能研究競爭最激烈的領域之一,在視頻游戲、撲克、多人賽和復雜的棋盤游戲(包括圍棋和國際象棋)等方面的表現都超越了人類。

深度強化學習

強化學習(RL)的焦點集中在學習行為策略的問題上,即從狀態或情境到行為的映射,這使得長期獎勵的累積***化。簡單情況下,這種策略可以表示為列舉了狀態和行為的查找表。而在復雜情況下,則需要用參數化函數來間接地表達策略。早期(上世紀90年代)使用多層(或深層)神經網絡來實現,但在整合深層神經網絡和RL上遇到了困難。直到2015年,deep RL在復雜領域(如Atari視頻游戲)的突破,以及隨之而來在改進和擴展deep RL方面的快速發展,使其可以應用于復雜任務中,比如圍棋。

作為AI技術,deep RL似乎與心理學和神經科學有著特別的淵源。deep RL的學習驅動機制最初是受到動物訓練研究的啟發,并且這種機制被認為與基于獎勵(產生多巴胺)的學習神經機制密切相關。同時,deep RL利用神經網絡來學習支持泛化和轉移的強大表征,這一點與生物大腦的關鍵能力極為相似。有鑒于此,deep RL似乎為研究人類/動物學習的人員在行為和神經科學上提供了豐富的想法和假設。事實上,研究人員已開始注意到這一點。

不過,***波deep RL研究也引發了某些警示。首先,deep RL系統的學習方式人類完全不同。有人認為,這種差異表現為人類學習與deep RL的采樣效率不同。

采樣效率是指學習系統達到任何選定目標性能水平所需的數據量。在這一指標上,***波deep RL系統確實與人類學習者有著本質區別。例如,為了在Atari視頻游戲或國際象棋等任務中獲得專業級別的表現,deep RL系統的訓練數據需要比人類專業選手多幾個數量級。簡而言之,至少在最初的系統中,deep RL訓練速度太慢,無法生成人類學習的合理模型。

但很快,deep RL研究中發生了重大創新,這些創新減少了對訓練數據量的要求,使得deep RL的采樣效率得到了顯著提升,因此可以生成人類學習模型,這為心理學和神經科學的研究找到新的出發點。

本文中,我們主要考慮兩種提升樣本效率的關鍵方法:episodic deep RL(情景式deep RL)和meta-RL(元強化學習)。我們研究了這些技術如何實現快速deep RL,及其對心理學和神經科學的潛在影響。

deep RL慢的原因

快速RL技術關鍵出發點是搞清楚為什么初始的deep RL方法速度如此慢,樣本效率如此低下。在這里,我們講兩個主要原因。在本文的***,我們將回過頭來研究這兩個原因之間的聯系。

***個原因是增量參數調整,也可以被理解為梯度下降算法所帶來的局限性。早期deep RL方法(在人工智能研究中仍然被廣泛使用)采用梯度下降來描述從感知輸入到動作輸出的深度神經網絡曲線。這種形式的學習過程中所做的調整必須很小,以便***限度地泛化并避免覆蓋之前的學習效果(有時被稱為“災難性干擾”)。這種對小步長調整的需求是早期deep RL方法速度慢的原因之一。

第二個原因是弱感應偏差。學習理論的一個基本信條是“偏差-方差權衡”,這在任何學習過程中都存在。歸納偏置(inductive bias)是指機器學習算法在學習過程中對某種類型假設的偏好。學習過程對學習模式的初始假設越強(即學習過程的初始歸納偏置越強),完成學習所需的數據就越少(假設初始歸納偏置與數據中的相符)。弱歸納偏置的學習過程可以掌握更廣泛的模式(更大的方差),但樣本效率通常會降低。實際上,強歸納偏置(對輸入數據僅考慮范圍窄的假設)才是可以快速學習的原因。更重要的是,通用神經網絡是極低偏置的學習系統:它們有許多參數(不同權重),需要適應各種類型的數據。這意味著早期deep RL模型中采用的通用神經網絡往往是樣本效率奇低的,需要大量數據來學習。

以上兩個因素 - 增量參數調整和弱感應偏差 - 共同造成了早期deep RL模型速度慢的事實。然而,隨后的研究表明,這兩個因素都可以減輕,從而允許deep RL以更加樣本有效的方式進行學習。在下文中,我們考慮兩種特定技術,一種解決增量參數調整問題,另一種解決弱感應偏差問題。除了它們在AI領域的影響之外,這兩種AI技術都與心理學和神經科學有著明顯的聯系,我們將詳細說明。

Episodic Deep RL:通過情景記憶快速學習

如果增量參數調整是deep RL速度慢的一個原因,那么一種解決方法可能是避免這種增量更新。單純靠控制梯度下降來優化學習率會導致災難性干擾問題。

最近的研究表明,另一種方法也可以實現相同的目標,即保留過去事件的明確記錄,并直接將此記錄用作制定新決策的參考點。這種方法稱為episodic RL,與機器學習中的“非參數”(不對目標函數的形式作出強烈假設)方法相似,如K近鄰算法,也類似于心理學中學習理論的“實例”或“范例”教學。

當遇到新情況且必須決定采取何種行動時,程序將當前情況的內部表示與過去情況的存儲表示進行比較。根據與當前最相似的過去情況,選擇相關聯的動作。當使用多層神經網絡計算內部狀態表示時,我們將得到的算法稱為“episodic deep RL”。

episodic RL的成功取決于用于計算狀態相似度的狀態表示。后來的研究表明,通過使用梯度下降學習來形成這些狀態表示可以改善性能。這些結果解釋了episodic RL在Atari學習環境57項游戲中的強大性能和高數據效率,展示了結合慢(表示)學習和快速(估算)學習的好處。

在episodic deep RL中,與標準增量方法不同,可以立即利用每個經驗事件獲得的信息來指導行為。然而,episodic deep RL能夠消除早期deep RL慢的因素,進行快速學習,主要取決于其減緩了增量學習。這種增量學習是對連接權重的漸進學習,允許系統對每個新觀察到的情況形成有用的內部表示或嵌入(embeddings)。這些表示的格式通過經驗學習獲得,使用相同類型的增量參數更新(即標準deep RL的根基)。最終,通過這種較慢的學習形式提升了episodic deep RL的速度。也就是說,通過慢學習實現了快速學習。

快速學習對慢學習的依賴并非巧合。正如我們將在下面論述的那樣,它是一個基本原則,不僅適用于AI,也適用于心理學和神經科學。然而,在考慮這個一般性觀點之前,我們將研究它在第二個用于快速deep RL技術 - meta-RL中的作用。

Meta-RL:通過學習如何學習來加速deep RL

如前所述,標準deep RL速度慢,除了增量更新,還有弱感應偏差。正如在偏差 - 方差權衡的概念中所描述的,快速學習要求對需要學習的模式結構要有一組合理數量的假設。假設設置得越細(窄),學習速度就越快。然而,正如前面所提到的,有一個問題:一個狹義的假設集只有在它包含正確的假設時才會提高學習速度。雖然強歸納偏置可以加速學習,但只有學習者采用的特定偏置恰好與學習材料相符合時才行。因此,這里出現了一個新的學習問題:學習者如何知道采用什么歸納偏置?

看到這個問題,很容易想到的答案是借鑒過去的經驗。顯然,這就是我們日常生活中的情形。例如,學習使用新的智能手機。在這種情況下,一個人過去使用智能手機和其他相關設備的經驗可以用來假設新手機應該如何工作,也可以用來指導摸索手機操作。這些初始假設對應于偏差 - 方差權衡中的“偏差”,它們會影響快速學習能力。沒有這些初始偏置的學習者(即具有更高的“方差”)會考慮更廣泛的關于手機操作的假設,但這樣就會犧牲學習速度。

利用過去的經驗來加速新學習在機器學習中被稱為元學習(meta-learning)。其實這個想法源于心理學,被稱為“學習如何學習”。這個術語***出現在一篇心理學研究過論文中,作者Harlow給出了一個可以很好體現這個術語的實驗。在實驗里,一群猴子面前放著兩個它們不熟悉的物體,并允許它們拿起其中一個。

物體下面可能是食物獎勵,也可能是空的。然后將兩個物體再次放在猴子面前,但是位置可能左右顛倒,重復該過程6輪。然后用兩個新的,猴子不熟悉的物體,并重復之前的試驗6次。重復更換物體,依此類推。隨著測試次數增加,猴子們能發現一個簡單規則:總是有一種物體下面有食物而另一種物體沒有,不管這種物體放左還是放右。因此當給它們一對新物體時,猴子只要試一次就知道應該選哪個了。這是一個關于學習如何學習的簡單生動的例子。

現在回到機器學習,新的研究工作表明怎樣利用元學習來加速深度學習,已經有很多方法可以實現這個思路。其中一種方法與神經科學和心理學有著特殊的聯系。在這個方法里,循環神經網絡在一系列相互關聯的RL任務上進行訓練。

網絡中的權重調整非常緩慢,因此可以反應出任務中共性的內容,但不能快速更改以用于任何單個任務的解決方案。在這種情況下,循環網絡的活動狀態可以實現自己的RL算法,該算法基于過去任務產生的知識來快速解決每個新任務。也就是說,一個RL算法產生另一個,因此被命名為'meta-RL'。

與episodic deep RL一樣,meta-RL也與快速和慢速學習之間的密切聯系有關。循環網絡的權重在任務之間緩慢更新,允許任務間的共性信息“內置”到循環網絡的狀態中。由此產生的網絡狀態變化實現了一種新的學習算法,可以快速解決新問題,因為慢速學習的基礎過程給了它們有用的歸納偏置。這又是一次快速學習源于慢學習,并且通過慢學習實現提速。

Episodic Meta-RL

注意!我們上面討論的兩種技術并不相互排斥。實際上,最近的研究表明可以元學習(meta-learning)和情景控制(episodic control)整合起來,實現互補。在Episodic Meta-RL中,如前所述,元學習發生在循環神經網絡中。疊加在其上的是情景記憶系統,其作用是恢復循環神經網絡的活動模式。與episodic deep RL一樣,情景記憶對一組過去事件進行編目,可以根據當前上下文查詢這些事件。然而,Episodic Meta-RL不是將上下文與估值聯系起來,而是將它們與來自循環網絡的內部或隱藏單元的存儲活動模式連接起來。這些模式很重要,因為通過meta-RL,它們總結了agent從與單個任務交互中學到的東西。在episodic meta-RL中,當agent遇到與過去類似的情況時,它會允許先前學習的信息影響當前策略。實際上,情景記憶允許系統識別先前遇到的任務,并檢索存儲的解決方案。

通過模擬“強盜決策”任務和導航任務,Ritter 等人發現episodic meta-RL,就像普通的meta-RL一樣,學習強歸納偏置,從而使其能夠快速解決新任務。更重要的是,當遇到過去類似的任務時,episodic meta-RL會立即檢索并恢復之前生成的解決方案,從而無需重新學習。在***次遇到新任務時,系統速度受益于meta-RL的快速性; 在其后遇到新任務時,系統速度受益于情景控制所賦予的一次性學習能力。

對神經科學和心理學的啟示

正如我們在文章開始時所看到的那樣,人們因為采樣效率低下的問題而質疑deep RL與人類或其他動物學習的相似性。從心理學和神經科學的角度來看,episodic deep RL和meta-RL的一個重要含義是它們通過展示deep RL實際上速度不慢,從而消除了這種質疑。本文在一定程度上認為,deep RL是可以作為人類和動物學習的候選模型的。然而,除了這一點之外,episodic deep RL和meta-RL的細節也指向了心理學和神經科學中一些有趣的新假說。

首先是episodic deep RL。我們已經注意到它與經典的基于實例學習的人類記憶模型之間的有趣聯系。Episodic RL為基于實例的處理如何促進獎勵驅動學習提供了一個可能的解釋。有趣的是,最近關于動物和人類增強學習的研究越來越認可情景記憶的潛在貢獻,有證據表明狀態和行動價值的估計是基于對特定的過去行動 - 結果觀察的檢索記憶。

再說meta-RL,它對心理學和神經科學也有值得注意的潛在影響。有研究提出了從meta-RL的元素到神經結構和功能的直接映射。一系列計算機模擬表明, meta-RL可以解釋行為和神經生理學中的各種實證研究結果。

快速和慢速RL:更廣泛的意義

在討論episodic RL和meta-RL時,我們強調了“慢速”學習在實現快速、高采樣效率的學習方面的作用。在meta-RL中,正如我們所看到的,緩慢且基于權重學習的作用是建立歸納偏置,這可以用于指導推理,從而快速適應新任務。而episodic RL的緩慢增量學習也是類似的。Episodic RL本質上依賴于對情景或狀態之間相似性的判斷。緩慢的學習形成了狀態的內部表示方式,從而產生了一系列關于哪些狀態最密切相關的歸納偏置。

如果更仔細地觀察episodic RL,可以看出歸納偏置是學習架構的一部分。episodic RL有一種平滑原則的假設:類似的狀態通常會產生類似的動作。這種歸納偏置不是用于學習,而是連接到定義episodic RL的學習系統結構中。在當前的AI術語中,這屬于“架構”或“算法偏置”等情況,與meta-RL 中的“學習偏置”不同。

無論是通過學習還是通過直接手工設計架構或算法偏置來實現,目前的人工智能研究主要集中在尋找有用的歸納偏置以加快學習速度。實際上,后一種方法本身就是當前人工智能神經網絡理論復蘇的主要原因。卷積神經網絡引發了這種復蘇,它構建了一種與圖像識別中的平移不變性相關的非常特定的結構偏置。然而,在過去幾年中,越來越多的人工智能研究或多或少地集中在歸納偏置問題上。

站在更高的層次來看,這些技術的發展與心理學中一些長期存在的問題極為相似。正如我們已經指出的那樣,歸納偏置可能通過學習獲得的想法最初源于心理學,并且不時在心理學研究中被人們提到。然而,神經網絡中的元學習可以提供新的應用場景來探索這種學習如何學習過程的機制和原因,尤其是在RL環境中。

心理學,特別是發展心理學,長期以來也一直認為人類存在某種內在固有的歸納偏置。然而,架構偏置的概念以及神經網絡學習算法的內置偏置的概念還未得到廣泛認同。目前深度學習和深度增強學習的方法都提供了一個研究工具,可能有助于心理學領域的進一步探索。

值得注意的是,雖然人工智能將通過學習獲得的歸納偏置和手工“加入”的偏置做了明確區分,但在生物學背景下,兩者也有更一般的共性。具體而言,人們可以將架構和算法偏置視為由進化驅動的不同學習過程產生的。在這里,進化是一種“緩慢”的學習過程,逐漸形成架構和算法偏置,從而加快終身學習速度。因此,元學習不僅在一個生命周期內發揮作用,而且在進化中也發揮作用。有趣的是,這種觀點意味著進化不會選擇真正的“通用”學習算法,而是選擇那些利用大腦進化的特定環境中的規律性的算法。最近的機器學習更多地深入研究構建agent體系結構的方法,以及通過自然選擇的進化算法構建獎勵函數,這些新發展再次證明其在探索神經科學和心理學方面的意義。

結束語

deep RL研究領域的快速發展對心理學和神經科學具有極大的意義,因為它集中關注代表性學習和目標導向行為。在本文中,我們描述了***的deep RL形式,它克服了采樣效率低下的明顯問題,允許deep RL “快速”工作。這些技術不僅強化了deep RL對心理學和神經科學的潛在聯系,而且它們通過情景記憶和元學習等使這些潛在聯系更加豐富多樣。此外,deep RL的研究越來越多地為心理學和神經科學的新研究給出具體詳細的指導。

正如我們所強調的那樣,有關高效采樣deep RL***研究的關鍵意義在于,要快速學習,就必然依賴于慢速學習,這種慢速學習建立了快速學習的表征和歸納偏置。這樣的計算辯證法為研究大腦中多個記憶系統及其進化起源提供了理論框架。然而,除了本文中討論的那些,人類學習可能涉及多個交互過程,因此我們認為任何deep RL模型都需要整合所有這些才能更接近真實的人類學習。在更廣泛的層面上,理解RL中快速和慢速之間的關系為心理學和神經科學提供了令人信服的依據。實際上,這可能是人工智能、神經科學和心理學協同作用的關鍵領域,一直以來都是認知科學所追求的。

一些值得討論的問題

可以通過AI方法將高效采樣的deep RL擴展到人類實際生活的各種場景中嗎?這些方法能否產生對各種人類智慧的抽象本質?為此可能需要什么樣的訓練環境?

靈活且高效采樣的人類學習的機制是否與人工智能中目前正在探索的機制相關?如果是這樣,它們的神經實現是什么?當前的人工智能技術中的重點 - 梯度下降學習,是否會在大腦中發生,或者在某些其他機制起相同的作用?

在人類學習者所處的環境中最重要的學習歸納偏置是什么?這些偏置在多大程度上是通過進化遺傳或成長過程獲得的,在多大程度上是通過學習獲得的?

讓人類學習者如此高效的一個原因是人類是積極主動、有策略的信息搜集者。那么構建和激勵人類探索的原則是什么?我們如何在AI系統中復制這些原則?

相關報道:

https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(19)30061-0

【本文是51CTO專欄機構大數據文摘的原創文章,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2012-07-25 10:44:39

2009-10-28 09:11:17

2018-11-06 12:23:12

2020-11-18 13:03:10

云防火墻安全運營云安全

2013-10-17 16:46:00

DevOps

2017-04-10 10:06:09

互聯網

2017-02-27 11:36:31

阿里

2009-12-07 10:19:19

服務器IT基礎架構惠普

2021-05-27 07:54:21

CPU 指令集CISC

2016-07-11 11:28:22

華三

2020-01-23 15:33:07

AI 數據人工智能

2020-09-01 15:08:11

新華三

2015-06-05 12:14:57

DevOps云應用開發Docker

2014-10-08 15:13:12

GITC2014全球互聯網技術大會

2014-10-22 09:09:16

敏捷華為

2013-03-06 09:51:54

2021-03-13 08:00:59

機器人AI人工智能

2025-04-25 00:00:00

2012-03-31 11:09:24

ITWindows

2017-03-28 10:15:07

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩一区二区在线播放 | 国产免费拔擦拔擦8x高清 | 亚洲视频二区 | 久久久久国产精品 | 欧美日韩一区二区三区四区五区 | 伊人看片 | 久久久国产一区二区三区四区小说 | 成人午夜免费视频 | 国产福利视频导航 | 性天堂网| 日韩欧美国产精品一区二区 | 亚洲一区二区三区在线免费观看 | 亚洲一区二区三区在线免费 | 中文字幕一区在线观看视频 | 日韩在线一区二区三区 | 久草新视频 | 色精品视频 | 日韩视频国产 | 91久久伊人| 亚洲视频一区二区三区四区 | 国产精品一卡 | 精品中文字幕在线观看 | 欧美亚洲视频 | www.99精品 | 国产伦精品一区二区三区精品视频 | 91社区在线观看 | 国产一区二区三区在线看 | 天堂在线网 | 一级一级一级毛片 | 精品欧美一区二区在线观看欧美熟 | 91麻豆精品一区二区三区 | 亚洲精品一区二区三区免 | 一级做a毛片 | 国产精品久久久久久久久久久免费看 | 四虎最新视频 | 在线播放日韩 | www性色| 99这里只有精品 | 在线欧美一区二区 | 精品视频久久久久久 | 久久精品中文 |