成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

強(qiáng)化學(xué)習(xí)的起源:從老鼠走迷宮到AlphaGo戰(zhàn)勝人類

人工智能
?談到強(qiáng)化學(xué)習(xí),很多研究人員的腎上腺素便不受控制地飆升!它在游戲AI系統(tǒng)、現(xiàn)代機(jī)器人、芯片設(shè)計(jì)系統(tǒng)和其他應(yīng)用中發(fā)揮著十分重要的作用。

?談到強(qiáng)化學(xué)習(xí),很多研究人員的腎上腺素便不受控制地飆升!它在游戲AI系統(tǒng)、現(xiàn)代機(jī)器人、芯片設(shè)計(jì)系統(tǒng)和其他應(yīng)用中發(fā)揮著十分重要的作用。 

強(qiáng)化學(xué)習(xí)算法有很多不同的類型,但主要分為兩類:「基于模型的」和「無模型的」。 

在與TechTalks的對話中,神經(jīng)科學(xué)家、 「智能的誕生」一書的作者Daeyeol Lee分別討論了人類和動物強(qiáng)化學(xué)習(xí)的不同模式、人工智能和自然智能,以及未來的研究方向。? 

圖片

無模型的強(qiáng)化學(xué)習(xí)

19世紀(jì)后期,心理學(xué)家Edward Thorndike提出的「效應(yīng)定律」成為了無模型強(qiáng)化學(xué)習(xí)的基礎(chǔ)。 Thorndike提出,在特定情境中具有積極影響的行為,在該情境中更有可能再次發(fā)生,而產(chǎn)生負(fù)面影響的行為則不太可能再發(fā)生。

Thorndike在一個(gè)實(shí)驗(yàn)中探索了這一「效應(yīng)定律」。 他把一只貓放在一個(gè)迷宮盒子中,并測量貓從盒中逃脫所需的時(shí)間。為了逃脫,貓必須操作一系列小工具,如繩子和杠桿。Thorndike觀察到,當(dāng)貓與謎盒互動時(shí),它學(xué)會了有助于逃跑的行為。隨著時(shí)間的推移,貓?zhí)与x盒子的速度越來越快。 Thorndike的結(jié)論是,貓可以從其行為提供的獎勵和懲罰中進(jìn)行學(xué)習(xí)。 「效應(yīng)定律」后來為行為主義鋪平了道路。行為主義是心理學(xué)的一個(gè)分支,試圖從刺激和反應(yīng)的角度來解釋人類和動物的行為。 「效應(yīng)定律」也是無模型強(qiáng)化學(xué)習(xí)的基礎(chǔ)。在無模型強(qiáng)化學(xué)習(xí)中,通過主體感知世界,然后采取行動,同時(shí)衡量獎勵。 

在無模型強(qiáng)化學(xué)習(xí)中,并不存在直接的知識或世界模型。RL代理必須通過反復(fù)試驗(yàn),直接去體驗(yàn)每個(gè)動作的結(jié)果。 

基于模型的強(qiáng)化學(xué)習(xí)

Thorndike的「效應(yīng)定律」一直流行到20世紀(jì)30年代。當(dāng)時(shí)另一位心理學(xué)家Edward Tolman在探索老鼠如何快速學(xué)會走迷宮時(shí)發(fā)現(xiàn)了一個(gè)重要的見解。在他的實(shí)驗(yàn)中,Tolman意識到動物可以在沒有強(qiáng)化的情況下了解他們的環(huán)境。 

例如,當(dāng)一只老鼠在迷宮中被放出來時(shí),它會自由地探索隧道,并逐漸了解環(huán)境的結(jié)構(gòu)。如果隨后將這只老鼠重新放進(jìn)相同的環(huán)境,并提供強(qiáng)化信號,如尋找食物或?qū)ふ页隹冢敲此梢员葲]有探索過迷宮的動物更快地到達(dá)目標(biāo)。 Tolman稱之為「潛在學(xué)習(xí)」,這成為基于模型的強(qiáng)化學(xué)習(xí)的基礎(chǔ)。 「潛在學(xué)習(xí)」使動物和人類對他們的世界形成一種心理表征,在他們的頭腦中模擬假設(shè)的場景,并預(yù)測結(jié)果。

圖片

 基于模型的強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn)是它消除了agent在環(huán)境中進(jìn)行試錯(cuò)的需要。 值得強(qiáng)調(diào)的一點(diǎn)是:基于模型的強(qiáng)化學(xué)習(xí)在開發(fā)能夠掌握國際象棋和圍棋等棋盤游戲的人工智能系統(tǒng)方面尤其成功,可能的原因是這些游戲的環(huán)境是確定的。 

圖片

基于模型 VS 無模型

 通常來說,基于模型的強(qiáng)化學(xué)習(xí)會非常耗時(shí),在對時(shí)間極度敏感的時(shí)候,可能會發(fā)生致命的危險(xiǎn)。 Lee說:「在計(jì)算上,基于模型的強(qiáng)化學(xué)習(xí)要復(fù)雜得多。首先你必須獲得模型,進(jìn)行心理模擬,然后你必須找到神經(jīng)過程的軌跡,再采取行動。不過,基于模型的強(qiáng)化學(xué)習(xí)不一定就比無模型的RL復(fù)雜。」 當(dāng)環(huán)境十分復(fù)雜時(shí),倘若可以用一個(gè)相對簡單的模型(該模型可以快速獲得)進(jìn)行建模,那么模擬就會簡單得多,而且具有成本效益。? 

多種學(xué)習(xí)模式

其實(shí),無論是基于模型的強(qiáng)化學(xué)習(xí)還是無模型的強(qiáng)化學(xué)習(xí)都不是一個(gè)完美的解決方案。無論你在哪里看到一個(gè)強(qiáng)化學(xué)習(xí)系統(tǒng)解決一個(gè)復(fù)雜的問題,它都有可能是同時(shí)使用基于模型和無模型的強(qiáng)化學(xué)習(xí),甚至可能更多形式的學(xué)習(xí)。 神經(jīng)科學(xué)的研究表明,人類和動物都有多種學(xué)習(xí)方式,而大腦在任何特定時(shí)刻都在這些模式之間不斷切換。 ?最近幾年,人們對創(chuàng)造結(jié)合多種強(qiáng)化學(xué)習(xí)模式的人工智能系統(tǒng)越來越感興趣。 加州大學(xué)圣地亞哥分校的科學(xué)家最近的研究表明,將無模型強(qiáng)化學(xué)習(xí)和基于模型的強(qiáng)化學(xué)習(xí)結(jié)合起來,可以在控制任務(wù)中取得卓越的表現(xiàn)。 Lee表示:「如果你看看像AlphaGo這樣復(fù)雜的算法,它既有無模型的RL元素,也有基于模型的RL元素,它根據(jù)棋盤配置學(xué)習(xí)狀態(tài)值,這基本上是無模型的 RL,但它同時(shí)也進(jìn)行基于模型的前向搜索。」 

盡管取得了顯著的成就,強(qiáng)化學(xué)習(xí)的進(jìn)展仍然緩慢。一旦RL模型面臨復(fù)雜且不可預(yù)測的環(huán)境,其性能就會開始下降。?

Lee說:「我認(rèn)為我們的大腦是一個(gè)學(xué)習(xí)算法的復(fù)雜世界,它們已經(jīng)進(jìn)化到可以處理許多不同的情況。」 

除了在這些學(xué)習(xí)模式之間不斷切換之外,大腦還設(shè)法一直保持和更新它們,即使是在它們沒有積極參與決策的情況下。 

心理學(xué)家Daniel Kahneman表示:「維護(hù)不同的學(xué)習(xí)模塊并同時(shí)更新它們是有助于提高人工智能系統(tǒng)的效率和準(zhǔn)確性。」 

我們還需要清楚另一件事——如何在AI系統(tǒng)中應(yīng)用正確的歸納偏置,以確保它們以具有成本效益的方式學(xué)習(xí)正確的東西。 數(shù)十億年的進(jìn)化為人類和動物提供了有效學(xué)習(xí)所需的歸納偏置,同時(shí)使用盡可能少的數(shù)據(jù)。 歸納偏置可以理解為,從現(xiàn)實(shí)生活觀察到的現(xiàn)象中,總結(jié)出規(guī)則,然后對模型做一定的約束,從而可以起到模型選擇的作用,即從假設(shè)空間中選擇出更符合現(xiàn)實(shí)規(guī)則的模型。 Lee說:「我們從環(huán)境中獲得的信息非常少。使用這些信息,我們必須進(jìn)行概括。原因是大腦存在歸納偏置,并且存在可以從一小組示例中概括出來的偏置。這是進(jìn)化的產(chǎn)物,越來越多的神經(jīng)科學(xué)家對此感興趣。」 然而,雖然歸納偏置在物體識別任務(wù)中很容易理解,但在構(gòu)建社會關(guān)系等抽象問題中就變得晦澀難懂。 未來,需要我們了解的還有很多~~~?

參考資料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning?

責(zé)任編輯:未麗燕 來源: 新智元
相關(guān)推薦

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2017-03-27 16:35:23

2018-06-05 15:02:32

2017-04-04 19:52:24

強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)機(jī)器學(xué)習(xí)

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2024-08-09 12:46:04

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2025-03-06 10:07:00

AI強(qiáng)化學(xué)習(xí)技術(shù)

2020-11-04 10:28:48

機(jī)器人人工智能系統(tǒng)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2025-03-03 09:12:00

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2023-11-13 07:51:58

ChatGPT研究

2022-08-26 14:44:32

強(qiáng)化學(xué)習(xí)AI

2021-09-26 13:50:52

AI 數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2020-11-16 08:54:05

Google 開源技術(shù)

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线观看中文字幕视频 | 亚洲a视频 | 国产精品成人一区二区三区吃奶 | 新91视频网| 国产高清视频在线播放 | 一区二区三区四区在线 | 欧美精品首页 | 日韩在线免费视频 | 国产亚洲一区二区三区在线观看 | 久久精品aaa | 国产电影一区二区 | 国产真实精品久久二三区 | 久在线| 日本高清中文字幕 | 欧美一区二区三区视频 | 蜜桃av鲁一鲁一鲁一鲁 | 久久精品国产一区 | 日韩精品在线网站 | 国产97碰免费视频 | 亚洲日本成人 | 国产一区日韩在线 | 亚洲色图综合网 | 日本视频在线播放 | 99精品电影 | 久久久久国产一区二区三区 | 国产欧美日韩综合精品一区二区 | 欧美视频网 | 午夜成人免费电影 | 亚洲狠狠 | 国产精品成人免费 | 黄网站在线观看 | 成年人视频在线免费观看 | www.亚洲一区二区 | 我要看免费一级毛片 | 国产亚洲精品成人av久久ww | 综合精品| 亚洲欧美激情精品一区二区 | 正在播放一区二区 | 黑人巨大精品欧美一区二区免费 | 久久亚洲国产 | 日韩中文字幕在线观看 |