成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI好奇心,不只害死貓!MIT強化學習新算法,智能體這回「難易通吃」

人工智能
MIT強化學習新算法,根據監督稀疏程度自動調整AI智能體「好奇心」,高低難度任務通吃。

?人人都遇見過一個古老的難題。

周五晚上,你正試圖挑選一家餐廳吃飯,但沒有預定。你應該去你最愛的那家人滿為患的餐廳排隊等位,還是嘗試一家新餐廳,希望能發現一些更好吃的驚喜?

后者確實有可能帶來驚喜,但這種好奇心驅動的行為是有風險的:你去嘗試的那家新餐廳的東西可能會更難吃。

好奇心作為AI探索世界的驅動力,實例已經不勝枚舉了——自主導航、機器人決策、優化檢測結果等等。

在某些情況下,機器使用「強化學習」來完成一個目標,在這一過程中,AI智能體從被獎勵的好行為和被懲罰的壞行為中反復學習。

圖片

就像人類在選擇餐廳時面臨的困境一樣,這些智能體也在努力平衡發現更好的行動(探索)的時間和采取過去導致高回報的行動(利用)的時間。

太強的好奇心會分散智能體的注意力,無法做出有利的決定,而好奇心太弱,則意味著智能體永遠無法發現有利的決定。

為了追求使AI智能體具有「恰到好處」的好奇心,來自麻省理工學院計算機科學與AI實驗室(CSAIL)的研究人員創造了一種算法,克服了AI過于「好奇」和被手頭的任務分散注意力的問題。

他們研究出的算法會在需要時自動增加好奇心,如果智能體從環境中得到足夠的監督,已經知道該怎么做,則降低好奇心。

圖片

論文鏈接:https://williamd4112.github.io/pubs/neurips22_eipo.pdf

經過60多個視頻游戲的測試,該算法能夠在不同難度的探索任務中取得成功,而以前的算法只能單獨解決簡單或困難難度。這意味著AI智能體可以使用更少的數據來學習決策規則,達到激勵最大化。

「如果你很好地掌握了探索-開發之間權衡,就能更快地學習正確的決策規則,而任何不足之處都需要大量的數據,這可能意味著產生的結果是非最優的醫療方案,網站的利潤下降,以及機器人沒有學會做正確的事情?!?/p>

該研究帶頭人之一、麻省理工學院教授兼Improbable AI實驗室主任Pulkit Agrawal說。?

好奇心,不只害死貓!

我們似乎很難從心理學角度解釋好奇心的心理基礎,對于這種尋求挑戰的行為的潛在神經學原理,我們一直沒有深入理解。

有了強化學習,這個過程在情感上被「修剪」了,將這個問題剝離至最基本的層面,但在技術實現上卻相當復雜。

從本質上講,智能體只應該在沒有足夠的監督來嘗試不同的事情時才會有好奇心,如果有監督,它必須調整好奇心,降低好奇心。

在測試游戲任務中,很大一部分是小智能體在環境中跑來跑去尋找獎勵,并執行一長串的行動來實現一些目標,這似乎是研究人員算法的邏輯測試平臺。

圖片

在《馬里奧賽車》和《蒙特祖瑪的復仇》等游戲實驗中,研究人員將上述游戲分為兩個不同類別:

一種監督稀疏的環境,智能體獲得的指導較少,也就是「困難」的探索游戲;另一種是監督更密集的環境,即「簡單」的探索游戲。

假設在《馬里奧賽車》中,只刪除所有的獎勵,你不知道什么時候敵人殺了你。當你收集一個硬幣或跳過管道時,不會得到任何獎勵。智能體只有在最后才被告知其表現如何。這就屬于稀疏監督環境,也就是困難任務。在這種任務中,激勵好奇心的算法表現非常好。

而如果智能體處于密集監督環境,也就是說,跳過管道、收集硬幣和殺死敵人都有獎勵,那么,表現最好的就是完全沒有好奇心的算法,因為經常得到獎勵,只要照著走流程就行了,不需要額外探索就能收獲頗豐。

圖片

這里如果使用激勵好奇心的算法,學習速度會很慢。

因為好奇心強的智能體,可能會試圖以不同的方式快速奔跑,到處亂逛,走遍游戲的每一個角落。這些事情都很有趣,但并不能幫助智能體在游戲中取得成功,獲得獎勵。

如前文所言,在強化學習中,一般用激勵好奇心和抑制好奇心的算法,來分別對應監督稀疏(困難)和監督密集(簡單)任務,不能混用。

這一次,MIT團隊的新算法始終表現良好,無論是在什么環境中。

未來的工作可能涉及回到多年來令心理學家高興和困擾的探索:好奇心的適當衡量標準--沒有人真正知道從數學上定義好奇心的正確方法。

MIT CSAIL博士生Zhang Weihong說:

通過改進探索算法,為你感興趣的問題調整算法。我們需要好奇心來解決極具挑戰性的問題,但在某些問題上,好奇心會降低性能。我們的算法消除了調整「探索和利用」的平衡負擔問題。

以前要花一個星期來解決的問題,新算法可以在幾個小時內就得到滿意的結果。

他與麻省理工學院CSAIL工程碩士、22歲的Eric Chen是關于這項工作的新論文的共同作者。

卡內基梅隆大學的教師Deepak Pathak說:

「像好奇心這樣的內在獎勵機制,是引導智能體發現有用的多樣化行為的基礎,但這不應該以在給定的任務中做得好為代價。這是AI中的一個重要問題,這篇論文提供了一種平衡這種權衡的方法??纯催@種方法如何從游戲擴展到現實世界的機器人智能體上,將是很有趣的一件事?!?/p>

加州大學伯克利分校心理學特聘教授和哲學副教授Alison Gopnik指出,當前AI和認知科學的最大挑戰之一,就是如何平衡「探索和利用」,前者是對信息的搜索,后者是對獎勵的搜索。

「這篇論文使用了令人印象深刻的新技術來自動完成這一工作,設計了一個能夠系統地平衡對世界的好奇心和對獎勵的渴望的智能體,讓AI智能體朝著像真正的兒童一樣聰明的方向,邁出了重要一步?!顾f。

參考資料:

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail.mit.edu/news/ensuring-ai-works-right-dose-curiosity

責任編輯:武曉燕 來源: 新智元
相關推薦

2018-09-18 15:26:21

電腦產品主板

2013-11-07 16:16:24

2020-04-15 16:44:38

谷歌強化學習算法

2013-11-07 14:13:23

2017-06-10 16:19:22

人工智能智能體強化學習

2022-11-03 14:13:52

強化學習方法

2023-08-28 06:52:29

2025-03-03 09:12:00

2015-05-07 13:38:15

2017-03-30 15:19:36

2010-01-21 10:22:53

JAVA認證

2021-03-01 19:22:15

大數據好奇心CIO

2023-02-21 17:06:49

硬件軟件系統

2023-09-04 09:07:50

CIOIT領域

2025-06-09 09:32:35

2016-02-22 18:28:40

2015-07-02 15:04:53

CSS好奇心+

2021-11-04 15:30:56

AI 數據人工智能

2017-02-20 16:35:10

人工智能算法強化學習

2020-06-05 14:49:51

強化學習算法框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜一区二区三区视频 | 精品一区国产 | 日韩三级在线观看 | av中文字幕在线 | 亚洲电影专区 | 久久久久久久综合 | 中文字幕一区二区三区四区五区 | 国产一区二区在线91 | 国产欧美在线观看 | 日韩欧美字幕 | 久久一区二区三区四区 | 黄色网址免费在线观看 | 久久久久久久久久久成人 | 精品国产视频在线观看 | 精品视频一区二区 | 国产小视频在线看 | 欧美 日韩 中文 | 在线看h| 久久久国产亚洲精品 | 国产激情视频在线观看 | 国产美女黄色片 | 精品一区二区三区免费视频 | 欧美日韩一二三区 | 成人精品国产一区二区4080 | 日韩欧美视频免费在线观看 | 国产农村妇女毛片精品久久麻豆 | 激情欧美日韩一区二区 | 国产精品久久久久久久久免费相片 | 精品一二区| 精品影院 | 精品啪啪 | 337p日本欧洲亚洲大胆 | 国产精品日韩在线观看一区二区 | 国产亚洲一区精品 | 成人免费看片网 | 国产午夜精品一区二区三区嫩草 | 国产一区二区三区四区三区四 | 小视频你懂得 | av色在线 | 在线观看a视频 | 成人免费视频网站在线看 |