成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

新聞 人工智能 算法
自從有了強化學習(RL),AI上能星際爭霸,下能雅達利稱王,讓內(nèi)行人沉醉,讓外行人驚奇。

 [[273322]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

自從有了強化學習(RL),AI上能星際爭霸,下能雅達利稱王,讓內(nèi)行人沉醉,讓外行人驚奇。

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

這里恰有一份標星過萬的強化學習資源,既有教程推薦,又有配套練習,網(wǎng)友學了都說好,并且還在實時更新。

入學要求并不高,只需要一些基礎的數(shù)學和機器學習知識。

清晰的學習路徑

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

想要入門強化學習,一份優(yōu)質(zhì)的課程必不可少。

強化學習資源千千萬,項目作者 Denny Britz 大力推薦這兩個:

David Silver 的強化學習課程

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

以及 Richard Sutton 和 Andrew Barto的《強化學習:簡介(第二版)》

http://incompleteideas.net/book/RLbook2018.pdf

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

p.s. 實測無需魔法

Denny Britz 小哥表示,這兩本書幾乎涵蓋了入門強化學習需要了解的大部分研究論文,基礎決定高度,理論知識還是要扎扎實實學起來。

理論有了,可書里并沒有算法實現(xiàn)。

別擔心,幫人幫到底,送佛送到西,Denny Britz 親自動手,用 Python,OpenAI Gym 和 Tensorflow 實現(xiàn)了大多數(shù)標準強化算法,并把它們都共享了出來,方便大家配合教材食用。

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

簡直太貼心。

在這份萬星資源里,每個文件夾都對應著教材的一個或多個章節(jié)。除了練習和解決方案之外,每個文件夾下還包含了一系列學習目標,基礎概念摘要,以及相關鏈接。

基于模型的強化學習:使用動態(tài)規(guī)劃的策略迭代和值迭代這一章為例。

這一章配套的是 David Silver RL課程的第三講,動態(tài)編程規(guī)劃。

首先是學習目標:

  • 了解策略評估和策略改進之間的區(qū)別,以及這些流程如何相互作用
  • 理解策略迭代算法
  • 理解值迭代算法
  • 了解動態(tài)規(guī)劃方法的局限性

設定好學習目標,這份教程還替你劃了重點概念。

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

最后,奉上實戰(zhàn)演練。

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

大框架已經(jīng)搭好,只需專注重點思考如何填空:

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

文后附標準答案:

GitHub萬星資源:強化學習算法實現(xiàn),教程代碼學習規(guī)劃全都有

實現(xiàn)算法列表

這份教程現(xiàn)在涵蓋了以下算法實現(xiàn)。

  • 動態(tài)規(guī)劃策略評估
  • 動態(tài)規(guī)劃策略迭代
  • 動態(tài)規(guī)劃值迭代
  • 蒙特卡洛預測
  • Epslion-Greedy 策略的蒙特卡洛控制
  • 具有重要性抽樣的蒙特卡洛非策略控制
  • SARSA(策略 TD 學習)
  • Q學習(非策略 TD 學習)
  • 線性函數(shù)逼近的Q學習
  • 雅達利游戲的深度Q學習
  • 雅達利游戲的雙重深度Q學習
  • 優(yōu)先經(jīng)驗回放的深度Q學習(施工中)
  • 策略梯度:基線強化
  • 策略梯度:基線Actor-Critic 算法
  • 策略梯度:具有連續(xù)動作空間的基線 Actor-Critic 算法
  • 連續(xù)動作空間的確定性策略梯度(施工中)
  • DDPG(施工中)
  • 異步優(yōu)勢 Actor-Critic 算法(A3C)

學習路徑如此清晰,這樣的優(yōu)質(zhì)資源,不Mark一下嗎?

傳送門:

https://github.com/dennybritz/reinforcement-learning

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-08-10 06:36:21

強化學習代碼深度學習

2022-02-09 08:55:13

RAID獨立冗余磁盤陣列數(shù)據(jù)丟失

2023-06-25 11:30:47

可視化

2023-01-24 17:03:13

強化學習算法機器人人工智能

2025-05-08 09:16:00

模型強化學習訓練

2022-08-11 13:49:37

機器學習技術

2018-06-04 10:58:46

機器學習預測應用API

2023-03-23 16:30:53

PyTorchDDPG算法

2024-03-19 00:15:00

機器學習強化學習人工智能

2018-11-13 17:12:53

戴爾

2019-04-22 09:52:34

GitHub代碼機器學習

2022-11-02 14:02:02

強化學習訓練

2023-03-09 08:00:00

強化學習機器學習圍棋

2019-09-29 10:42:02

人工智能機器學習技術

2024-10-12 17:14:12

2025-04-18 10:01:41

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2023-11-07 07:13:31

推薦系統(tǒng)多任務學習

2025-05-28 02:25:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区久久 | 五月综合激情婷婷 | 国产免国产免费 | 韩国毛片视频 | 在线免费观看a级片 | 日本天天色 | 亚洲中午字幕 | 国产欧美日韩精品一区二区三区 | 中文字幕一区二区三区在线视频 | 日韩电影中文字幕在线观看 | 精品国产一区二区三区性色av | 成人性视频在线播放 | 欧美激情一区二区三级高清视频 | 天天操 天天操 | 欧美亚洲国语精品一区二区 | 国产 欧美 日韩 一区 | 超碰精品在线观看 | 亚洲国产aⅴ成人精品无吗 综合国产在线 | 日韩成年人视频在线 | 亚洲最色网站 | 国产精品亚洲一区 | 久久久久久久久久久久一区二区 | 一级a毛片 | 人人干人人干人人干 | 四虎影院一区二区 | 国产综合视频 | 欧美精品成人影院 | 国产目拍亚洲精品99久久精品 | 国产成人av免费看 | 欧美aaaa视频 | 亚洲精品视频一区 | 91国内在线观看 | h视频在线观看免费 | 欧美午夜精品 | 亚洲视频中文字幕 | 成人精品一区二区三区中文字幕 | 日韩有码一区 | 久久机热| 欧美人妖网站 | 天堂av中文| 日韩成人在线观看 |