成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

新聞 前端
2020年DeepMind就推出了他們的強化學習框架Acme,但缺少教程和入門材料。倫敦政經博士用了一次之后直呼好用,立刻寫了一篇博客自發推廣!

 [[407369]]

研究強化學習的你還在苦于重復造輪子嗎?苦于尋找運行環境嗎?

DeepMind給你帶來了Acme框架!

Acme是一個基于 python 的強化學習研究框架,2020年由 Google 的 DeepMind 開源。這個框架簡化了新型 RL 智能體(agent)的開發,加快了 RL 研究的步伐。

DeepMind 是強化學習和人工智能研究的先行者,根據他們自己的研究人員所說,Acme 已經成為 DeepMind 的日常使用的框架了。

目前Acme在Git已經獲得了超過2.1k個星星。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

Acme的學習曲線也是相當平緩的。但由于Acme有多個不同復雜程度的接口作為切入點,也就是說,這個框架不僅適用于高級研究人員,而且允許初學者實現甚至是簡單的算法,類似于 TensorFlow 和 PyTorch 能夠同時被初學者和專家所使用。

但這個框架唯一的缺點就是,由于框架仍然是相當新的,沒有真正完整的文檔可用,也沒有任何優秀的教程。

針對這個問題,倫敦政治經濟學院一個博士生寫了一篇教學博客,幫助了解Acme框架,據作者所說,這篇教程文章并不打算成為或取代一個完整的文檔,而是對 Acme 的一個簡潔、實用的介紹。最重要的是,它應該讓讀者了解框架底層的設計選擇,以及這對 RL 算法的實現意味著什么。

Acme的基本架構

以21點游戲(BlackJack)作為例子來介紹框架。

Acme 的智能體的運行環境沒有設計與Gym運行環境交互,而是采用DeepMind 自己創建的 RL 環境 API。它們的區別主要在于時間步是如何表示的。

幸運的是, Acme 的開發人員已經為Gym環境提供了包裝器函數。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

21點有32 x 11 x 2個狀態,盡管并不是所有這些狀態都能在一場比賽中實際發生,并且有兩個action可選,hit或是stick。

三個重要的角色分別是actor, learner, 智能體agent。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

learner使用actor收集的數據來學習或改進策略,通常采用迭代的在線方式。例如,學習可能包括更新神經網絡的參數。新的參數被傳遞給actor,然后actor根據更新的策略進行操作。

智能體只是簡單地將行為和學習組件結合起來,但是通常不需要實現額外的強化學習邏輯。下面的圖片包含了所有三個組件。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

這種將actor、learner和agent分解的主要原因之一是為了促進分布式強化學習。如果我們不關心這些,或者算法足夠簡單,那么也可以只實現actor,并簡單地將學習步驟集成到actor的更新方法中。

例如,下面的隨機智能體繼承自 acme的Actor類。開發人員必須實現的方法是 select_action、 observe_first、observe 和 update。正如剛才提到的,后者是沒有額外的learner組成部分的學習。

注意,這個agent將以同樣的方式工作,而不會子類化 acme.Actor。基類僅確定必須覆蓋的方法。這還確保agent按照預期的方式與其他 Acme 組件集成,例如環境循環(environment loop)。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

這個agent使用一個隨機選擇hit或stick的策略,但是通常框架允許您在如何實現策略方面有很大的靈活性。后面還會實現一個貪婪的政策。

在其他情況下,策略可能包含一個神經網絡,可以使用 TensorFlow、 PyTorch 或 JAX 來實現它。在這個意義上,Acme 是框架是不可知的,可以將它與任何機器學習庫結合起來。

在更新方法中,actor通常只從learner中提取最新的參數。

但是,如果不使用單獨的學習者,那么 RL 邏輯將進入update方法。

一個 強化學習算法通常由一個循環組成,每個循環由四個步驟組成,重復這四個步驟,直到達到一個終止狀態。

1、觀察狀態

2、根據行為策略選擇下一步行動

3、觀察獎勵

4、更新策略

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

在大多數情況下,這個循環總是完全相同的。

方便的是,在 Acme 中有一個快捷方式: EnvironmentLoop,它執行的步驟幾乎與上面看到的步驟一模一樣。只需傳遞環境和代理實例,然后可以使用單行代碼運行單個事件或任意多個事件。還有一些記錄器可以跟蹤重要的指標,比如每一個迭代采取的步驟數和收集到的獎勵。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

SARSA 智能體

SARSA 是一個基于策略的算法,其更新依賴于狀態(state)、行動(action)、獎勵(reward)、下一個狀態(next state)和下一個行動(next action)而得名。

首先,在智能體的 __init__ 方法中,我們初始化 Q、狀態動作值矩陣和行為策略,這是一個 epsilon 貪婪策略。還要注意,這個代理必須始終存儲它的上一個 timestep、 action 和下一個 timestep,因為它們在更新步驟中是必需的。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架
Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

在observe函數中,通常沒有什么必須做的事。

在這種情況下,我們只是存儲觀察到的時間步和所采取的操作,然而,這并不總是必要的。例如,有時可能希望將時間步驟(和整個軌跡)存儲在數據集或重播緩沖區中。

Acme 還為此提供了數據集和額外的組件。事實上,還有一個由 DeepMind 開發的Reverb庫用來做這件事。

上面的 transform_state 方法只是一個輔助函數,用于將狀態轉換為正確的格式,以便正確地對 Q 矩陣進行索引。

最后,訓練 SARSA 的環境為500,000步。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

Q learning 智能體

下面的 Q learning 智能體與 SARSA 智能體非常相似。它們的不同之處僅在于如何更新 Q 矩陣。這是因為 Q 學習是一種非策略算法。

Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架
Acme框架真香!用過一次后 倫敦博士撰文大贊DeepMind強化學習框架

博客作者認為, Acme 是一個非常好的強化學習框架,因為你不需要從頭開發你的算法。所以,與其自己琢磨如何編寫可讀和可重復的 RL 代碼,你可以依靠 DeepMind 的聰明的研究人員和開發人員,他們已經為你做到了。

在他們的倉庫中,Deep Q-Networks (DQN)、Deep Deterministic Policy Gradient(DDPG)、Monte Carlo Tree Search (MCTS)、Behavior Cloning(BC)、 IMPALA 等常用算法的實現。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-06-05 14:49:51

強化學習算法框架

2019-09-20 09:38:18

開源技術 趨勢

2025-05-15 09:04:00

2020-06-05 08:09:01

Python強化學習框架

2024-12-09 08:45:00

模型AI

2024-09-23 08:30:00

AI模型

2022-11-02 14:02:02

強化學習訓練

2018-08-29 08:13:22

Google 學習框架技術

2020-11-16 08:54:05

Google 開源技術

2021-11-16 15:26:23

強化學習火箭人工智能

2019-08-19 00:26:49

人工智能AIDeepMind

2020-12-23 06:07:54

人工智能AI深度學習

2020-02-21 15:33:44

人工智能機器學習技術

2021-09-10 16:31:56

人工智能機器學習技術

2025-06-23 09:09:00

2016-12-06 09:34:33

線程框架經歷

2023-08-28 06:52:29

2019-08-29 10:46:42

2023-09-21 10:29:01

AI模型

2024-12-06 09:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美在线播放一区 | 麻豆一区二区三区精品视频 | 国产成人精品亚洲日本在线观看 | 国产大片一区 | 国产精品久久久久久久久久免费 | 亚洲欧美一区二区三区国产精品 | 国产精品久久久久一区二区三区 | 欧美一区二区三区在线看 | 国产伊人久久久 | 操操网站| www亚洲精品 | 国产精品特级毛片一区二区三区 | 亚洲精品在线免费看 | av在线免费播放 | 国产三级大片 | 射欧美 | 欧美一级在线 | 久久草视频 | 精品国产一区二区三区观看不卡 | 自拍偷拍亚洲一区 | 在线免费观看毛片 | 一区二区三区免费 | 国产1区2区在线观看 | 2021天天躁夜夜看 | 亚洲第一在线视频 | 国产激情一区二区三区 | 97av视频 | 欧美成人精品二区三区99精品 | 91影院在线观看 | 午夜成人在线视频 | 一级毛片免费视频 | 日韩欧美在线视频一区 | 成人久久久 | 欧美精品一二三 | 成人区精品一区二区婷婷 | 蜜桃在线一区二区三区 | 爱爱视频网 | 久久精品视频在线免费观看 | 一级毛片免费完整视频 | 超碰97人人人人人蜜桃 | 国产精品a久久久久 |