成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

百度飛槳強化學習框架PARL發布首個工業級深度進化學習庫EvoKit

企業動態
百度飛槳強化學習框架PARL曾兩次奪得NeurIPS強化學習賽事世界冠軍。近期PARL升級1.3版本,通過發布深度進化學習庫EvoKit,多智能體強化學習(Multi-Agent RL)算法,助力強化學習進一步落地工業應用場景。

百度飛槳強化學習框架PARL曾兩次奪得NeurIPS強化學習賽事世界冠軍。近期PARL升級1.3版本,通過發布深度進化學習庫EvoKit,多智能體強化學習(Multi-Agent RL)算法,助力強化學習進一步落地工業應用場景。

深度進化學習庫EvoKit

PARL 1.3 重點發布了首個工業級進化學習框架EvoKit,支持大規模神經網絡在真實業務場景中調研和部署進化學習算法,針對性解決進化學習算法部署到業務場景所遇到的難題。

什么是進化學習算法?

進化學習(Evolution Strategy)借鑒自然界種群進化過程,通過演化的方式找到全局最優。進化學習由來已久,近年來被不少學者用于解決強化學習(Reinforcement Learning),AutoML(Auto Machine Learning)等場景的問題。相對于梯度優化而言,進化學習直接通過參數空間的擾動來觀察最終目標(如下圖所示),并且和強化學習一樣,進化學習不要求優化目標和參數之間可導,因此適用范圍非常廣泛,易于并行化。基于EvoKit,可以利用數百臺CPU優化百萬量級參數的模型。

進化學習能用到哪些地方?

  1. 優化目標和模型之間不可導的場景。例如,模型超參數的搜索,一些推薦類產品留存,總時長等不能建模,或者直接建模成本較高的場景。
  2. 模型和業務規則邏輯或和其他流程耦合的場景。例如,某業務線的流程包括上下游總共十幾個模塊串行處理,希望優化中間某個模塊的模型參數,但是下游處理模塊的邏輯對于當前優化是黑箱。通過進化算法可以避免黑箱對于優化的不確定性,直接提升最終評價指標。
  3. 元學習。很多模型不是直接使用,而是需要在多個場景上進一步fine-tune。進化學習算法可以利用最終fine-tune結果來優化元學習模型,破解求導鏈條過長等問題。

EvoKit有哪些特點?

1. EvoKit提供一整套可供線下調研及線上部署的進化學習工具。線下借助飛槳開源框架 API實現快速調研,線上基于Paddle Lite等工具,支持以較小的成本完成調研到上線的流程。同時,EvoKit提供包含異步更新機制,參數壓縮和還原等線上業務普遍需求的功能。

2. EvoKit使用上非常便利。用戶可以利用飛槳開源框架 API搭建任意結構的復雜網絡。進化學習算法包含兩個關鍵步驟,采樣(或者擾動)和更新。網絡參數不斷通過擾動收集反饋,并基于相關反饋迭代進化網絡(如上圖所示)。 EvoKit定義了主接口分別用于網絡的擾動(AddNoise)和更新迭代(Update)。用戶只需通過簡單幾行代碼就能實現完整的進化流程,下圖展示了一個偽代碼的樣例。EvoKit內置了包括ES, GA, CMA-ES等常用進化策略,也提供了很好的便于二次開發的可擴展接口,可以方便實現新的算法。

多智能體強化學習

PARL 1.3還實現了全新的多智能體強化學習算法(Multi-Agent RL,MARL)的框架支持。MARL是RL挑戰群體決策問題的“殺手锏”,可以被廣泛運用在包括地圖派單,游戲AI, 任務分配等等問題中,但是算法的復現難度比起傳統算法更大。很多RL框架很難利用一套框架兼容多種單智能體RL算法和MARL算法的開發。PARL在這一點上有新的突破。在單智能體算法中,PARL抽象出了Model、Algorithm、Agent三個模塊,分別定義了前向網絡(forward)、算法損失函數(backward)、數據交互等邏輯(見下圖)。這種以智能體為核心的設計方式,在擴展到多智能體算法的時候,只需創建多個Agent實例,就可以讓多個智能體交互起來,共同更新MARL算法。

以主流的MADDPG算法的評估為例,可以看到PARL在MARL的擴展性:

當通過Model、Algorithm搭建好多個Agent之后,這些Agent可以很方便地和環境進行交互,存儲各自的數據,然后訓練模型。PARL1.3此次開源的MADDPG算法在OpenAI的8個MARL場景都進行了驗證,效果能完全復現最優的表現。

此外,PARL 1.3版本還針對使用文檔、應用樣例進行了全面梳理,并開源了NuerIPS 2019強化學習賽事的冠軍解決方法。

基于這些全新的功能,希望PARL和EvoKit能給相關領域的同學帶來新的便利,助力強化學習和進化學習算法在工業場景的進一步應用落地。

PARL和EvoKit完全開源,歡迎大家使用,反饋和貢獻。

PARL鏈接:https://github.com/PaddlePaddle/PARL

如在使用過程中有技術問題,歡迎加入飛槳官方QQ群進行提問:703252161

 

責任編輯:張燕妮 來源: 51CTO
相關推薦

2025-05-15 09:04:00

2021-09-10 09:37:05

AI 數據人工智能

2021-09-17 15:54:41

深度學習機器學習人工智能

2018-03-09 22:56:52

PaddlePaddl

2019-07-01 14:39:52

百度王海峰深度學習

2018-11-14 10:28:38

AI數據科技

2020-06-05 08:09:01

Python強化學習框架

2017-03-28 10:15:07

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2020-05-20 11:32:27

百度飛槳深度學習

2024-12-09 08:45:00

模型AI

2022-06-13 18:33:00

飛槳技術

2022-05-31 10:45:01

深度學習防御

2020-05-12 07:00:00

深度學習強化學習人工智能

2023-12-03 22:08:41

深度學習人工智能

2017-08-22 15:56:49

神經網絡強化學習DQN

2022-09-04 14:38:00

世界模型建模IRIS

2019-01-21 09:52:26

深度學習開源人工智能

2020-02-21 15:33:44

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品色av免费观看 | 国产精品一区二区av | 一区二区三区四区电影视频在线观看 | 一区二区日韩 | 精品国产一区二区三区成人影院 | a中文在线视频 | 日本成人午夜影院 | 中文字幕亚洲视频 | 逼逼网 | 亚洲国产aⅴ成人精品无吗 综合国产在线 | 91视频国产区 | av性色| 祝你幸福电影在线观看 | 91精品国产综合久久久久久丝袜 | 天天夜夜人人 | www.天天操.com | 中文字幕 在线观看 | 狠狠操狠狠操 | 日韩另类视频 | 日本人麻豆| 欧美日韩国产精品一区 | 国产高清在线视频 | 亚洲人免费视频 | 一区二区三区精品视频 | 亚洲欧美一区二区三区视频 | 日韩一级精品视频在线观看 | 国产精品免费一区二区三区四区 | 中文字幕一区二区三区乱码图片 | 亚洲风情在线观看 | 精品日韩欧美一区二区 | 国产精品久久久久久久久久久新郎 | 韩国av一区二区 | 色狠狠一区| 日本一区二区三区在线观看 | 一区二区三区四区av | 日韩综合| 国产三级一区二区 | 欧美极品视频在线观看 | 奇米影视首页 | 欧美日韩a | 亚洲一区中文字幕 |