成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華人博士用強化學習回收了SpaceX火箭

新聞 人工智能
一位來自密歇根大學的華人博士,就用強化學習試了一把回收火箭!

[[435329]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

馬斯克旗下的SpaceX可以說帶火了“火箭回收”這一話題。

這不,連粉絲們都已經開始摩拳擦掌,用自己的方式挑戰起了這個技術難題。

例如一位來自密歇根大學的華人博士,就用強化學習試了一把回收火箭!

他根據現實中的星艦10號一通進行模擬,還真在虛擬環境中穩穩地完成了懸停和著陸!

華人博士用強化學習回收了SpaceX火箭 | 開源

這個項目迅速在Reddit上引發了大批網友們的關注:

華人博士用強化學習回收了SpaceX火箭 | 開源

那么,他是如何實現的呢?

給火箭回收設立“獎勵機制”

要在模擬環境中回收火箭,那么大一只構造復雜的火箭肯定是不能直接抱來用的。

于是,這位SpaceX的鐵桿粉絲首先基于氣缸動力學,將火箭簡化為一個二維平面上的剛體:

華人博士用強化學習回收了SpaceX火箭 | 開源

這個火箭的底部安裝有推力矢量發動機,能夠提供不同方向的可調的推力值(0.2g,1.0g和2.0g);同時,火箭噴嘴上還增加了一個角速度約束,最大轉速為30°/秒。

火箭模型所受到的空氣阻力則設定為與速度成正比。

現在,這個模型的一些基本屬性就能夠以下面兩個集合來表示:

  • 動作空間:發動機離散控制信號的集合,包括推力加速度和噴嘴角速度
  • 狀態空間:由火箭位置、速度、角度、角速度、噴管角度和仿真時間組成的集合

而“火箭回收”這一流程,則被分為了懸停著陸兩個任務。

在懸停任務中,火箭模型需要遵循這樣一種獎勵機制:

  1. 火箭與預定目標點的距離:距離越近,獎勵越大;
  2. 火箭體的角度:火箭應該盡可能保持豎直

著陸任務則基于星艦10號的基本參數,將火箭模型的初始速度設置為-50米/秒,方向設置為90°(水平方向),著陸燃燒高度設置為離地面500米。

華人博士用強化學習回收了SpaceX火箭 | 開源

△星艦10號發射和著陸的合成圖像

火箭模型在著陸時同樣需要遵循這樣一種“獎勵機制”:

當著陸速度小于安全閾值,并且角度接近豎直0°時,就會受到最大的“獎勵”,也會被認為是一次成功的著陸。

總體而言,這是一個基于策略的參與者-評判者的模型。

接下來就是進行訓練:

最終,在經歷了20000次的訓練后,火箭模型在懸停和著陸兩個任務上都實現了較好的效果:

最終,模型得到了很好的收斂效果:

華人博士用強化學習回收了SpaceX火箭 | 開源

而這枚模擬環境中的偽·星艦10號,也就像開頭展示的那張動圖一樣,學會了腹部著陸,穩穩地落地了。

下一步:增加燃料變量

這一項目一經發出,就引來了紅迪眾多網友的圍觀和稱贊。

有人覺得用強化學習來解決傳統任務非常有趣,因為它具有更好的魯棒性。

作者也在下方回復表示:現實中惡劣的環境條件可以成為環境制約因素,而強化學習則能在一個統一的框架內解決這些問題。

華人博士用強化學習回收了SpaceX火箭 | 開源

不過在稱贊之余,也有網友提出了最直接的這樣一個問題:

既然我們已經可以使用經典控制方法找到這些任務的最優解,那為啥SpaceX之前沒人做?

華人博士用強化學習回收了SpaceX火箭 | 開源

下方有人解答到:這或許是因為之前的數字控制系統、傳感器等技術并不成熟,采用新方法就意味著要重新設計火箭的關鍵部分。

這也就是控制系統層面之外的“工程類的問題”,而SpaceX正是在這些相關領域中做了改進。

華人博士用強化學習回收了SpaceX火箭 | 開源

而那些較為傳統保守的航天航空工業則會使用使用凸優化(Convexification)來解決火箭著陸問題。

也就是評論區有人貼出的這篇論文中提到的方法:

華人博士用強化學習回收了SpaceX火箭 | 開源

不少評論也為開發者提供了下一步開發的新思路,比如這條評論建議將“剩余燃料”也作為一個變量,模型燃料的減少或耗盡也是現實中的一個重要影響因素。

作者欣然接受了這一建議:是很容易添加的有趣設置,安排!

華人博士用強化學習回收了SpaceX火箭 | 開源

密歇根大學華人博士

開發者已經為這一項目建立了一個網站,在主頁他這樣介紹到:

這是我的第一個強化學習項目,所以,我希望通過這些“低水平代碼”盡可能地從頭實現包括環境、火箭動力學和強化學習agent在內的所有內容。

華人博士用強化學習回收了SpaceX火箭 | 開源

作者叫Zhengxia Zou,是一位來自密歇根大學博士,主要研究計算機視覺、遙感、自動駕駛等領域。

[[435330]]

他的論文曾被 ICCV 2021、CVPR 2021等多個頂會收錄:

華人博士用強化學習回收了SpaceX火箭 | 開源

下載鏈接:
https://github.com/jiupinjia/rocket-recycling

項目主頁:
https://jiupinjia.github.io/rocket-recycling/

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-05-24 12:10:54

PythonSpaceX代碼

2020-04-22 14:40:26

虛擬機技術Java

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2022-02-25 15:08:16

強化學習職業博士

2020-04-23 10:49:26

垃圾回收 C++Java

2023-11-07 07:13:31

推薦系統多任務學習

2022-12-21 17:27:30

強化學習AI

2025-06-30 09:08:00

2021-09-17 15:54:41

深度學習機器學習人工智能

2025-05-08 09:16:00

模型強化學習訓練

2022-11-02 14:02:02

強化學習訓練

2020-11-12 19:31:41

強化學習人工智能機器學習

2024-04-03 07:56:50

推薦系統多任務推薦

2019-09-29 10:42:02

人工智能機器學習技術

2021-06-25 15:36:37

框架AI開發

2024-12-09 08:45:00

模型AI

2021-12-09 09:45:44

AI 數據神經網絡

2020-11-30 09:00:00

機器學習人工智能計算機

2020-01-23 15:33:07

AI 數據人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看一级特黄欧美大片 | 成人免费视频网站在线看 | 一道本不卡视频 | 午夜精品视频 | 亚洲最色视频 | 国产区在线视频 | 五月天婷婷久久 | 久久国产精品99久久久久 | 99久久婷婷国产综合精品电影 | 成人av免费在线观看 | 成人久久18免费网站图片 | 国产成人在线观看免费 | 国产黄色在线观看 | 国产精品1区2区 | 午夜爱爱网 | 国产一区在线视频 | 精品久久久久香蕉网 | 亚洲精品久久 | 日本二区在线观看 | 中文成人在线 | 一级黄色生活视频 | 黄色免费网站在线看 | 亚洲精品一区二区三区在线 | 日本久久精品 | 99re视频在线观看 | 国产精品久久久久久久久久尿 | 国产伦一区二区三区久久 | 日韩精品网站 | 中文字幕电影在线观看 | 成人免费观看男女羞羞视频 | 91传媒在线观看 | 精品伊人久久 | 91色网站 | 精品国产1区2区3区 一区二区手机在线 | 99久久精品一区二区毛片吞精 | 麻豆久久久久久 | 成人在线视频网址 | 青青草一区 | 国产精彩视频 | h在线| 欧洲色综合 |