成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擊敗三位人類世界冠軍,登上Nature封面!AI無人機極限競速開啟自動駕駛新紀元

人工智能
「無人機AI很快就會成為一種訓練工具,讓我們了解到人類的極限:隨著飛得更快,你會以精確度為代價來換取速度。但這也激發(fā)人們?nèi)ニ伎紵o人機真正能做到的事情。」

在下棋,辦公,游戲這類腦力活動中,人類被AI碾壓已經(jīng)早就不是什么新聞了。

現(xiàn)在連極限競速領域,人類的陣地也失守了!

今天Nature的封面論文,內(nèi)容是AI駕駛系統(tǒng)在無人機競速領域擊敗了人類SOTA。

圖片圖片

論文地址:https://www.nature.com/articles/s41586-023-06419-4

來自蘇黎世大學和英特爾的研究團隊開發(fā)的Swift系統(tǒng),成功地在第一人稱視角(FPV)無人機比賽中,擊敗了3位人類世界冠軍,單圈速度比人類快了半秒!

AI無人機內(nèi)心OS「遙遙領先!」

比賽當中,駕駛選手需要駕駛高速無人機完成一個三

維空間內(nèi)的立體賽道。人類駕駛員和AI都只能通過機載攝像頭的拍攝的視頻流來觀察環(huán)境,操縱無人機的飛行。

圖片圖片

2019年,當時成績最好的Alphapilot系統(tǒng),如果不依靠外部的追蹤系統(tǒng)來精確控制無人機的飛行軌跡,完成比賽的時間幾乎是人類的兩倍。

Swift系統(tǒng)和人類選手一樣,僅通過對機載攝像頭收集的數(shù)據(jù)做出實時反應,讓完成比賽的時間有了質(zhì)的飛躍。

它的集成的慣性測量單元(inertial measurement unit)測量無人機的加速度和速度,神經(jīng)網(wǎng)絡通過來自攝像頭的數(shù)據(jù)來定位無人機在空中的位置,并檢測跑道上的需要通過的門。

這些信息被匯總到基于深度強化學習(DeepRL)的控制單元,做出最佳的反饋指令,從而盡可能快地完成賽道。

圖片圖片

FPV無人機比賽中使用的是四軸飛行器,是市面上最為靈活的無人機。比賽中無人機受到的加速力,可能超過自身重力的5倍還多,飛行時速超過100公里每小時!

圖片圖片

賽道由7個正方形的門組成,場地大小為30*30*7的三維空間,飛行距離超過75米。無人機必須按順序通過每個門,連續(xù)跑完3圈,才能完成比賽。

圖片圖片

人類駕駛員佩戴頭顯,來獲得實時的視頻信號。頭顯能提供身臨其境的「第一人稱視角」體驗。

超越人類世界冠軍選手的Swift系統(tǒng),主要由兩個關鍵模塊組成:

1. 將高維度視覺和加速度信息轉(zhuǎn)化為低維度表示的感知系統(tǒng)

2. 獲取低維度表示并生成控制命令的控制AI系統(tǒng)

這個控制AI系統(tǒng)由前饋神經(jīng)網(wǎng)絡進行表征,使用無模型的On-Policy深度強化學習進行模擬訓練,不斷提高跑圈成績。

圖片圖片

研究人員通過使用從物理世界收集的數(shù)據(jù)估計的非參數(shù)經(jīng)驗噪聲模型(non-parametric empircal noise medels),來縮小模擬與物理世界中的感知和動力學差異。

這些噪聲模型能有效地將模擬中的控制策略轉(zhuǎn)化為現(xiàn)實中的控制指令。

人類選手在賽道上進行了一周的練習,在完成了一周的訓練后,每個飛行員都與Swift進行了多場正面1V1的比賽。

圖片圖片

Swift的勝利標志著AI控制的自主操控系統(tǒng)首次在與人類的競技比賽中獲得了勝利。

Swift系統(tǒng)

機器人領域中主要的挑戰(zhàn)之一是虛擬和現(xiàn)實兩者之間存在差距,傳統(tǒng)的端到端學習方法難以將虛擬環(huán)境的映射轉(zhuǎn)移到現(xiàn)實世界。

Swift是一個端到端的自主控制系統(tǒng),它能讓無人機像人類選手一樣參加FPV無人機賽事并取得具有競爭力的成績。

它的系統(tǒng)中主要包含以下兩個模塊:

1. 感知系統(tǒng)

感知系統(tǒng)由一個VIO模塊組成,該模塊通過相機圖像和慣性測量單元(IMU)獲得的高頻測量值計算無人機狀態(tài)的度量估計值。

VIO和門檢測結(jié)果經(jīng)卡爾曼濾波整合為無人機狀態(tài)。隨后,控制策略網(wǎng)絡將狀態(tài)和之前動作作為輸入,輸出控制命令。

這個系統(tǒng)能將來自無人機上的攝像頭和慣性傳感器等復雜高維信息,轉(zhuǎn)化成無人機當前狀態(tài)的低維表示。

包括無人機在賽道上的位置、速度、姿態(tài)等,并使用了視覺慣性系統(tǒng)和神經(jīng)網(wǎng)絡進行圖像處理和狀態(tài)估計。

2. 控制策略

每個timestep中,策略網(wǎng)絡會根據(jù)狀態(tài)和之前動作輸出。

Swift中的價值網(wǎng)絡評估這個動作的價值,之后兩個網(wǎng)絡的參數(shù)會通過強化學習進行優(yōu)化。

這個策略用一個簡單的兩層全連接神經(jīng)網(wǎng)絡表示,輸入是感知系統(tǒng)輸出的無人機當前狀態(tài),輸出是給無人機的控制命令(推力和體積轉(zhuǎn)速)。它通過在模擬環(huán)境中用強化學習的方式進行訓練。

此外,為了把Swift的感知和行動跨域遷移到真實世界,研究人員使用了兩個殘差模型來處理動力學和感知上的偏差:

感知殘差模型:使用高斯過程擬合真實飛行中慣性系統(tǒng)的誤差,并在模擬中加入。

動力學殘差模型:使用k近鄰回歸擬合真實飛行中動力學的誤差,并在模擬中加入。

通過這種方式,Swift可以適應真實世界中的不確定性,實現(xiàn)從模擬到物理系統(tǒng)的有效遷移。

經(jīng)過訓練后,它可以像專業(yè)選手一樣駕駛無人機進行FPV賽事,甚至在部分場景下超越了人類冠軍的表現(xiàn)。

圖片圖片

圖a:Swift在實際使用中從傳感器獲取數(shù)據(jù)并生成控制命令的過程

圖b:在仿真環(huán)境中使用強化學習訓練控制策略的過程

結(jié)果

研究人員將Swift與計時賽中的人類飛行員的成績進行了比較。

單圈時間表示連續(xù)三圈熱火中達到的最佳單圈時間和最佳平均時間。如下圖a所示,Swift不僅平均單圈時間更快,平均三圈時間也更穩(wěn)定。

正面交鋒的結(jié)果則如下圖b所示,在與A.Vanover的9場比賽中,Swift贏了5場;在與T.Bitmatta的7場比賽中,Swift贏了4場;在與M.Schaepper的9場比賽中,Swift贏了6場。

研究人員解釋,在Swift輸?shù)舻?0場比賽中,40%是因為與對手發(fā)生碰撞,40%是因為與閘門發(fā)生碰撞,20%是因為無人機的速度比人類飛行員慢。

總的來說,Swift在與人類飛行員的比賽中獲勝最多。Swift還取得了最快的比賽時間記錄,比人類飛行員(A.Vanover)的最佳時間領先半秒。

圖片圖片

研究人員分析了Swift和每個人類飛行員飛行的最快圈速。

從整體上看,Swift比所有人類飛行員都要快,但它在賽道的所有單個賽段上的速度并不快。

在起跑時,Swift的反應時間較短,平均比人類飛行員早120毫秒從領獎臺起飛。并且它的加速更快,進入第一個閘門時的速度更高。

如下圖c、d所示,在急轉(zhuǎn)彎時,Swift的機動更緊湊。

研究人員推測,造成這一結(jié)果的原因是Swift在選擇軌跡時的時間更長。

因為它可以根據(jù)價值函數(shù)來優(yōu)化長期回報,而人類飛行員最多預測一個未來,所以規(guī)劃的時間尺度更短。

在下圖b,d中可以看到,人類飛行員在動作開始和結(jié)束時速度較快,但總體速度較慢。

同時,與人類相比,Swift在執(zhí)行某些機動動作時也能依靠其他線索,例如慣性數(shù)據(jù)和針對周圍環(huán)境特征的視覺里程測量。

這些都幫助了自主無人機在比賽中實現(xiàn)了最高的平均速度、最短的賽線,并在整個比賽過程中設法將飛機保持在更接近其驅(qū)動極限的狀態(tài)。

圖片圖片

討論

研究人員開發(fā)的這個自主控制系統(tǒng),能夠在FPV無人機競速中實現(xiàn)冠軍級別的表現(xiàn),甚至在某些情況下超越人類世界冠軍。

這個系統(tǒng)相對于人類選手具有一定的結(jié)構(gòu)優(yōu)勢。

首先,它利用了來自機載慣性測量單元(IMU)的慣性數(shù)據(jù)。這類似于人類前庭系統(tǒng)(vestibular system),但人類選手沒有辦法使用自身的這個系統(tǒng),因為他們沒有乘坐在飛行器內(nèi)部,無法親身感受到飛行器的加速度。

其次,Swift系統(tǒng)具有更低的感覺運動延遲(Swift為40毫秒,而專業(yè)人類選手平均為220毫秒)。另一方面,Swift使用的攝像頭刷新率有限(30赫茲),相比之下,人類飛行員的攝像頭刷新率快了四倍(120赫茲),從而提高了他們的反應時間。

人類飛行員的適應能力非常強:無人機全速出事故墜落后,如果硬件仍然正常工作,他們還能繼續(xù)飛行并完成賽道。而Swift不具備出事故墜毀后恢復比賽能力。

圖片圖片

人類飛行員還能夠適應環(huán)境條件的變化,比如會顯著改變賽道外觀的光照變化等。

Swift的感知系統(tǒng)假設比賽環(huán)境的外觀與訓練時觀察到的是完全一致的。如果環(huán)境發(fā)生了變化,系統(tǒng)可能會無法工作。

不過可以通過在各種條件下訓練門探測器和殘余觀測模型(residual observation model)來提供對于比賽環(huán)境變化的適應能力。

盡管研究人員研發(fā)的系統(tǒng)還存在一些限制和待解決的工作,但一個自主移動機器人能夠達到體育項目中世界冠軍級別的表現(xiàn)是機器人技術和AI領域的一個重要里程碑。

這項工作可能會激發(fā)在其他物理系統(tǒng)(自動駕駛車輛、飛行器和機器人等)中部署基于混合學習的解決方案,從而在更加廣泛的應用領域發(fā)揮更大的作用。

方法

訓練算法

訓練是使用近端策略優(yōu)化(Proximal Policy Optimization,PPO)方法進行的。這種actor-critic方法在訓練期間需要同時優(yōu)化兩個神經(jīng)網(wǎng)絡:策略網(wǎng)絡(將觀測映射到動作)和值網(wǎng)絡(作為「critic」評估策略采取的動作)。

經(jīng)過訓練后,只有策略網(wǎng)絡被部署到無人機上。

觀察、行動和獎勵

在時間t從環(huán)境中獲得的觀測值????∈?31包括:

(1)當前機器人狀態(tài)的估計;

(2)下一個需要通過的賽道上的門的相對姿態(tài);

(3)上一步中施加的動作。具體而言,機器人狀態(tài)的估計包括平臺的位置、速度和姿態(tài),姿態(tài)由旋轉(zhuǎn)矩陣表示,從而形成一個?15中的向量。

雖然仿真內(nèi)部使用四元數(shù),但研究人員使用旋轉(zhuǎn)矩陣表示姿態(tài),以避免歧義。

下一個門的相對姿態(tài)通過提供四個門角相對于車輛的位置來編碼,從而得到一個?12中的向量。

所有觀測值在傳遞給網(wǎng)絡之前都經(jīng)過歸一化(normalized)處理。由于值網(wǎng)絡僅在訓練時使用,它可以訪問有關環(huán)境的特權信息,這些信息對策略網(wǎng)絡是不可訪問的。

這些特權信息(privileged information)與策略網(wǎng)絡的其他輸入連接在一起,包含了機器人的確切位置、方向和速度信息。

訓練細節(jié)

數(shù)據(jù)收集是通過同時模擬100個代理與環(huán)境進行交互,每個代理在1500個步驟的episode中與環(huán)境交互來完成的。

在每次環(huán)境重置時,每個代理都會在賽道上的隨機門處進行初始化,代理的狀態(tài)在經(jīng)過該門時先前觀察到,并且在其周圍進行有界擾動。與之前的研究不同,研究人員在訓練時不對平臺動態(tài)進行隨機化。相反,他們根據(jù)真實世界數(shù)據(jù)進行微調(diào)。

訓練環(huán)境使用TensorFlow Agents實現(xiàn)。策略網(wǎng)絡和值網(wǎng)絡都由兩層感知器表示,每層有128個節(jié)點,并且使用帶有負斜率為0.2的Leaky ReLU激活函數(shù)。網(wǎng)絡參數(shù)使用Adam優(yōu)化器進行優(yōu)化,策略網(wǎng)絡和值網(wǎng)絡的學習率都為3×10^-4。

研究人員根據(jù)在現(xiàn)實世界中收集到的少量數(shù)據(jù)對原始策略進行微調(diào)。

具體來說,他們在現(xiàn)實世界中進行了三次完整的試驗,相當于約50秒的飛行時間。

研究人員通過識別殘余觀測和殘余動態(tài)來對策略進行微調(diào),然后將這些信息用于在模擬中進行訓練。在這個微調(diào)階段,只有控制策略的權重會被更新,門探測網(wǎng)絡的權重保持不變。

殘差觀測模型

高速移動會導致明顯的運動模糊,這可能導致跟蹤的視覺特征丟失和線性里程計估計的嚴重漂移。

研究人員通過在現(xiàn)實世界中僅進行少數(shù)試驗來確定的里程計模型對策略進行微調(diào)。

為了模擬里程計中的漂移,他們使用高斯過程,因為它們允許擬合里程計擾動的后驗分布,從中可以采樣出具有時間一致性的實現(xiàn)。

具體來說,高斯過程模型將殘余位置、速度和姿態(tài)作為地面實際機器人狀態(tài)的函數(shù)進行擬合。

觀測殘差是通過將真實世界中的試驗期間觀察到的視覺慣性里程計(VIO)估計與外部運動跟蹤系統(tǒng)獲得的地面實際平臺狀態(tài)進行比較而確定的。

無人機硬件配置

人類飛行員和Swift使用的四旋翼飛行器具有相同的重量、形狀和推進力。但由人類駕駛的無人機既不攜帶Jetson計算機,也不攜帶RealSense攝像頭,而是配備了相應的壓艙物。

1. 無人機機架

底座采用Armattan Chameleon 6英寸的主機架,配備了T-Motor Velox2306電機,以及5英寸3葉螺旋槳。

2. 計算平臺

使用英偉達Jetson TX2和ConnectTech Quasar載板為自主無人機提供了主要計算資源,集成了6核CPU和256核GPU。

3. 攝像頭

搭載了英特爾Real Sense跟蹤攝像頭T265,可通過USB向英偉達Jetson TX2提供100Hz的VIO估計值。

4. 飛行控制器

使用STM32處理器運行Betaflight軟件(一款開源的飛行控制軟件)來控制無人機。

5. 重量

整體無人機重量為870克,可產(chǎn)生約35牛頓的最大靜態(tài)推力,靜態(tài)推力重量比為4.1。

人類飛行員評價

與Swift比賽的三位人類冠軍都談了談和無人機比賽的感受:

Alex Vanover:

「比賽的勝負將在SplitS(指賽道上的一種飛行動作)時決定,這是賽道上最具挑戰(zhàn)性的部分。」

「這是我最精彩的比賽!我離無人機如此之近,在試圖跟上它時,我甚至能真切地感受到空氣的亂流。」

Thomas Bitmatta:

「AI的可能性是無限的,這可能改變整個世界的開始。但作為一名賽手,我不希望有任何東西比我更快。」

「無人機AI很快就會成為一種訓練工具,讓我們了解到人類的極限:隨著飛得更快,你會以精確度為代價來換取速度。但這也激發(fā)人們?nèi)ニ伎紵o人機真正能做到的事情。」

Marvin Schaepper:

「與機器比賽的感覺很不一樣,因為你知道機器不會感到疲勞。」

參考資料:https://www.nature.com/articles/s41586-023-06419-4

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-08-31 17:18:07

2023-08-31 14:50:18

無人機Swift

2023-08-31 13:37:00

訓練模型

2022-04-02 10:18:04

AI棋牌程序

2022-09-22 15:23:27

3D打印技術

2025-04-30 06:52:20

2020-01-06 10:28:53

無人機自動駕駛AI

2019-08-15 09:00:00

AI人工智能

2012-12-04 15:47:45

2020-08-17 09:15:09

AI 數(shù)據(jù)人工智能

2018-12-13 12:03:59

閃存

2023-05-22 10:00:09

雷達激光

2022-11-17 12:49:36

世界冠軍AI國際象棋

2022-08-03 12:10:57

計算

2018-05-09 20:08:09

人工智能深度學習Python

2016-12-21 13:55:46

無人機自駕汽車導航

2024-03-11 10:08:12

駕駛模型

2021-08-04 15:20:44

開源技術 軟件

2011-01-28 15:12:05

人機大戰(zhàn)沃森深藍
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕一区二区三区不卡在线 | 日本人做爰大片免费观看一老师 | 天天影视网天天综合色在线播放 | 亚洲成人精品 | 91精品国产91综合久久蜜臀 | 久久综合一区 | 国产免费一区二区三区 | 日韩国产欧美一区 | 精品成人免费一区二区在线播放 | 国产在线h | 日韩精品专区在线影院重磅 | 日韩一区二区三区在线视频 | 麻豆精品国产91久久久久久 | 亚洲一卡二卡 | 人妖av| 综合久久99 | 欧美视频在线观看 | 亚洲视频一区二区三区四区 | 成人免费在线小视频 | 国产精品国产三级国产播12软件 | 日韩美香港a一级毛片免费 国产综合av | 日韩午夜一区二区三区 | 国产无套一区二区三区久久 | 国产精品毛片一区二区在线看 | 成人在线精品 | 国产探花在线观看视频 | 人人爽日日躁夜夜躁尤物 | 黄色毛片大全 | www.久久99 | 成人av资源在线 | 久久久久国产一区二区三区 | 亚洲欧美激情精品一区二区 | 国产小u女发育末成年 | 亚洲精品888| 曰批视频在线观看 | 亚洲国产精品人人爽夜夜爽 | 日韩精品久久久 | 欧美一区2区三区4区公司二百 | 天天干视频网 | 久久国内精品 | 久久精品亚洲精品国产欧美 |