UCSD、MIT等華人團隊教機器狗感知3D世界!搭M1芯片,爬樓跨障無所不能
最近,來自UCSD、IAIFI和MIT機構的研究人員,用一種全新的神經體積記憶架構(NVM),教會了一只機器狗感知三維世界。
利用這項技術,機器狗可以通過單一的神經網絡實現爬樓梯、跨縫隙、翻障礙等等——完全自主,無需遙控。
不知道你有沒有注意到狗背上那個的白盒子?
里面搭載的是蘋果的M1芯片,負責運行機器狗的視覺處理任務。而且,還是團隊從一臺Mac上拆下來的。
不難看出,MIT的這只機器狗可以輕松地爬過了橫在自己面前一段樹枝,毫不費力(基本上)。
長了4條腿的MacBook?
眾所周知,對于機器狗,以及其他有腿的機器人來說,想要翻越不平整的道路,可謂是困難重重。
路面狀況越是復雜,就有越多的障礙無法被看到。
為了解決「部分可觀測環境」問題,目前SOTA的視覺-運動技術通過幀堆疊(frame-stacking),將圖像通道連接起來。
然而,這種簡單的處理方法遠遠落后于現在的計算機視覺技術——后者可以明確地模擬光流和特定的3D幾何形狀。
受此啟發,團隊提出了一種神經體積記憶架構(NVM),可以充分考慮到三維世界的SE(3)等變性(Equivalence)。
項目地址:https://rchalyang.github.io/NVM/
與以往的方法不同,NVM是一種體積格式。它可以將來自多個相機視圖的特征體積聚合到機器人的自我中心框架中,從而讓機器人能更好地理解周圍的環境。
測試的結果顯示,使用神經體積記憶(NVM)對腿部運動進行訓練后,機器人在復雜的地形上的表現要明顯優于之前的技術。
此外,消融實驗的結果顯示,神經體積記憶中存儲的內容捕獲了足夠的幾何信息來重構3D場景。
現實世界中的實驗
為了在模擬之外的不同現實世界場景中進行驗證,團隊在室內和室外場景中都進行了實驗 。
當機器狗發現有障礙物突然出現在自己面前時,直接就會選擇繞開。
在滿是石頭的地面上,走起來好像也沒什么問題,雖然比在平地上還是要費力一些的。
相對于自身來說比較大的障礙,努努力也還是可以翻過去的。
采用此前的識別控制技術,小狗后腿對距離判斷明顯出現了誤差,一腳踩溝里翻車了,失敗。
采用MIT提出的NVM之后,小狗過溝,穩穩的幸福,成功!
采用此前的識別控制技術,小狗第一腳就踩空了,狗頭搶地,失敗。
采用MIT提出的NVM之后,小狗四平八穩地走過了矩陣。
腿部運動的體積記憶
使用以自我為中心的攝像機視角,本質上是一個處理「部分可觀測環境」的問題(Partially-Observed)。
為了使控制問題具體化,機器人需要從先前的幀中收集信息,并正確推斷被遮擋的地形。
在運動過程中,直接安裝在機器人底盤上的攝像機發生劇烈和突然的位置變化。
這樣,在表征一連串的畫面的過程中,某單個幀能夠被放到正確的位置,就變得非常重要了。
為此,團隊提出的神經體積記憶(NVM)的概念,可以將輸入的一連串視覺信息,轉化為場景特征進行3D描繪,進而進行輸出。
通過自監督學習NVM
雖然「行為克隆目標」足以產生一個好的策略,但針對平移和旋轉的等變性,自動為神經體積記憶提供了一個獨立的、自監督的學習目標。
自監督學習:研究團隊訓練了一個獨立的解碼器。讓它通過一段視覺觀察和兩個幀之間的預估轉換,來預測不同幀中的視覺觀察。
如上圖所示,可以假設在幀之間周圍的3D場景保持不變。由于相機是朝前看的,我們可以將先前幀的特征體積規范化,并用它來預測后續的圖像。
解碼器的視覺重建
第一幅圖顯示機器人在環境中移動,第二幅圖是輸入的視覺觀察結果,第三幅圖是使用3D特征體積和預估畫面合成的視覺觀察效果。
對于輸入的視覺觀察,研究團隊對圖像應用了大量的數據增強來提高模型的魯棒性。
作者介紹
Ruihan Yan
Ruihan Yan是加州大學圣地亞哥分校的二年級博士生。在此之前,他于2019年在南開大學獲得軟件工程學士學位
他的研究興趣是強化學習、機器學習、機器人等。具體來說,他想建立智能體,利用來自不同來源的信息進行決策。
Ge Yang
Ge Yang本科畢業于耶魯大學物理和數學專業,并在芝加哥大學獲得物理學博士學位。目前是美國國家科學基金會人工智能與基礎交互作用研究所(IAIFI)的博士后研究員。
Ge Yang的研究涉及兩組相關問題。第一組是通過重新審視我們在神經網絡中表征知識的方式,以及知識如何在分布中轉移,來改善學習。第二組是通過理論工具的視角來看待強化學習,如神經正切核、非歐幾里得幾何和哈密頓動力學。
Xiaolong Wang
Xiaolong Wang是加州大學圣地亞哥分校ECE系的一名助理教授。他是TILOS國家科學基金會人工智能研究所的機器人團隊的成員。
他在卡內基梅隆大學獲得了機器人學的博士學位,并曾在加州大學伯克利分校做博士后研究。