字節MOMA-Force視力覺模仿學習,機器人移動操作成功率提升近30%
我們正在目睹人工智能大廈的快速搭建,越來越多的算力奠定了大廈地基,大模型加快了大廈的建造速度,具身智能開始成為新的研究熱門 —— 大廈的功能性將會得到完備。
具備自主操作行為的移動操作機器人(mobile manipulators)無疑是具身智能(embodied AI)的一個絕佳代表:它集機器人的多模態自主感知、自主決策、軌跡生成、魯棒控制以及靈活本體于一身,為機器人以及具身智能領域的研究員、工程師提出了諸多令人興奮的挑戰點。比如:當我們想要讓一臺機器 “人” 進入家庭幫助我們做家務,它如何結合各種傳感信息自主生成操作軌跡?如何在操作的過程中保證不損壞家具和自己?
針對移動操作機器人在真實場景操作過程中的自主性和安全性問題,Bytedance Research 團隊提出了一種新的方法:MOMA-Force。該方法可幫助移動操作機器人自主、安全地完成多種存在接觸約束的操作任務(例如開洗衣機門、推拉抽屜)。
該研究工作在模仿學習的背景下解決了真實物理世界移動操作任務中由不確定性和高維運動學引起的挑戰性問題,提出了一種有效的視力覺模仿學習方法以解決復雜的接觸移動操作任務。在六個接觸約束的移動操作任務上進行了系統的真實機器人實驗:在真實家庭環境中,MOMA-Force 在任務成功率方面明顯優于基線方法(平均成功率 73.3%,而最佳基線方法僅實現了 45.0%)。此外,與沒有力學習的基線方法相比,平均絕對接觸力、力矩以及他們的平均方差均大幅減小,表明機器人與物體之間的接觸更安全、更穩定。
- 項目主頁:https://visual-force-imitation.github.io/
- 論文地址:https://arxiv.org/abs/2308.03624
方法
訓練神經網絡能夠以端到端的方式生成動作,但由于動作精度和對噪聲響應的低魯棒性,導致難以應用于真實物理世界。另一方面,基于經典控制的方法可以增強系統的魯棒性,但需要進行大量繁瑣的參數調校。為了解決這些挑戰,MOMA-Force 融合了用于視覺感知的表示學習(Representation Learning)、復雜運動軌跡生成的模仿學習(Imitation Learning)以及阻抗全身控制(Admittance Whole Body Control),以實現系統的魯棒性和可控性。
MOMA-Force 的流程原理可以簡單描述為:
- 專家示教數據中的 RGB 觀測圖像通過視覺編碼器(visual encoder)轉換為表示向量 Ze。當機器人在實時運行過程中,末端操作器的 RGB 觀測圖像通過相同的視覺編碼器轉換為表示向量 Zt。
- 通過從專家數據 Ze 中檢索匹配出與當前實際觀測表示 Zt 最相似的表示索引 i,并抽取出索引 i 對應的專家運動行為(機器人末端位置姿態)、夾爪開閉行為、力和力矩來作為當前時刻機器人的局部行為目標。
- 通過感知末端操作器當前所受到的接觸力的大小、目標力的大小以及目標末端位姿,通過導納全身控制(Admittance Whole Body Control)生成機械臂關節和底盤輪速控制信號驅動機器人平穩、安全地跟蹤目標軌跡點完成任務。
方法可以從兩個部分進行拆解:
1. 目標行為的預測:實時視覺觀測 -> 下個時刻機器人的狀態預測
機器人的目標行為預測模塊建立在最前沿的模仿學習方法上。它由兩個階段組成:離線的 RGB 視覺觀測編碼和在線編碼運算。
- 在離線階段,MOMA-Force 利用預訓練的視覺編碼器(ibot)將專家軌跡中每幀的 RGB 觀測圖像投影到深度嵌入中。該嵌入即 RGB 視覺觀測的緊湊表示。
- 在在線階段,MOMA-Force 利用同樣的視覺編碼器將每個時間點 t 所捕獲的 RGB 觀測圖像也進行了編碼,并通過計算與專家數據編碼的相似度找出最相似的那一幀觀測,這幀觀測所對應的機器人在三維空間中末端位姿、夾爪的狀態、六維力傳感數據、任務完成狀態等被匹配成為機器人當前的目標行為。
2. 導納全身控制:實時力覺觀測 -> 機械臂和底盤電機輸出
由于機器人定位的精準度限制和目標行為預測的瑕疵,導納全身控制用于為機器人系統形成基于力傳感的閉環。在帶有接觸約束的任務中,小的姿態誤差可能會導致大的接觸力以及扭矩,甚至造成不可逆的機械損傷。因此,通過阻抗控制去彌補目標行為預測的不準確能夠賦予移動操作機器人更加柔順、安全的行為。
具體而言,MOMA-Force 通過導納控制對預測出來的專家軌跡目標點位姿進行微調,微調之后的軌跡點通過基于最優控制的 QP 算法生成控制移動操作機器人整體構型空間(機械臂的 7 個關節和底盤輪子)的速度指令。
真機實驗
實踐出真知,有關 MOMA-Force 的能力邊界需要一系列嚴格且科學的實驗評測方式去進行驗證。實驗的設計緊密圍繞機器人移動操作性能和機器人操作安全性兩個方面展開,同時也對比了不同的預訓練視覺編碼器的效果。
Q:實驗如何展開?
A:作者在六個帶有接觸約束的任務上進行了實驗:例如拉抽屜、旋轉水管、開洗衣機門、拉開柜門等。幾乎所有的任務都要求機器人在操作過程中移動底盤并且保持與物體持續的合理的接觸力。
作者為每個任務收集了 30 個專家演示:具體地說,對于每個時間點都記錄了機器人末端相機的 RGB 觀測圖像、末端位姿、夾爪動作。所有操作任務都可以分為三個階段:接近、抓取和接觸操作。如果在任務執行過程中出現以下任一一種情況都會結束操作:1)完成任務;2)超時;3)力大于 40N 或過去 1 秒鐘的平均力大于 30N。如果至少完成了一個任務軌跡長度的 80%,則認為這次實驗成功。每種方法每個任務進行了 10 次實驗。
Q:增加了力覺的模仿學習方法是否能夠實實在在地提升任務成功率?
A:MOMA-Force 方法在跟其它基線方法的對比中實現了最佳的平均成功率。與單任務行為克隆 BC(Behavior Cloning)方法相比,MOMA-Force 將任務成功率從 20% 提升到了 73.3%。有力覺的 MOMA-Force 對比無力覺的 MOMA-Force 成功率是 73.3% 比 45%。
以下視頻素材對比展示了 MOMA-Force 以及其它對照基線方法在真機上的表現效果:
行為克隆(BC):任務成功率較低
MOMA-Force 無力覺 :由于接觸力過大導致操作中斷
MOMA-Force
Q:從直覺上如何理解力覺模仿會帶來對任務成功率的提升?
A:當機器人在執行一些任務時,通過預訓練模型預測的機器人未來狀態總是不完全準確的,加上機器人在移動過程中底盤定位誤差,機器人動力學導致的狀態誤差等等都會使得末端夾爪的位置不準確,進而使得末端與操作物體(比如門把手)接觸時存在較大的應力。由于機器人夾爪和物體是硬接觸的,一點微小的位置姿態誤差都會造成很大的接觸應力,這樣的接觸應力超過一定閾值后可能會對機器人造成不可逆的機械損傷,這樣就判定這種情況為失敗。只有加入了力覺模仿學習的方案才能夠使得機器人調整姿態釋放掉末端的接觸應力,也就大大避免了在操作過程中因為應力過大而失敗的情況。
Q:MOMA-Force 相比 BC 以及沒有力覺模仿的方案,力傳感的數據是怎樣的呢?
A:實驗對比了 MOMA-Force 和其它幾個基線方法。對于所有的方法,作者計算了在六個任務中所有成功的實驗的平均絕對接觸力、力矩和平均力、力矩方差,然后對任務進行平均(如圖)。較小的力、力矩方差表示執行任務過程中更穩定的接觸。MOMA-Force(紅色柱子)在 x、y 和 z 軸上的平均絕對接觸力和力矩都是最小的,且方差也是最小的。
Q:不同的預訓練視覺編碼器在真實機器人數據上表現的對比如何?
A:實驗通過對比各種 SOTA 的預訓練模型作為視覺編碼器在 5 倍交叉驗證的測試集上的均方誤差(MSE)來比較不同的視覺預訓練編碼器的有效性,表格 II 展示了結果。MVP(Masked Visual Pretraining)是基于 masked auto-encoder 通過互聯網視頻數據進行的預訓練的。CLIP 旨在通過對比學習(contrastive learning)將圖像表示與文本對齊。同樣由字節跳動提出的 iBOT 通過在線標記器(online tokenizer)在 masked auto-encoder 和對比學習之間取得了良好的平衡。由于 iBOT 以自蒸餾的方式進行掩膜圖像建模,并通過對圖像使用在線 tokenizer 進行 BERT 式預訓練,讓 CV 模型獲得了通用廣泛的特征表達能力。表格 II 顯示 iBOT 的特征表示能力十分有效,在實驗任務中取得了最佳的表現性能。