機器人空間泛化也有Scaling Law！清華新國大新算法框架讓機器人操作更加魯棒

作者：量子位 2024-12-30 10:20:00

來自清華和新加坡國立大學的團隊，發現了空間智能的泛化性規律。

在機器人空間泛化領域，原來也有一套Scaling Law！

來自清華和新加坡國立大學的團隊，發現了空間智能的泛化性規律。

在此基礎上，他們提出了一套新穎的算法框架——ManiBox，讓機器人能夠在真實世界中應對多樣化的物體位置和復雜的場景布置。

在實際測試中，ManiBox實現了34440cm3最大操作空間范圍的高效覆蓋，抓取成功率高達90%-100%。

在具身智能和機器人操作實驗室中，往往會選擇固定的setting進行實驗，在業內被稱為“完美擺放位置”。

但在現實環境中，實現機器人的空間泛化，以應對多樣化的物體位置和復雜的場景布置，一直是個艱難的挑戰。

顯然，實現空間智能所需要的，絕不是只在實驗室中操作一塊極小的空間范圍內的物體。

為此，研究團隊基于發現的具身智能的空間泛化性Scaling Law，推出了ManiBox這項成果。

讓機器人走出實驗室

ManiBox是一個創新性的機器人操作算法框架，深入探索了具身智能的空間泛化性的Scaling Law，并通過大量模擬器數據和Bounding Box這樣的視覺低維特征引導，成功實現了空間泛化、背景泛化和物體泛化的抓取任務。

除了開頭展示的34440cm3空間泛化之外，ManiBox還實現了物體和背景的泛化。

物體方面，無論是蘋果、鋼杯，還是玻璃燒杯，ManiBox對各種形狀、大小的物體都能精準抓取。

同時面對各種背景挑戰，無論是不同顏色桌布、復雜桌面，還是動態光源和視頻干擾，ManiBox始終表現穩定。

除了這幾個泛化維度，ManiBox的強大適應性還讓其輕松擴展至復雜操作任務，并在真實環境中成功完成了抓取半空中物體、雜亂桌面上的物體，甚至倒水等操作。

抓取半空中物體時，ManiBox能靈活應對動態目標：

在擁擠環境中，也能夠精準抓取：

還可以精細操作復雜物體的局部，比如抓取杯子的把手：

除了抓取之外，通過修改teacher policy，還能實現向不同瓶子中倒水的操作，精準調整角度與力度，并實現平穩且可控的液體傾倒：

另外作者的實驗還表明，即使在視覺遮擋率高達40%或Bounding Box識別噪音高達5%的情況下，ManiBox依然展現強大的魯棒性和操作能力。

即便在黑暗環境下，檢測模型大部分時間下沒有檢測到目標物體，純靠策略的泛化性，機械臂也能精準完成抓取任務：

通過下面的這組圖片，可以看到ManiBox確實只有少數時間檢測模型檢測到了目標物體。

可以看出，ManiBox不僅能夠完成常規抓取，還能擴展到更復雜的任務，適應不同的精細操作場景，展現了出色的Sim2Real能力。

并且這些動作，用戶只需輸入一個物體的prompt，ManiBox即可自動執行對應物體的抓取、傾倒等操作，顯著提升了機器人操作任務的魯棒性與靈活性。

那么，ManiBox是如何實現的呢？

ManiBox背后的核心思想主要在于以下兩點：

一是利用規模化（scalable）、自動化的action數據生成方式，來在策略模塊上進行訓練，形成模型對action的認知，以緩解action模態數據稀缺的問題。（對應生成action的Policy）
二是充分利用互聯網級別的數據量（internet-scale data），在視覺、文本模態上形成通用的模型，來提供完成任務的重要指示信息。（對應Bounding Box這樣的低維視覺特征及其背后的視覺模型）

當然更基礎的，還有作者在空間泛化上取得的理論突破。

ManiBox深入探索了具身智能的空間泛化性Scaling Law，首次揭示了操作任務中的兩大關鍵關系。

一方面，團隊發現任務的成功率與數據量呈現出米氏-曼特恩（Michaelis-Menten）動力學曲線：

另一方面，作者還發現空間泛化所需數據量與空間體積呈現冪律關系，即更多數據可顯著提升更大空間范圍內的泛化能力：

在理論的基礎之上，ManiBox通過policy generalization方法來有效解決了空間泛化性問題，確保策略能夠在多樣化的環境，即便視覺模型存在較大的不確定性中，也能表現出強大的適應性。

借助YOLO-World這樣的開集邊界框檢測模型，ManiBox精準提取多視角的低維空間信息，將復雜的高維視覺問題轉化為簡化的狀態建模問題，從而為策略訓練提供了堅實的基礎。

最終，通過訓練一個基于狀態的策略（state-based policy），實現了從仿真到真實世界的高效遷移。

同時結合隨機掩碼（random mask）技術和歷史軌跡信息，ManiBox顯著提升了策略在應對視覺噪聲和檢測失敗場景下的魯棒性，進一步加強了模型的泛化能力和在真實環境中的表現。

在訓練上，作者還采取了高效數據生成與學生策略學習相結合的模式：

教師策略：通過強化學習與模仿學習相結合的框架，ManiBox可以做到2h訓練完強化學習策略，僅用一天時間自動化采集了36,000條高質量模擬數據，涵蓋多種物體形狀、大小和空間配置；
學生策略：在此數據上訓練，僅需2分鐘即可完成模型學習，達成零樣本遷移，在真實場景中高效部署；
基于強化學習的操作策略，相比傳統的視覺方法可以有更強大通用性和魯棒性，比如傳統的視覺方法需要利用IK（逆運動學）求解joint position。