化解機器人的「幻覺」:北大發布OmniManip,VLM結合雙閉環系統,3D理解能力大幅提升
本文的作者均來自北京大學與智元機器人聯合實驗室,通訊作者為北京大學計算機學院助理教授董豪。目前團隊研究方向覆蓋智能機器人的泛化操縱、具身導航和感知自主決策。團隊持續開放聯合實習生崗位,提供充足的機器人本體和計算資源。
近年來視覺語?基礎模型(Vision Language Models, VLMs)在多模態理解和?層次常識推理上?放異彩,如何將其應?于機器?以實現通?操作是具身智能領域的?個核?問題。這??標的實現受兩?關鍵挑戰制約:
1. VLM 缺少精確的 3D 理解能?:通過對?學習范式訓練、僅以 2D 圖像 / ?本作為輸?的 VLM 的天然局限;
2. ?法輸出低層次動作:將 VLM 在機器?數據上進?微調以得到視覺 - 語? - 動作(VLA)模型是?種有前景的解決?案,但?前仍受到數據收集成本和泛化能?的限制。
針對上述難題,北?攜?智元機器?團隊提出了 OmniManip 架構,基于以對象為中?的 3D 交互基元,將 VLM 的高層次推理能力轉化為機器?的低層次高精度動作。
針對?模型幻覺問題和真實環境操作的不確定性,OmniManip 創新性地引?了 VLM 規劃和機器?執?的雙閉環系統設計,實現了操作性能的顯著突破。
實驗結果表明,OmniManip 作為?種免訓練的開放詞匯操作?法,在各種機器?操作任務中具備強?的零樣本泛化能?。
項?主?與論?已上線,代碼與測試平臺即將開源。
- 主?地址:https://omnimanip.github.io
- 論?地址:https://arxiv.org/abs/2501.03841
技術?案解析
?法概述
OmniManip 的關鍵設計包括:
- 基于 VLM 的任務解析:利? VLM 強?的常識推理能?,將任務分解為多個結構化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。
- 以物體為中?的交互基元作為空間約束:通過 3D 基座模型?成任務相關物體的 3D 模型和規范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從?優化求解出 Active 物體在 Passive 物體規范坐標系下的?標交互姿態。
- 閉環 VLM 規劃:將?標交互姿態下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現 VLM 對?身規劃結果的閉環調整。
- 閉環機器?執?:通過物體 6D 姿態跟蹤器實時更新 Active/Passive 物體的位姿,轉換為機械臂末端執?器的操作軌跡,實現閉環執?。
以物體為中?的交互基元
物體的交互基元通過其在標準空間中的交互點和?向來表征。交互點 p∈R3 表示物體上關鍵的交互位置,?交互?向 v∈R3 代表與任務相關的主要軸。這兩者共同構成交互基元 O={p,v},封裝了滿?任務約束所需的基本?何和功能屬性。這些標準交互基元相對于其標準空間定義,能夠在不同場景中保持?致,實現更通?和可重?的操作策略。
對于通?物體的交互點提取,OmniManip 利?視覺語?模型(VLM)在原圖(當部件可?且實體存在時)或在正交視圖中渲染的 3D ?格(當部件不可?或實體不存在時)上進?定位。
與 CoPa 和 ReKep 等?法不同,OmniManip 直接讓 VLM 進? grounding,不會受限于不穩定的 part 分割或聚類結果。
在交互?向的采樣??,由于物體的規范化空間通過 Omni6DPose 錨定,軸的?向與語義對?,該團隊讓 VLM 直接對物體標準空間的軸進?語義描述,并根據操作任務進?匹配度排序,以獲得交互?向的候選。
雙閉環系統設計
李??團隊的?作 ReKep 通過關鍵點跟蹤巧妙地實現了機械臂的閉環執?,但其 VLM 規劃過程是開環的。OmniManip 則更進?步,得益于以物體為中?的設計理念,?次在 VLM 規劃和機械臂執?層?實現了雙閉環系統:
閉環規劃:在實驗中,VLM 推理很容易出現幻覺,導致錯誤的規劃結果(尤其是在涉及 3D 旋轉的任務中,如倒?、插筆)。OmniManip 賦予 VLM 閉環規劃能?,通過渲染物體的三維模型,幫助 VLM 「腦補」出規劃結果后的物體樣貌,再判斷其合理性。
這?功能賦予了 VLM 空間反思能?,使其能夠在測試時進?推理,類似于 OpenAI 的 O1,??提?了操作成功率。為了保持框架的簡潔性,研究團隊沒有設計復雜的測試時推理流程,僅作?輪校驗就已明顯提?了 VLM 的規劃準確率。
閉環執?:OmniManip 提取的交互基元位于物體的規范空間中,只需引??個 6D 位姿跟蹤器即可輕松實現閉環操作。與 ReKep 使?的關鍵點跟蹤器相?,基于物體的 6D 位姿跟蹤?式更為穩定,并對遮擋具有更強的魯棒性。(缺點則是不如關鍵點靈活、?法建模柔性物體操作。)
實驗結果
強?的開放詞匯操作性能
在 12 個真機短程任務上,OmniManip 均展現出卓越的性能。
雙閉環系統設計為 OmniManip 帶來了約 17% 的性能提升,這證明了 RRC 在有效減少?模型幻覺影響??的作?。
交互基元的魯棒性
VLM 需要基于交互基元對機器?操作進?規劃,如果交互基元本身存在問題,VLM 就會陷?「巧婦難為??之炊」的困境。因此,可靠的交互基元?關重要。以往的?法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元,然后通過相機的內外參數轉換到 3D 空間。
然?,由于 2D 圖像存在空間歧義,采樣效果對相機視?、圖像紋理和部件形狀等因素極為敏感(例如,當相機平視杯?時,之前的?法只能對準杯?的側壁、?不是開?)。? OmniManip 則是在物體的 3D 規范空間中進?采樣,能夠輕松克服 2D 圖像的局限性,實現可靠的 3D 交互基元提取。
強?的拓展性與潛?
OmniManip 能夠與 high-level 任務規劃器結合,實現?程任務操作
作為?種以物體為中?的算法,OmniManip 與機械臂本體解耦,能夠零成本遷移?不同形態的本體(例如雙臂?形機器?)。
OmniManip 具有強?的通?泛化能?,不受特定場景和物體限制。團隊已將其應?于數字資產?動標注 / 合成管道,實現?規模的機器?軌跡?動采集。該研究團隊即將開源?質量的泛化操作?規模數據集和對應的仿真評測基準,敬請期待!