RSS 2025|從說明書學(xué)習(xí)復(fù)雜機器人操作任務(wù):NUS邵林團隊提出全新機器人裝配技能學(xué)習(xí)框架Manual2Skill
本文共同第一作者為新加坡國立大學(xué)博士生鐵宸睿和多倫多大學(xué)研究助理/本科生孫圣翔。合作者為朱錦軒、劉益?zhèn)ァ⒐┫琛⒑健㈥惡崎㈥惪⊥ⅰ穷:!Mㄓ嵶髡邽樾录悠聡⒋髮W(xué)計算機學(xué)院助理教授邵林,研究方向為機器人和人工智能。
視覺語言模型(Vision-Language Models, VLMs),為真實環(huán)境中的機器人操作任務(wù)提供了極具潛力的解決方案。
盡管 VLMs 取得了顯著進展,機器人仍難以勝任復(fù)雜的長時程任務(wù)(如家具裝配),主要受限于人類演示數(shù)據(jù)和訓(xùn)練樣本的稀缺性。
為解決這一問題,研究團隊提出 Manual2Skill,一種基于 VLMs 的創(chuàng)新框架,使機器人能通過高級視覺說明書自主理解并執(zhí)行家具裝配任務(wù),模仿人類學(xué)習(xí)裝配的過程。該方法彌合了抽象指令與物理執(zhí)行之間的鴻溝,顯著提升了機器人在真實操作場景中的實用性。
目前,該論文已被機器人領(lǐng)域頂級會議 Robotics: Science and Systems XXI(RSS 2025)接收。
- 論文標題:Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models
- 論文鏈接:https://arxiv.org/abs/2502.10090
- 項目主頁:https://owensun2004.github.io/Furniture-Assembly-Web/
研究背景
家具裝配是一項復(fù)雜的長時程任務(wù),要求機器人:(A) 理解所有零件的拼接關(guān)系和順序;(B) 估計每一步拼接時部件的位姿;(C) 生成物理可行的動作以完成部件組裝。
盡管許多計算機視覺方法通過幾何或語義技術(shù)在部件位姿預(yù)測(B)方面取得顯著成果,但它們大多忽視了同樣關(guān)鍵的拼接順序理解(A)和動作生成(C)環(huán)節(jié) [1, 2]。
現(xiàn)有的端到端機器人裝配系統(tǒng)通常依賴模仿學(xué)習(xí)或強化學(xué)習(xí)。雖然在某些場景下有效,但這些方法需要大規(guī)模數(shù)據(jù)集和大量計算資源,難以推廣至真實環(huán)境中的通用長時程操作任務(wù) [3, 4]。
近年來,視覺語言模型(VLMs)在高層規(guī)劃、環(huán)境理解甚至直接機器人控制方面展現(xiàn)出潛力。部分研究嘗試整合這些能力用于機器人裝配,但多局限于簡單幾何物體且在真實裝配場景中魯棒性不足 [5]。
關(guān)鍵問題在于,現(xiàn)有 VLM 方法(乃至多數(shù)當(dāng)前方法)缺乏對結(jié)構(gòu)化外部指導(dǎo)(如人工設(shè)計的說明書)的利用。這種缺失限制了它們在依賴抽象符號指令的復(fù)雜裝配任務(wù)中的表現(xiàn)。
相比之下,人類能夠從抽象的說明書中提取信息并學(xué)習(xí)操作技能,這揭示了機器人能力的一個重要缺口:從抽象的、為人類設(shè)計的指導(dǎo)信息中學(xué)習(xí)物體操作技能。
憑借強大的視覺與語言推理能力,VLMs 為彌合這一缺口提供了獨特機遇。通過挖掘說明書中的結(jié)構(gòu)化知識,VLMs 可使機器人更高效可靠地完成復(fù)雜多步驟裝配任務(wù)。
Manual2Skill:
基于 VLM 的說明書引導(dǎo)式機器人裝配框架
為解決復(fù)雜長時程裝配的局限性,研究團隊開發(fā)了 Manual2Skill —— 一種創(chuàng)新框架,利用 VLMs 將基于說明書的視覺指令轉(zhuǎn)化為機器人裝配技能。
Manual2Skill 包含三個核心階段:
- 層級化裝配圖生成:通過 VLM 解析說明書圖像,構(gòu)建描述家具部件結(jié)構(gòu)關(guān)系的層級化裝配圖。
- 分步驟位姿估計:預(yù)測每個裝配步驟中涉及的家具部件的精確 6D 位姿。
- 動作生成與執(zhí)行:將位姿信息轉(zhuǎn)化為可執(zhí)行的機器人軌跡。
圖 1:Manual2Skill 框架
該框架解決了現(xiàn)有機器人裝配方法的兩大核心限制:
- 通過將人類理解的抽象示意圖轉(zhuǎn)化為結(jié)構(gòu)化裝配層級圖與部件位姿,使機器人能從說明書提取可操作信息,避免了對大規(guī)模高質(zhì)量演示數(shù)據(jù)集的依賴。
- 將裝配層級圖作為結(jié)構(gòu)化裝配信息的核心表征,為真實裝配任務(wù)提供通用解決方案,適用于所有多步驟復(fù)雜裝配問題。
階段 I: 層級化裝配圖生成
Manual2Skill 的首階段將人類可理解的說明書轉(zhuǎn)化為機器人可執(zhí)行的任務(wù)規(guī)劃。通過視覺語言模型(GPT-4o)對說明書示意圖和預(yù)裝配場景圖像進行聯(lián)合推理,生成編碼家具部件與子組件結(jié)構(gòu)關(guān)系的層級化裝配圖。
在此圖中:
- 葉節(jié)點代表原子部件。
- 非葉節(jié)點表示通過連接部件/子組件形成的復(fù)合結(jié)構(gòu)。
- 從葉節(jié)點向根節(jié)點遍歷可獲得完整的逐步裝配流程。
為構(gòu)建該圖,Manual2Skill 通過整合多模態(tài)輸入,特別是多張圖像的視覺信息與文本指令組成的多輪提示序列,完成兩個關(guān)鍵子階段:
- 跨域視覺理解:通過視覺提示技術(shù)(如 Set-Of-Marks 和 GroundingDINO)和幾何視覺推理,GPT-4o 將預(yù)裝配場景圖片中的物理部件與其說明書圖示進行語義關(guān)聯(lián),從而解析每個部件的作用與位置。
- 結(jié)構(gòu)化信息提取:基于已識別的部件信息,使用鏈式思維(Chain-of-Thought)、由簡至繁(Least–To–Most)和上下文學(xué)習(xí)(In-Context Learning)等提示技術(shù),判斷說明書中每個步驟涉及的特定部件。
該結(jié)構(gòu)化圖表征為下游位姿估計與運動規(guī)劃奠定基礎(chǔ),確保復(fù)雜裝配任務(wù)的精準順序執(zhí)行。
階段 II: 分步驟裝配位姿估計
在層級化裝配圖確定部件組合與裝配順序后,本階段預(yù)測每個裝配步驟中所有部件的 6D 位姿,實現(xiàn)部件間的精確物理對齊。
與過往方法通常一次預(yù)測整個裝配過程中所有零件的位姿不同,這里我們對每個裝配步驟,預(yù)測這一步中涉及到的所有部件/子組件的位姿,這一設(shè)置既更貼合真實世界中的拼裝過程,也能使模型避免單次輸入部件數(shù)量過多引起的性能下降。
同時我們還發(fā)現(xiàn),盡管家具的形態(tài)有很大差別,但其基本部件的連接方式(比如板和棍的連接)較為固定,這種分步預(yù)測的方法能使模型更好地學(xué)習(xí)到這種基本連接方式,從而對測試集的物體實現(xiàn)更高的預(yù)測精度。
為實現(xiàn)此目標,跨模態(tài)位姿估計模型對說明書圖像與家具部件 3D 點云進行聯(lián)合推理。模型架構(gòu)包含四個核心組件:
- 圖像編碼器(E_I):從說明書圖像提取語義特征,捕獲部件關(guān)系與朝向的視覺線索。
- 點云編碼器(E_P):編碼各部件的點云數(shù)據(jù)。
- 跨模態(tài)融合(E_G):使用圖神經(jīng)網(wǎng)絡(luò)(GNN)整合圖像與點云特征。
- 位姿回歸器(R):從融合特征預(yù)測各部件的 SE(3) 位姿。
給定說明書圖像 I_i 和涉及部件的點云集合,處理流程如下:
為確保預(yù)測的魯棒性與準確性,模型采用復(fù)合損失函數(shù):
- SE(3) 變換誤差(旋轉(zhuǎn)測地距離 + 平移 MSE)
- 點云對齊損失(Chamfer 距離)
- 可互換部件的置換不變損失(評估所有有效排列并選擇最小損失方案)
該設(shè)計使模型能夠處理可變數(shù)量的輸入部件,適應(yīng)視覺相似/對稱部件,以及泛化到訓(xùn)練集上未見過的新物體。
階段 III: 機器人裝配動作生成與執(zhí)行
最終階段將預(yù)測位姿轉(zhuǎn)化為真實世界的機器人動作,實現(xiàn)裝配計劃的自主執(zhí)行。我們在這一階段使用基于啟發(fā)式的抓取策略和穩(wěn)健的運動規(guī)劃算法,讓機械臂抓取對應(yīng)部件,并將其放置在預(yù)測位姿。
抓取規(guī)劃與部件操控
我們使用 FoundationPose 與 SAM 估計場景中所有部件的初始位姿。根據(jù)部件幾何特征應(yīng)用啟發(fā)式抓取策略:
- 棒狀部件:沿主軸在質(zhì)心處抓取。
- 扁平薄片部件:使用夾具/平臺固定后沿邊界穩(wěn)定抓取。
運動規(guī)劃與執(zhí)行
抓取后,機器人使用 RRT-Connect(基于采樣的運動規(guī)劃器)計算從當(dāng)前位姿到目標位姿的無碰撞軌跡。所有其他物體被視為避障點云。通過錨定位姿在軌跡中段重新評估抓取部件位置,確保精確跟蹤與控制。
裝配插入
最終部件插入是涉及精確對齊與力反饋的接觸密集型任務(wù)。由于閉環(huán)插入的復(fù)雜性,目前由人類專家完成。我們會在未來的研究中,整合觸覺與力傳感器實現(xiàn)自主插入。
實驗結(jié)果與分析
實驗在仿真與真實環(huán)境中對多款宜家家具進行,驗證 Manual2Skill 的魯棒性與有效性。
層級化裝配圖生成
圖 2:層級化裝配圖生成結(jié)果
我們在 102 本真實宜家家具說明書上測試了我們提出的層級化裝配圖生成方法的表現(xiàn),可以看出,對于簡單和中等復(fù)雜程度的家具(部件數(shù) ≤ 6),我們的方法能比較準確地生成裝配圖,同時在所有復(fù)雜程度的家具上,我們的方法表現(xiàn)均顯著優(yōu)于基線方法。盡管所有方法在復(fù)雜家具上表現(xiàn)受限,但隨著 VLM 性能的提升,我們方法的表現(xiàn)會隨之提升。
圖 3:層次化裝配圖可視化
位姿估計
我們從 PartNet 數(shù)據(jù)集中選取了三類物體(椅子、臺燈、桌子),每類物體各 100 個,并且在 Blender 中渲染出這些物體部件組合的示意圖作為說明書圖片。
圖 4:位姿估計實驗結(jié)果
實驗結(jié)果表明,憑借多模態(tài)特征融合與 GNN 空間關(guān)系建模,本方法在全部四個評價指標上超越基線方法。
圖 5:位姿估計可視化
仿真測試
在 50 件簡單至中等難度家具的仿真測試中,Manual2Skill 達成 58% 成功率,顯著超越現(xiàn)有啟發(fā)式方法,驗證了層級化裝配圖、位姿估計與運動規(guī)劃結(jié)合的有效性。
實物實驗
我們在四款真實宜家家具(Flisat 凳、Variera 架、Sundvik 椅、Knagglig 箱)上測試了我們整套框架,體現(xiàn)了我們的框架在真實機器人裝配任務(wù)中的可行性和出色表現(xiàn)。
圖 6:真實世界家具裝配過程可視化
零樣本擴展
本方法可零樣本推廣至輪軸、玩具飛機甚至機械臂等手冊引導(dǎo)式裝配任務(wù),成功率 100%,彰顯 VLM-based 方案相比其他方法的泛化優(yōu)勢。
圖 7:零樣本擴展可視化
結(jié)論與展望
本文提出 Manual2Skill,一種開創(chuàng)性框架,通過 VLMs 使機器人能解析人工設(shè)計的視覺說明書并自主執(zhí)行復(fù)雜家具裝配任務(wù)。通過引入層級化圖式指令解析與魯棒位姿估計,Manual2Skill 有效彌合了抽象說明書與物理執(zhí)行之間的鴻溝。
Manual2Skill 提出了一種新的機器人學(xué)習(xí)范式,機器人可以從為人類設(shè)計的說明書中學(xué)習(xí)復(fù)雜長程的操作技能,相比起收集大量人工示范數(shù)據(jù)做模仿學(xué)習(xí),顯著降低了復(fù)雜操作技能獲取的成本和復(fù)雜度。同時,說明書通過抽象圖表和符號表示傳達操作知識,這種抽象化的表達方式捕獲了操作過程的底層結(jié)構(gòu)和核心邏輯,而非僅僅記錄表面的動作序列。這種深層次的理解使得獲得的技能能夠在不同的物體配置、環(huán)境條件和機器人實體間實現(xiàn)有效泛化。