視頻生成和具身智能強強聯合!谷歌&卡內基梅隆&斯坦福發布Gen2Act:泛化超棒!
文章鏈接:https://arxiv.org/pdf/2409.16283
項目鏈接:https://homangab.github.io/gen2act/
亮點直擊
- 人類視頻生成引導機器人操作:通過生成零樣本的人類視頻并翻譯成機器人執行策略,避免了直接生成機器人視頻的復雜性,利用豐富的網絡視頻數據來提升泛化能力。
- 現成模型與閉環策略結合:不需微調視頻生成模型,直接使用現成模型生成視頻,并通過結合機器人觀察歷史與點軌跡優化,確保策略能夠動態調整,提升操作準確性。
- 強大的泛化能力:在面對新物體類型和新動作時,Gen2Act表現出顯著的泛化能力,相較于其他基線方法,成功率平均提升30%。
- 支持復雜任務的長時執行:Gen2Act能夠連續完成多個中間任務,如“制作咖啡”等復雜操作任務,展示了其處理長時任務的潛力。
總結速覽
解決的問題
機器人操作策略在面對新任務時,往往難以處理未見過的物體類型和新動作。由于機器人數據采集成本高,如何實現操作策略的泛化是一個關鍵挑戰。
提出的方案
提出Gen2Act方法,通過從網絡數據中預測運動信息,生成人類視頻,并將機器人策略與生成的視頻結合。通過零樣本的人類視頻生成引導機器人策略執行新任務,避免大量的機器人數據采集。
應用的技術
- 語言條件下的零樣本人類視頻生成。
- 使用預訓練的視頻生成模型,直接生成人類視頻,不需微調模型。
- 利用少量的機器人交互數據訓練策略模型,并結合生成的視頻執行任務。
達到的效果
Gen2Act能夠讓機器人操作未見過的物體,并完成機器人數據中未包含的新動作任務,在真實場景中展現出多樣化的泛化能力。
方法
本文開發了一種基于語言條件的機器人操作系統Gen2Act,能夠在未知場景中泛化到新任務。為實現這一目標,采用了分解方法:
- 給定一個場景和任務描述,使用現有的視頻預測模型生成一個人類解決任務的視頻;
- 基于生成的人類視頻,通過一個學習到的人類到機器人的翻譯模型推斷機器人動作,該模型可以利用生成視頻中的運動線索。我們表明,這種分解策略在利用大規模視頻模型中固有的網絡規模運動理解方面具有可擴展性,用數量級更少的機器人交互數據完成從生成的人類視頻到機器人應執行的動作的簡單翻譯任務。
概述與設置
人類視頻生成
使用現有的文本+圖像條件下的視頻生成模型進行任務的視頻生成。我們發現當前的視頻生成模型能夠在零樣本情況下很好地生成人類視頻,而無需任何微調或適配(如下圖3中的示例)。相比于一些之前的工作[57, 58]嘗試生成機器人視頻,專注于人類視頻生成,因為當前的視頻生成模型無法在零樣本情況下生成機器人視頻,并且需要特定的機器人微調數據才能實現。這種微調往往會削弱那些基于網絡大規模數據訓練的生成模型在新場景中的泛化優勢。
從生成的人類視頻到機器人動作翻譯
在Gen2Act中,將軌跡預測作為訓練期間的輔助損失,并與BC損失相結合,而在測試時不使用軌跡預測Transformer。這有助于減少測試時的計算量,提高部署效率。
部署
為了部署 Gen2Act 來解決操作任務,首先根據任務的語言描述和場景的圖像生成一個人類視頻。接著,使用生成的視頻作為條件展開閉環策略。
對于執行包含多個任務的長時活動鏈,我們首先使用現成的大型語言模型(如 Gemini)來獲取不同任務的語言描述。我們通過使用前一個策略執行后的最后一幀圖像作為生成后續任務人類視頻的第一幀,來為任務序列鏈接 Gen2Act。我們選擇按順序生成視頻,而不是從最初的圖像生成所有視頻,因為在機器人執行了中間任務后,場景中的物體最終狀態可能會不同。
實驗
在廚房、辦公室和實驗室等多樣化場景中進行實驗,涵蓋了大量操作任務。這些實驗旨在回答以下問題:
- Gen2Act 是否能夠在多樣化的日常場景中生成合理的操作類人類視頻?
- Gen2Act 在應對新的場景、物體和動作的泛化能力上表現如何?
- Gen2Act 能否通過視頻生成和視頻條件策略執行的鏈接,實現長時操作?
- 通過加入少量額外的多樣化人類遙操作示范共同訓練,能否提升 Gen2Act 在新任務上的表現?
評估設置的詳細信息
按照以往的語言/目標條件策略學習工作,用執行的機器人軌跡是否解決了指令中規定的任務來量化成功,并定義基于同一任務描述的多次展開的成功率。我們根據不同泛化水平進行分類,采用之前工作中的術語:
- 輕度泛化(MG):在已知場景中,已見物體實例的未見配置;例如照明和背景變化等場景自然變異。
- 標準泛化(G):在已知/未知場景中,未見物體實例。
- 物體類型泛化(OTG):在未知場景中,完全未見的物體類型。
- 動作類型泛化(MTG):在未知場景中,完全未見的動作類型。
這里,已見和未見是相對于機器人交互數據定義的,并假設視頻生成模型已經看過包括機器人數據未見內容在內的豐富網絡數據。
數據集和硬件細節
對于視頻生成,使用現有的 VideoPoet 模型,并調整其條件以適應方形圖像和任務的語言描述。在我們的實驗中,沒有對該模型進行任何微調,發現它可以直接泛化到所有機器人實驗場景中的人類視頻生成任務。
對于機器人實驗,使用了一臺帶有柔順雙指夾具的移動操作機器人,機器人通過末端執行器控制進行策略部署。機械臂安裝在機器人右側的機身上。手動在辦公室、廚房和實驗室場景中移動機器人,并讓它操作這些場景中的不同物體。機器人操作頻率為 3Hz,每次任務開始前,將機器人的手臂重置到一個預定義的位置,以確保機器人的攝像頭不會遮擋場景。
為了訓練視頻條件策略,使用了由先前工作收集的現有離線機器人示范數據集,并通過另一先前工作收集的一些人類視頻示范配對進行增強。此外,我們通過使用視頻生成模型,基于各自機器人示范的首幀,生成對應的人類視頻,創建了一對一的形式(生成的人類視頻,機器人示范)的配對。對于生成的人類視頻和機器人示范中的點軌跡,使用了現成的跟蹤方法。人類視頻生成和點軌跡生成都完全在離線一次性完成,并不會增加策略訓練時的成本。
基線與對比
與基線方法和 Gen2Act 的不同變體進行了對比。特別是,與一個基于語言條件的策略基線(RT1)進行了對比,該策略在與 Gen2Act 相同的機器人數據上訓練。此外,我們還與基于視頻條件的策略基線(Vid2Robot)進行了對比,該策略使用配對的真人和機器人視頻進行訓練。另一個基線是基于目標圖像條件的策略(RT1-GC),該策略僅依賴 Gen2Act 的真實和生成視頻的最后一幀(即目標圖像)進行條件訓練。最后,考慮了不帶軌跡預測損失的 Gen2Act 變體。
人類視頻生成分析
前面圖 3 顯示了在多樣化場景中生成的人類視頻的定性結果。我們可以看到,生成的視頻合理地操作了文本指令中描述的場景。場景中的相應物體得到了操作,同時保持了背景的完整性,并且沒有引入攝像頭移動或生成中的偽影。這些結果令人興奮,因為這些生成在新場景中是零樣本的,并且可以直接用于機器人任務中,以想象如何操作未見的物體和場景。
Gen2Act 在場景、物體和動作中的泛化能力
本節比較了 Gen2Act 與基線方法和不同消融變體在不同泛化水平下的表現。下表 I 顯示了任務在不同泛化水平上的成功率均值。我們觀察到,在更高的泛化水平下,Gen2Act 的成功率明顯更高,表明結合了運動信息的提取(通過軌跡預測)的人類視頻生成在未見任務中非常有幫助。
Gen2Act 的長時操作任務鏈接
接下來,分析了 Gen2Act 在通過任務鏈接解決一系列操作任務中的可行性。下表 II 顯示了如“制作咖啡”這類長時活動的結果,這些活動由多個按順序執行的任務組成。我們通過 Gemini獲得這些任務的序列,并對每個任務,使用前一個任務執行后場景的最后一幀作為視頻生成的條件,并在生成的人類視頻的條件下執行當前任務的策略。依次重復此過程,并報告每個階段的成功率(5 次試驗中的成功次數)。下圖 5 直觀地展示了來自四個長時活動的單次執行展開。
使用額外的遙操作示范進行共同訓練
之前實驗中使用的離線數據集在場景和任務類型上覆蓋有限,導致在更高的泛化水平(前面表 I 中的 OTG 和 MTG)上 Gen2Act 的成功率不到 60%。在本節中,我們通過實驗研究了增加少量額外的多樣化遙操作軌跡,結合現有的離線數據集共同訓練,是否可以幫助提升泛化能力。視頻生成模型保持不變。下表 III 的結果顯示,通過共同訓練,Gen2Act 的表現有所提升。這令人振奮,因為這表明僅通過少量多樣化的示范,Gen2Act 的翻譯模型就可以更好地根據生成的視頻在機器人數據有限的更高泛化水平下提升表現。
失敗分析
本節討論了 Gen2Act 的失敗類型。發現,對于 MG 和一定程度上的 G,視頻生成中的不準確與策略失敗的相關性較小。而在更高泛化水平(物體類型 OTG 和動作類型 MTG)下,如果視頻生成的結果不合理,策略往往無法成功執行任務。這也證明了 Gen2Act 的策略在執行任務時利用了生成的人類視頻來推斷運動線索,因此當視頻生成在機器人數據支持有限的場景中出現錯誤時(例如在 OTG 和 MTG 中),策略將失敗。
討論與結論
總結。 本研究提出了一個結合零樣本人類視頻生成與有限機器人演示的框架,用于學習具有泛化能力的機器人操作任務??傮w而言,工作表明,基于非機器人數據集(如網絡視頻)訓練的運動預測模型可以幫助操作策略在未見場景中實現泛化,而不需要為每個任務收集機器人數據。
局限性。 本工作主要依賴于零樣本人類視頻生成,并通過視頻中的點軌跡預測為機器人操作系統提供運動線索,幫助其與未見物體交互并執行新任務。因此,系統的能力受限于當前視頻生成模型的限制,如無法生成逼真的手部動作,因而在執行非常精細的任務時能力有限。
未來工作。 探索從生成的視頻中恢復更多密集的運動信息(例如對象網格)以解決當前的限制,可能是未來研究的一個有趣方向。另一個重要的方向是,通過學習恢復策略來處理中間失敗,進一步增強任務鏈的可靠性,以支持長時操作任務。
本文轉自AI生成未來 ,作者:AI生成未來
