10萬+,超大規模人手交互視頻數據集!面向可泛化機器人操作
隨著具身智能的不斷發展,機器人操作也逐漸融入到人們的日常生活中,可輔助完成物體抓取、倒水、表面清潔和整理等任務。
通過模仿學習,如今的機器人能夠模仿視頻演示中的動作,完成對應的任務。但要求操作環境與視頻演示中的環境幾乎完全相同,這限制了其在新場景中的泛化能力,比如:當被操作物體的位置或被操作物體本身發生變化時,機器人便無法準確地完成任務。
為解決機器人操作泛化能力不足的問題,近期研究將模仿學習與視頻生成等生成模型結合,通過生成機器人-物體交互的演示視頻來提升泛化能力。
但是,由于機器人數據難以采集,無法收集到大量的高質量數據,這類方法所提供的泛化能力仍然有限。
鑒于人手操作視頻數據量龐大且采集難度低,一種更具擴展性的方案是生成「人手-物體」交互的演示視頻,以實現更優的泛化效果。
此外,當前先進的策略模型已能夠有效彌合人手與機器人操作之間的差異,通過模仿人手交互動作控制機器人執行任務,并展現出良好的應用潛力,進一步驗證了該方案的可行性。
不過,由于缺乏高質量的人手-物體交互視頻及其詳細任務指令,當前通用視頻生成模型在生成特定任務和環境下的交互視頻時,仍然面臨挑戰。
為攻克現有挑戰,香港中文大學(深圳)的研究團隊推出了首個面向任務的大規模人手-物交互數據集TASTE-Rob,涵蓋了100,856個匹配精準語言指令的第一視角交互視頻。
論文地址:https://arxiv.org/abs/2503.11423
項目主頁:https://taste-rob.github.io/
GitHub地址:https://github.com/GAP-LAB-CUHK-SZ/TASTE-Rob
區別于Ego4D,TASTE-Rob通過固定機位,獨立拍攝單次的完整交互過程,確保了環境穩定、指令與視頻精準對應等特性,為模仿學習等領域提供了高質量數據。
研究團隊提出三階段視頻生成流程:先基于指令和環境圖像生成初步演示視頻,再借助運動擴散模型優化手部姿態序列以解決抓取姿態不穩定的問題,最后再根據優化后的姿態重新生成視頻,顯著提升了手物交互真實感。
實驗證實,該數據集與三階段流程的結合,在視頻生成質量和機器人操作準確度上均大幅超越現有生成模型。
數據集屬性
TASTE-Rob包含了100,856組視頻及其對應的詳細語言任務指令。為滿足人手-物交互視頻生成需求,TASTE-Rob旨在實現以下目標:1)所有視頻采用固定機位拍攝,每個視頻僅記錄一段與任務指令高度匹配的動作;2)覆蓋多樣化的環境和任務類型;3)包含各類人手-物交互場景下的豐富手部姿態。
圖1展示了數據集覆蓋的環境包括廚房、臥室、餐桌、辦公桌等場景;以及數據采集過程中,采集者需與各類常用物品進行交互,執行拿取、放置、推挪、傾倒等操作。
圖1:TASTE-Rob場景及動作類型統計
圖2展示了數據集中手部抓握姿態的分布,主要關注拇指、食指和中指的指間夾角與彎曲度。由于被抓取物體和執行動作類型的多樣性,數據集覆蓋了豐富的抓握姿態。
圖2:TASTE-Rob手部抓握姿態統計
TASTE-Rob與現有HOI數據集的對比
表1展示了TASTE-Rob數據集與現有的第一視角人手-物交互(HOI)視頻數據集的對比情況,主要的區別體現在以下幾點:
表1:TASTE-Rob與現有HOI數據集的對比
1. 相機視角及動作-指令匹配程度:考慮到模仿學習中的視頻演示一般從固定的攝像機視角進行錄制,并且僅包含一個與任務指令相匹配的單一動作,因此TASTE-Rob中用了同樣的設置條件;
2. 語言指令的詳細程度:為了進一步提升對語言指令的理解程度,TASTE-Rob在指令中融入了豐富多樣的物體限定詞,從而生成有效且準確的演示視頻;
3. 數據量及數據質量:TASTE-Rob擁有最多的視頻片段數量和1080p的視頻分辨率。
三階段視頻生成流程
當給定一張環境圖像和一個任務指令描述,所生成的人手-物交互視頻需滿足:
1. 準確的任務理解:能正確理解要操作的物體以及操作方式;
2. 可行的手物交互:在整個操作過程中保持一致的手部抓握姿勢。
如圖3的第一階段所示,在TASTE-Rob數據集上微調的視頻生成模型所生成的視頻雖然能準確理解任務,但在保持一致抓握姿勢方面表現一般。
為了滿足這兩個要求,該研究團隊在第二階段從生成視頻中提取手部姿態序列,并使用訓練得到的運動擴散模型對其進行優化,并在第三階段基于優化后的手部姿態序列,生成同時滿足上述兩個要求的高真實度人手-物交互視頻。
圖3:三階段視頻生成流程
TASTE-Rob的意義
TASTE-Rob數據集能帶來什么?
研究團隊探索了TASTE-Rob對視頻生成質量的幫助:對比了在TASTE-Rob數據集上微調(Coarse-TASTE-Rob)與在Ego4D數據集上微調(Ego4D-Gen)的視頻生成性能,兩者間唯一的區別在于所使用的訓練數據集不同。
如表2和圖4所示,TASTE-Rob數據集帶來了更優的生成質量。
表2:在Ego4D/TASTE-Rob上微調視頻生成模型的數值結果
圖4:在Ego4D/TASTE-Rob上微調視頻生成模型的可視化結果
三階段視頻生成流程能帶來什么?
研究團隊從三個評估維度上探索了三階段視頻生成流程對視頻生成質量的幫助:如表3的視頻生成指標和圖5所示,視頻生成的宏觀表現上,該流程能夠生成更高質量的手物交互視頻。
視頻生成的細節表現上,表3中的抓握姿態一致性指標和圖5的結果進一步驗證了,該流程有效解決了抓握姿態不穩定的問題,成功幫助機器人實現更準確的操作。
此外,在機器人的模仿學習效果上,如圖6和表3中的成功率指標所示,該流程有助于策略模型更準確地完成任務,顯著提升了任務成功率。
表3:使用/不使用三階段視頻生成流程的數值結果
圖5:使用/不使用三階段視頻生成流程在真實場景測試集的可視化結果
圖6:使用/不使用三階段視頻生成流程在機器人仿真平臺測試集的可視化結果
總的來說,TASTE-Rob將會為整個具身智能社區帶來很多諸多可能性與挑戰,更多數據集與實驗細節請參閱原論文。