10%訓(xùn)練數(shù)據(jù)超越100%表現(xiàn)，機(jī)器人學(xué)習(xí)領(lǐng)域迎來重要突破

2025-06-11 14:45:26

ViSA-Flow 為機(jī)器人學(xué)習(xí)領(lǐng)域帶來了重要突破，證明了從大規(guī)模人類視頻中提取語義表示進(jìn)行機(jī)器人技能學(xué)習(xí)的可行性。該方法不僅在理論上具有創(chuàng)新性，在實(shí)際應(yīng)用中也展現(xiàn)出強(qiáng)大的性能優(yōu)勢。

第一作者陳昌和是美國密歇根大學(xué)的研究生，師從 Nima Fazeli 教授，研究方向包括基礎(chǔ)模型、機(jī)器人學(xué)習(xí)與具身人工智能，專注于機(jī)器人操控、物理交互與控制優(yōu)化。

第二作者徐曉豪是美國密歇根大學(xué)機(jī)器人學(xué)院博士生，研究涵蓋3D 感知、視覺語言模型驅(qū)動(dòng)的多模態(tài)異常檢測及魯棒三維重建。

共同第一作者 Quantao Yang 是瑞典皇家理工學(xué)院博士后，師從 Olov Andersson 教授，研究聚焦于利用視覺語言模型與大型語言模型提升自主系統(tǒng)在動(dòng)態(tài)環(huán)境中的感知與導(dǎo)航能力。

密歇根大學(xué)和瑞典皇家理工學(xué)院的研究團(tuán)隊(duì)提出了 ViSA-Flow 框架，這是一種革命性的機(jī)器人技能學(xué)習(xí)方法，能夠從大規(guī)模人類視頻中提取語義動(dòng)作流，顯著提升機(jī)器人在數(shù)據(jù)稀缺情況下的學(xué)習(xí)效率。該方法在 CALVIN 基準(zhǔn)測試中表現(xiàn)卓越，僅使用 10% 的訓(xùn)練數(shù)據(jù)就超越了使用 100% 數(shù)據(jù)的現(xiàn)有最佳方法。

作者： Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson
機(jī)構(gòu)：密歇根大學(xué)、瑞典皇家理工學(xué)院
網(wǎng)頁： https://visaflow-web.github.io/ViSAFLOW
論文鏈接：https://arxiv.org/abs/2505.01288
代碼開源：即將發(fā)布

研究背景與挑戰(zhàn)

機(jī)器人模仿學(xué)習(xí)在使機(jī)器人獲得復(fù)雜操作技能方面取得了顯著成功，但傳統(tǒng)方法面臨一個(gè)根本性限制：需要大量精心策劃的機(jī)器人數(shù)據(jù)集，收集成本極其昂貴。這已成為開發(fā)能夠執(zhí)行多樣化現(xiàn)實(shí)世界任務(wù)的機(jī)器人的關(guān)鍵瓶頸。

相比之下，人類展現(xiàn)出通過觀察他人學(xué)習(xí)新技能的非凡能力。無論是面對面學(xué)習(xí)、觀看教學(xué)視頻還是體育轉(zhuǎn)播，人類本能地專注于語義相關(guān)的組件。例如，學(xué)習(xí)網(wǎng)球時(shí)，我們自然地關(guān)注球員的身體動(dòng)作、球拍處理技巧和球的軌跡，同時(shí)有效過濾無關(guān)的背景信息。

核心創(chuàng)新：語義動(dòng)作流表示

人類和機(jī)器人操作共享相似原子動(dòng)作

ViSA-Flow 框架的核心創(chuàng)新在于引入了語義動(dòng)作流（Semantic Action Flow）作為中間表示，捕捉操作器 - 物體交互的本質(zhì)時(shí)空特征，且不受表面視覺差異影響。該框架包含以下關(guān)鍵組件：

1. 語義實(shí)體定位

利用預(yù)訓(xùn)練的視覺語言模型（VLM）對操作器（如 "手"、"夾具"）和任務(wù)相關(guān)物體（如 "紅色方塊"）進(jìn)行文本描述定位，然后使用分割模型（如 SAM）生成初始分割掩碼。

2. 手 - 物體交互跟蹤

由于語義分割在連續(xù)幀間的不穩(wěn)定性，研究團(tuán)隊(duì)提出跟蹤正確分割的手 - 物體交互掩碼。通過在初始掩碼內(nèi)密集采樣點(diǎn)，使用點(diǎn)跟蹤器（如 CoTracker）估計(jì)這些點(diǎn)在序列中的 2D 圖像軌跡。

3. 流條件特征編碼

為產(chǎn)生最終的 ViSA-Flow 表示，研究團(tuán)隊(duì)將流信息編碼為豐富的特征向量，同時(shí)保留視覺上下文。使用跟蹤點(diǎn)軌跡生成空間局部化放大掩碼，通過放大因子調(diào)制感興趣區(qū)域內(nèi)的像素強(qiáng)度。

ViSA-Flow 架構(gòu)和策略學(xué)習(xí)框架圖

兩階段學(xué)習(xí)框架

第一階段：預(yù)訓(xùn)練 - 學(xué)習(xí) ViSA-Flow 動(dòng)態(tài)先驗(yàn)

使用大規(guī)模人類視頻數(shù)據(jù)集，預(yù)訓(xùn)練生成模型以建模 ViSA-Flow 空間內(nèi)的動(dòng)態(tài)。模型學(xué)習(xí)基于過去上下文和語言指令預(yù)測未來表示，目標(biāo)函數(shù)為：

L_pretrain (ψ) = E [||g_ψ(z≤t, l)[OBS] - z_{t+1:t+n}||2]

第二階段：微調(diào) - 策略適應(yīng)

使用少量機(jī)器人演示數(shù)據(jù)集微調(diào)模型，學(xué)習(xí)目標(biāo)策略。采用多任務(wù)目標(biāo)函數(shù)，結(jié)合動(dòng)作預(yù)測和持續(xù)動(dòng)態(tài)建模：

L_finetune (ψ) = E [L_act + λ_fwd*L_obs + λ_prog*L_prog]

實(shí)驗(yàn)評估

CALVIN 仿真實(shí)驗(yàn)

研究團(tuán)隊(duì)在 CALVIN 基準(zhǔn)測試上進(jìn)行了全面評估，使用 ABC→D 分割，在環(huán)境 A、B、C 上訓(xùn)練，在未見環(huán)境 D 上進(jìn)行零樣本評估。

預(yù)訓(xùn)練，微調(diào)以及評估所使用數(shù)據(jù)集

CALVIN ABC→D 基準(zhǔn)測試的對比評估結(jié)果

關(guān)鍵發(fā)現(xiàn)

1. 數(shù)據(jù)效率優(yōu)勢：ViSA-Flow 僅使用 10% 的注釋機(jī)器人軌跡（1,768 個(gè)），就超越了所有基線方法，包括使用 100% 數(shù)據(jù)的方法。

2. 連續(xù)任務(wù)性能：在 5 個(gè)連續(xù)任務(wù)完成方面，ViSA-Flow 達(dá)到 31.4% 的成功率，幾乎是使用 10% 數(shù)據(jù)的次佳方法 GR-MG（16.2%）的兩倍，甚至超過了使用 100% 數(shù)據(jù)訓(xùn)練的 SuSIE（26.0%）。

3. 平均序列長度：2.96 的平均序列長度進(jìn)一步證明了 ViSA-Flow 在處理長時(shí)程操作任務(wù)方面的有效性。

消融研究

評估 ViSA-Flow 關(guān)鍵組件貢獻(xiàn)的消融研究結(jié)果

消融研究結(jié)果表明：

移除語義實(shí)體定位顯著降低性能，5 任務(wù)序列成功率從 31.4% 降至 9.6%
省略時(shí)間跟蹤階段使平均成功長度從 2.96 降至 2.78
排除操作器定位導(dǎo)致適度性能下降

真機(jī)實(shí)驗(yàn)

研究團(tuán)隊(duì)在真實(shí)世界環(huán)境中評估了 ViSA-Flow 的性能，包括兩個(gè)單階段操作任務(wù)和一個(gè)長時(shí)程操作任務(wù)。

實(shí)驗(yàn)設(shè)置：

使用 7 自由度 Franka Emika Panda 機(jī)械臂
通過 Oculus 應(yīng)用程序進(jìn)行遙操作數(shù)據(jù)收集
雙攝像頭設(shè)置（眼內(nèi)、眼外）提供 RGB 觀察

真機(jī)實(shí)驗(yàn)設(shè)置

結(jié)果分析：

真實(shí)世界實(shí)驗(yàn)結(jié)果圖表

單階段任務(wù)：ViSA-Flow 在 MoveContainer 和 PickEggplant 任務(wù)上顯著優(yōu)于 GR-MG
長時(shí)程任務(wù)：ViSA-Flow 達(dá)到 56.3% 的整體成功率，而 GR-MG 和 DP 分別僅達(dá)到 8.3% 和 13.8%

定性分析

真實(shí)世界長時(shí)程任務(wù)的定性結(jié)果可視化

定性結(jié)果顯示，ViSA-Flow 的單步預(yù)測在整個(gè)長時(shí)程執(zhí)行過程中與真實(shí)流保持緊密對齊：

模型持續(xù)聚焦于機(jī)器人夾具和任務(wù)相關(guān)物體
空間支持隨場景轉(zhuǎn)換平滑連貫地演化
在兩個(gè)連續(xù)子任務(wù)中保持相同的準(zhǔn)確性水平

獎(jiǎng)勵(lì)差異水平的性能分析

為評估 LLM 在不同難度水平下選擇更優(yōu)設(shè)計(jì)的能力，研究團(tuán)隊(duì)采用了難度加權(quán)準(zhǔn)確率 (DWA) 指標(biāo)進(jìn)行分析。結(jié)果顯示，ViSA-Flow 在處理細(xì)微性能差異的任務(wù)時(shí)表現(xiàn)更穩(wěn)定，證明了語義動(dòng)作表示的有效性。

提示設(shè)計(jì)分析

研究還探索了不同組件對框架性能的影響：

1. 語義分割的重要性：準(zhǔn)確的語義實(shí)體識別是框架成功的關(guān)鍵

2. 時(shí)間跟蹤的必要性：一致的點(diǎn)對應(yīng)關(guān)系對保持時(shí)間動(dòng)態(tài)至關(guān)重要

3. 跨域泛化能力：語義表示有效緩解了視覺外觀差異的影響

技術(shù)優(yōu)勢與局限性

技術(shù)優(yōu)勢

1. 數(shù)據(jù)效率：僅需少量機(jī)器人演示數(shù)據(jù)即可達(dá)到優(yōu)異性能

2. 跨域泛化：有效利用人類視頻知識轉(zhuǎn)移到機(jī)器人執(zhí)行

3. 長時(shí)程穩(wěn)定性：在復(fù)雜序列任務(wù)中保持穩(wěn)定表現(xiàn)

4. 語義一致性：關(guān)注任務(wù)關(guān)鍵交互而非視覺外觀

當(dāng)前局限性