成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模仿學習新范式,Chain-of-Action:軌跡自回歸實現動作推理

人工智能 新聞
Chain-of-Action 提出了一種新穎的模仿學習范式,其核心是軌跡自回歸建模。

圖片

論文標題:Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation

主頁鏈接:https://chain-of-action.github.io/

文章鏈接:https://arxiv.org/pdf/2506.09990

代碼鏈接:https://github.com/ByteDance-Seed/Chain-of-Action

模仿學習的困境

具身智能(Embodied AI)作為人工智能領域的前沿方向,旨在賦予機器人或智能體在物理世界中感知、決策和行動的能力。近年來,盡管視覺 - 語言 - 動作模型(Vision Language Action, VLA)已經取得了諸多進展,但具身智能領域尚未迎來 「GPT 時刻」。越來越多的研究人員開始相信,僅僅增加模型規模和數據量似乎不足以創造出通用操作模型,如果我們想要充分釋放現有數據的潛力,就需要找到更有效的機器人操作建模方法。

來自字節跳動 Seed & 阿德萊德大學的研究者追根溯源,對模仿學習的基本范式進行了反思,發現現有建模思路或許存在缺陷:經典方法如 ACT、Diffusion Policy(DP)都遵循 「前向預測」(forward-prediction)范式。而然這種方式不可避免地存在較大的復合誤差(compounding error)。

在該范式下,策略通常被優化為基于當前觀察預測短期的下一步動作,而非確保最終能夠成功完成整個任務。雖然引入了動作分塊(action chunking)等策略來緩解復合誤差,但無法解決其固有的 「短視性」問題。

基于該局限,研究者提出了 「動作鏈」(Chain-of-Action, CoA)—— 一種基于軌跡自回歸的機器人操作策略。與經典范式區分,CoA 并不直接由觀察映射到執行動作,而是由從最終位置反向自回歸的生成軌跡點,推理出可執行的動作。研究團隊初步發現,僅僅通過修改建模方式,CoA 在與 ACT 保持相同的基本結構下,空間泛化能力顯著提升。這種建模方式為具身操作策略的建模提供了新的思路。

動作鏈:基于軌跡自回歸建模的

機器人操作策略

核心思想:受到思維鏈(Chain-of-Thought)的啟發,CoA 并不直接由觀察映射到執行動作,而是在動作層面進行迭代式的推理。具體來說,CoA 逆向的生成針對目標任務的完整軌跡,這個生成過程統一在一個自回歸網絡下。自回歸過程從 「關鍵幀動作」(keyframe action)開始,迭代地生成一連串完整的動作軌跡,直至當前的機器人夾爪的位置。

全局到局部一致性:這種 「從后往前」 的生成方式,為整個動作序列提供了的 「全局 - 局部」(global-to-local)結構性約束。因為每個后續生成的動作都以代表最終目標的 「關鍵幀」 為條件,所以最后執行的動作將會被最終目標所 「錨定」,空間泛化能力顯著得到增強。

統一的自回歸框架:CoA 將關鍵幀的識別和軌跡的生成統一在單一的自回歸模型中,實現了端到端的訓練和高效的閉環執行,并保持了可擴展(scalable)的潛力。

圖片

關鍵設計

為了實現軌跡自回歸的想法,CoA 引入了四個關鍵設計:

連續動作表征(Continuous Action Representation):離散化的動作表征會引入量化誤差,為保證軌跡的精細度,CoA 采用了連續的動作表征并引入了 「潛在一致性損失」(Latent consistency loss)。

動態停止機制(Dynamic Stopping):在連續動作空間中,沒有傳統的中止符(EOS token)來指示序列的結束。因此,CoA 設計了一種基于距離的動態停止機制,實現可變長度(variable length)的軌跡預測。

反向時間集成(Reverse Temporal Ensemble):傳統的時序集成策略基于前向時間假設,不適用于 CoA 的反向生成模式。CoA 通過反向時序集成,進一步提高預測的穩定性。

多詞元預測(Multi-token Prediction, MTP):動作局部依賴關系的建模可作為 「全局 - 局部」 一致性的補充。此設計僅在訓練階段作為正則化手段使用,在推理時移除,保證了效率。

圖片

圖片

圖片

實驗驗證

模擬環境測試

大幅超越基線:在涵蓋 60 個任務的 RLBench 大規模擬基準測試中,CoA 的平均成功率達到了 55.2%,顯著優于 ACT(38.9%)和 DP(32.6%)。相較于 ACT,CoA 在 81.7% 的任務中取得了更高的成功率,平均提升了 16.3%。相較于 DP,CoA 在 80.0% 的任務上表現更優,平均提升為 23.2%。

圖片

相關性分析:所有方法的成功率都隨著物體空間分布方差的增大而下降,但 CoA 的下降趨勢更為平緩,且其性能優勢在高方差(更困難)的任務中更為明顯。

圖片

空間泛化能力分析:研究者對泛化性進行了更細致的觀察。以按按鈕任務為案例,分別測試了 「內插」(in-distribution)和 「外推」(out-of-distribution)情況下各個模型的表現,結果顯示,CoA 在外推場景下成功率約為內插情況下的一半,但對于 ACT 和 DP,外推任務幾乎不能完成,這一定程度揭示了兩種建模范式在空間泛化表現上的根本差異。

圖片

真實世界實驗

研究者在一臺 Fetch 機器人上,圍繞 8 項廚房任務進行了部署和測試。觀察來自單個 RGB 攝像頭,策略以 10Hz 的頻率運行,每個任務測試 10 次。實驗結果顯示 CoA 取得了 61.3% 的平均成功率,ACT 成功率為 46.3%,DP 的成功率 36.3%。這驗證了 CoA 建模范式在真實世界中的可用性。

圖片

結論與展望

Chain-of-Action 提出了一種新穎的模仿學習范式,其核心是軌跡自回歸建模。通過從一個代表任務目標的 「關鍵幀」開始,逆向生成動作序列,該方法為軌跡施加了一個強大的 「全局 - 局部」 結構約束,從而有效解決累計誤差問題,提升機器人操作泛化性。全面的實驗結果證明,在沒有更多數據和增大模型規模的情況下,其在空間泛化能力相比傳統范式取得顯著提升。這說明一個合理的建模范式可以有效的釋放現有數據的潛力。CoA 有望為未來一代的 VLA 模型提供新的建模思路。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-09 09:32:35

2022-11-03 14:13:52

強化學習方法

2025-06-13 08:45:00

數據模型可視化

2025-05-29 03:00:00

混合推理模型LHRMAI

2020-04-15 16:44:38

谷歌強化學習算法

2011-08-11 18:00:18

Cocos2d動作Action

2025-06-26 09:06:59

2025-07-14 08:42:00

開發模型圖像生成

2019-03-08 09:28:42

Google 開源技術

2025-04-08 09:16:00

推理模型AI

2025-06-27 10:10:43

AI模型技術

2024-09-18 10:37:00

強化學習AI模型

2025-05-30 02:00:00

獎勵模型RRMAI

2023-02-08 15:32:56

新模塊操作系統

2011-07-05 17:45:07

PHP框架

2023-03-15 16:16:07

鴻蒙Server端

2025-05-21 13:52:39

LLM模型

2023-12-06 13:39:00

模型訓練

2025-07-04 09:07:00

2022-11-28 14:00:24

人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产在线精品一区二区三区 | 亚洲人的av| 91视频88av | 久久久精品| 国产欧美日韩在线一区 | 国产高清区 | www免费视频 | 成人国产精品 | 一区二区视频在线 | 久久精品综合网 | 中文字幕亚洲一区 | 精品国产99 | 精品久久国产视频 | 国产精品久久777777 | 91免费视频观看 | 亚洲第一在线视频 | 亚洲综合首页 | 91网站在线看 | 综合色婷婷 | 91视视频在线观看入口直接观看 | 中国美女撒尿txxxxx视频 | a在线观看 | www亚洲精品 | 操皮视频 | 日本在线网址 | 欧美日韩在线观看一区二区三区 | 色网站在线 | 亚洲欧美一区二区三区在线 | 婷婷久久五月天 | 午夜影院在线观看视频 | 日本淫视频| 免费看欧美一级片 | 国产高清一区二区三区 | 日韩欧美一级 | 国产精品视频免费播放 | 亚洲欧美国产精品久久 | 91色视频在线 | 日韩在线播放第一页 | 亚洲午夜在线 | 岛国精品 | 国产精品久久久久久一级毛片 |