人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）

angel

發布于 2025-2-11 11:59

瀏覽

0收藏

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

論文鏈接：https://arxiv.org/pdf/2502.03206
項目鏈接：https://hugwbc.github.io/

亮點直擊

一個擴展的通用指令空間，結合高級訓練技術，以實現細粒度的人形機器人步態控制。
在單一策略下（除單腳跳步態外），可精準跟蹤四種不同步態下的八種不同指令。
一個基礎的人形機器人控制器，支持外部上半身干預，并能夠執行更廣泛的運動-操作一體化（loco-manipulation）任務。

總結速覽

解決的問題

當前的人形機器人行走系統單一、被動，缺乏可擴展性，難以實現如人類般的多樣化運動（如奔跑、跳躍、單腳跳等），也無法對步態參數（步頻、步幅、腳擺高度等）進行細粒度調整。此外，現有方法在執行運動任務時，缺乏對上半身控制的實時干預能力，限制了機器人在復雜任務中的適應性和靈活性。

提出的方案

提出 HUGWBC（Humanoid’s Unified and General Whole-Body Control），一個統一的全身控制策略，支持機器人生成細粒度可控的多種步態，包括行走、奔跑、跳躍、單腳跳等，并可調整步態參數（步頻、腳擺高度）和姿態參數（身體高度、腰部旋轉、身體俯仰）。此外，HUGWBC 允許上半身接受外部控制（如遙操作），實現運動-操作一體化（loco-manipulation）。

應用的技術

通用指令空間設計：在任務和行為層面定義統一的控制指令，使步態調整靈活且易擴展。
對稱性損失（Symmetrical Loss）：在學習過程中引入對稱性約束，提升步態穩定性和可控性。
干預訓練（Intervention Training）：在訓練中模擬外部干預，增強機器人在實時控制下的魯棒性和適應性。
強化學習訓練：在仿真環境中通過強化學習優化單一策略，使機器人能夠直接適應現實環境，減少現實訓練成本。

達到的效果

機器人可在單一控制策略下執行多種步態（行走、奔跑、跳躍、單腳跳等）。
支持步態參數和姿態參數的實時調整，實現細粒度控制。
允許上半身遙操作，在運動過程中保持高精度操作能力。
經過實驗驗證，HUGWBC 在跟蹤精度、穩定性、魯棒性方面均表現優異，并深入分析了不同指令組合對步態的影響，為優化機器人運動控制提供了新思路。

HUGWBC

人形機器人運動的一般指令空間

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

HUGWBC 通過訓練單一策略來適配站立、行走和跳躍步態，而單腳跳躍步態則采用了獨立的策略。

詳細觀察

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

如果沒有外部上半身控制信號，機器人上半身關節將默認由我們開發的全身控制器控制，使手臂自然擺動。

策略學習的獎勵設計

具身全身控制器是通過非對稱的行為者-評論家訓練范式通過強化學習 (RL) 獲得的。為了學習具有一般性和多樣性行為的政策，我們設計了一組獎勵函數，主要由任務獎勵、行為獎勵和規范化獎勵三部分組成。獎勵的細節在表1中總結。

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

任務獎勵意味著跟蹤任何任務命令 k，在這項工作中，它是目標速度 v，包括線性和角速度。正規化獎勵考慮到物理硬件的性能，并對運動的平穩性和安全性施加限制。這些在以前的工作中經常使用 [39]。

在這項工作中，由于我們想建立一個通用的全身控制器，以支持細粒度的運動行為的人形機器人，引入了一套行為獎勵，以鼓勵機器人跟蹤任何行為命令 b，如下所示。對于大多數行為指令，包括身高 h、身高 p 和腰圍旋轉 w，簡單地用均方差 (MSE) 來制定獎勵：

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

一個理想的足部軌跡通常需要滿足三個關鍵標準：

在支撐階段，足部速度和加速度為零；
在擺動階段末尾，足部速度和加速度為零；
在兩個階段之間的過渡過程中，足部的速度和加速度要連續。

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

鏡像功能與對稱損失

自然且對稱的運動行為是人類通過學習逐漸掌握的，因為它在最小化能量消耗方面具有固有的優雅和效率。類人機器人具有高度仿生的機制，也具有對稱的結構特征。然而，缺乏先驗知識，使得政策難以探索對稱形態信息，尤其是在生成多樣化行為的策略中。這使得初期探索變得更加困難，政策容易陷入局部最優解，導致不自然的運動。為了利用這種形態對稱性并受到[49]的啟發，提出了鏡像函數F(.) ，以鼓勵政策生成對稱且自然的運動。在這樣的對稱結構下，理想情況下，政策輸出應滿足：

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

整體訓練目標。HUGWBC 采用非對稱演員-評論家框架，以 PPO 作為 RL 算法來訓練全身控制策略。因此，總體訓練目標可以寫作：

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

外部上肢干預訓練

到目前為止，已經學習了一個全身控制器，它共同控制上下肢。然而，本工作的目標不是專門為 locomotion 任務設計的控制器，而是構建一個統一且通用的人形控制器，作為 loco-manipulation 任務的基礎支持。換句話說，控制器還應支持靈活且精確的上肢（手臂和手）控制。與一些以前的工作通過上肢命令（例如，手臂關節位置）擴展命令空間不同，考慮將上肢控制解耦為外部控制干預，通過遠程操作信號或重新定向的運動關節，同時不影響下肢步態，因為下肢具有很高的控制精度。解決方案是在訓練過程中采樣替代動作來替換全身策略產生的上肢動作，使得策略對任何干預都具有魯棒性。

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

獎勵掩蔽
當干預介入時，在訓練過程中掩蔽上肢的正則化獎勵，以消除策略輸出試圖接管上肢的潛在沖突。

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

課程學習

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

實驗

本節在仿真和現實世界的機器人上進行全面實驗，以回答以下問題：

Q1（仿真）：HUGWBC策略在不同命令下的跟蹤表現如何？
Q2（仿真）：如何合理地結合一般命令空間中的各種命令？
Q3（仿真）：大規模噪聲干預訓練如何幫助策略的魯棒性？
Q4（現實）：HUGWBC在現實世界中的表現如何？

機器人與仿真器
本文的主要實驗是在Unitree H1機器人上進行的，該機器人共有19個自由度（DOF），包括兩個3自由度的肩關節、兩個肘關節、一個腰關節、兩個3自由度的髖關節、兩個膝關節和兩個踝關節。仿真訓練基于NVIDIA IsaacGym仿真器。

命令分析原理與度量
本文的一大貢獻是擴展并普及了人形機器人通用的命令空間。重點關注命令分析（涉及Q1和Q2）。這包括單一命令跟蹤誤差的分析，以及在不同步態下不同命令的組合分析。為了進行分析，我們評估了平均的單集命令跟蹤誤差（記作Ecmd），該誤差衡量實際機器人狀態與命令空間之間的偏差，使用一階范數。所有命令都在預定義的命令范圍內均勻采樣，如下表II所示。

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

單一命令跟蹤

首先分析每個命令單獨的跟蹤效果，同時保持其他命令的默認值。結果見下表III。可以明顯看到，行走和站立的跟蹤誤差顯著低于跳躍和跳躍的誤差，且跳躍的誤差最大。對于跳躍步態，機器人可能在跟蹤特定命令時發生跌倒，比如高速跟蹤、身體俯仰和腰部偏航控制。這可以歸因于跳躍需要較高的穩定性。此外，復雜的姿勢和運動進一步加劇了不穩定的風險。因此，策略優先學習保持平衡，在一定程度上犧牲了命令跟蹤的準確性。

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

命令組合分析

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

跳躍
跳躍步態引入了更多的不穩定性，機器人的控制系統必須更加關注保持平衡，這使得同時處理復雜的多維命令變得困難。

站立
在站立步態中，我們測試了與姿勢相關的命令跟蹤誤差。結果表明，這些跟蹤誤差與行走過程中零速度的跟蹤誤差類似。

腰部偏航w命令幾乎與其他兩個命令正交。
隨著命令范圍的增加，身體高度h與身體俯仰p之間的正交性減少。這是因為H1機器人在腰部只有一個自由度，限制了姿勢調整的范圍，僅能通過髖部俯仰關節進行。
相對于默認高度，身體高度0.3米的下降幾乎將髖部俯仰關節的運動范圍減少到零，阻礙了精確的身體俯仰跟蹤。

得出結論，步態頻率f在過高或過低時會顯著影響運動命令的跟蹤準確性；姿勢命令尤其在接近范圍極限時，可以顯著影響其他命令的跟蹤誤差。對于不同步態，命令之間的正交性范圍在行走步態中最大，而在跳躍步態中最小。

干預訓練策略的消融研究

為了驗證干預訓練策略在外部上半身干預下對策略魯棒性的有效性，我們比較了使用不同策略訓練的策略，包括噪聲課程（HUGWBC）、過濾后的AMASS數據和無干預的策略。測試了在兩種不同干預任務下的跟蹤誤差，即均勻噪聲、AAMAS數據集，以及無干預設置。行走步態下的結果顯示在表IV中，其他步態的結果見附錄C-B。顯然，HUGWBC的噪聲課程策略在幾乎所有測試案例下都表現最佳，除了在無干預情況下與姿勢相關的跟蹤。在具體分析中，HUGWBC在各種干預下的跟蹤準確性下降較少，表明我們的噪聲課程干預策略使控制策略能夠應對大范圍的手臂運動，非常適用于和支持運動操作任務。相比之下，使用AMASS數據訓練的策略在均勻噪聲干預下，因訓練數據中運動的局限性，跟蹤準確性顯著下降。而沒有任何干預的策略僅在沒有外部上半身控制時表現良好。

值得注意的是，當涉及干預訓練時，與腳部和運動相關的跟蹤誤差也比沒有干預訓練的策略更好，而HUGWBC提供了最準確的跟蹤。這表明干預訓練也有助于提高策略的魯棒性。在我們的真實機器人實驗中，我們進一步觀察到，當機器人與地面接觸時，它表現出更大的接觸力，這表明當涉及干預時，運動規則化和跟蹤準確性之間可能存在一定的權衡。

站立步態下的穩定性
在站立狀態下調整姿勢引入了額外的穩定性要求，因為機器人保持平衡的步態可能會增加完成需要靜止站立的操作任務的難度。為了研究噪聲課程對操作任務的必要性，我們進一步測量了在站立步態下的平均腳部位移（以米為單位），該值計算了機器人在一次循環（20秒）中雙腳的總運動量，同時跟蹤姿勢行為命令。表V中的結果顯示，HUGWBC展現了最小的腳部位移。相比之下，使用AMASS數據訓練的策略則需要頻繁的小步調整姿勢并維持穩定，以應對噪聲干預。沒有干預訓練的策略在涉及干預時，機器人容易傾斜，導致整個任務失敗。

外部干擾的魯棒性
最后，測試了干預訓練和噪聲課程對外部干擾魯棒性的貢獻。特別是，我們評估了機器人在八個方向上的最大容忍外部干擾力，并與未經過干預訓練的策略進行了比較。圖6中的結果表明，HUGWBC在大多數方向上的推擠和加載場景中，都表現出了更強的外部干擾容忍力。這背后的原因是干預使得機器人暴露于來自上半身的各種干擾，從而通過動態調整腿部力量來增強整體穩定性。

真實世界實驗

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）-AI.x社區

結論與局限性

本文提出了一種統一且通用的人形全身控制器HUGWBC。通過擴展命令空間和干預訓練，HUGWBC能夠實現精細的步態控制，同時支持外部上半身控制，這使其成為廣泛的運動操作任務的基礎控制器。未來的工作可以采用HUGWBC來控制各種人形機器人，或將HUGWBC訓練出的策略作為統一的低級控制器，構建一個高級規劃器來實現復雜任務。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/J2pyZ-tPQ-45frS9NJOubg??

標簽

機器人

訓練

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

人形機器人全能運動革命：HUGWBC實現多模態步態精細調控與實時操控（上交&上海AI lab）

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

HUGWBC

人形機器人運動的一般指令空間

詳細觀察

策略學習的獎勵設計

鏡像功能與對稱損失

外部上肢干預訓練

課程學習

實驗

單一命令跟蹤

命令組合分析

干預訓練策略的消融研究

真實世界實驗

結論與局限性

目錄