「灌籃高手」模擬人形機(jī)器人,一比一照搬人類籃球招式,看一遍就能學(xué)會(huì),無(wú)需特定任務(wù)的獎(jiǎng)勵(lì)
投籃、運(yùn)球、手指轉(zhuǎn)球…這個(gè)物理模擬人形機(jī)器人會(huì)打球:
圖片
會(huì)的招數(shù)還不少:
圖片
一通秀技下來,原來都是跟人學(xué)的,每個(gè)動(dòng)作細(xì)節(jié)都精確復(fù)制:
圖片
這就是最近一項(xiàng)名為PhysHOI的新研究,能夠讓物理模擬的人形機(jī)器人通過觀看人與物體交互(HOI)的演示,學(xué)習(xí)并模仿這些動(dòng)作和技巧。
重點(diǎn)是,PhysHOI無(wú)需為每個(gè)特定任務(wù)設(shè)定具體的獎(jiǎng)勵(lì)機(jī)制,機(jī)器人可以自主學(xué)習(xí)和適應(yīng)。
而且機(jī)器人的身上總共有51x3個(gè)獨(dú)立控制點(diǎn),所以模仿起來能做到高度逼真。
圖片
一起來看具體是如何實(shí)現(xiàn)的。
模擬人形機(jī)器人變身「灌籃高手」
這項(xiàng)工作由來自北京大學(xué)、IDEA研究院、清華大學(xué)、卡內(nèi)基梅隆大學(xué)的研究人員共同提出。
圖片
經(jīng)研究人員介紹,此前大多數(shù)類似工作,存在模仿動(dòng)作孤立、需特定任務(wù)的獎(jiǎng)勵(lì)、未涉及靈巧的全身運(yùn)動(dòng)等局限。
圖片
而他們提出的PhysHOI,應(yīng)用動(dòng)作捕捉技術(shù)提取HOI數(shù)據(jù),然后使用模仿學(xué)習(xí)來學(xué)習(xí)人體運(yùn)動(dòng)和物體控制,解決了這些問題。
其中,HOI數(shù)據(jù)重要組成部分之一是涵蓋了人體運(yùn)動(dòng)、物體運(yùn)動(dòng)、相對(duì)運(yùn)動(dòng)的運(yùn)動(dòng)學(xué)數(shù)據(jù)(Kinematic Data),記錄了位置、速度、角度等信息。
另外,動(dòng)態(tài)數(shù)據(jù)(Dynamic Data)反映了運(yùn)動(dòng)過程中的實(shí)時(shí)變動(dòng)和更新,也很重要。
圖片
為了彌補(bǔ)HOI數(shù)據(jù)中動(dòng)態(tài)信息的不足,研究人員引入了接觸圖(contact graph,CG)。
圖片
CG的節(jié)點(diǎn)由機(jī)器人的肢體部件和物體組成;每條邊則是一個(gè)二進(jìn)制接觸標(biāo)簽,只表達(dá)“接觸”或“不接觸”兩種狀態(tài)。
此外,還可以將多個(gè)肢體部件放到一個(gè)節(jié)點(diǎn)中,形成一個(gè)聚合CG(Aggregated CG)。
具體來說,PhysHOI方法是:
首先通過運(yùn)動(dòng)捕捉獲取參考HOI狀態(tài)序列,包含人體運(yùn)動(dòng)、物體運(yùn)動(dòng)、交互圖和接觸圖。
圖片
然后用第一幀的信息初始化物理模擬環(huán)境,構(gòu)建包含當(dāng)前模擬狀態(tài)和下一個(gè)參考狀態(tài)的系統(tǒng)狀態(tài)。
接下來輸入策略網(wǎng)絡(luò)生成的動(dòng)作控制人形機(jī)器人,物理模擬器根據(jù)動(dòng)作更新場(chǎng)景中人體和物體的狀態(tài),計(jì)算包含運(yùn)動(dòng)匹配、接觸圖等多個(gè)方面的獎(jiǎng)勵(lì)。
利用獎(jiǎng)勵(lì)、狀態(tài)和動(dòng)作樣本優(yōu)化策略網(wǎng)絡(luò),采用更新后的策略網(wǎng)絡(luò)開始新一輪的模擬過程,如此循環(huán)直至網(wǎng)絡(luò)收斂,最終獲得能夠重現(xiàn)參考HOI技能的控制策略。
值得一提的是,研究人員在這當(dāng)中設(shè)計(jì)了一個(gè)與任務(wù)無(wú)關(guān)的HOI模仿獎(jiǎng)勵(lì),無(wú)需針對(duì)不同任務(wù)自定義獎(jiǎng)勵(lì)函數(shù),包括體現(xiàn)運(yùn)動(dòng)匹配度的身體和物體獎(jiǎng)勵(lì)、反映接觸正確性的接觸圖獎(jiǎng)勵(lì),避免了使用錯(cuò)誤身體部位接觸物體等局部最優(yōu)解。
接觸圖獎(jiǎng)勵(lì)是關(guān)鍵
研究人員在兩個(gè)HOI數(shù)據(jù)集上測(cè)試了PhysHOI。
其中引入了BallPlay數(shù)據(jù)集,包含多種全身籃球技能。
圖片
他們?cè)贕RAB數(shù)據(jù)集的S8子集中選擇了5個(gè)抓取案例,以及BallPlay數(shù)據(jù)集的8個(gè)籃球技能。
以此前的DeepMimic、AMP等方法作為基線,為公平比較,研究人員將其做了修改,以適應(yīng)HOI模仿任務(wù)。
圖片
結(jié)果顯示,以往只使用運(yùn)動(dòng)學(xué)獎(jiǎng)勵(lì)的方法無(wú)法準(zhǔn)確復(fù)現(xiàn)交互,球會(huì)掉落或抓握失敗。
而在接觸圖的指導(dǎo)下,PhysHOI成功進(jìn)行了HOI模仿。
PhysHOI在兩個(gè)數(shù)據(jù)集上都獲得最高的成功率,分別為95.4%和82.4%,同時(shí)也取得最低的運(yùn)動(dòng)誤差,顯著優(yōu)于其它方法。
圖片
消融研究表明,接觸圖獎(jiǎng)勵(lì)能有效避免只使用運(yùn)動(dòng)信息的方法陷入局部最優(yōu),指導(dǎo)機(jī)器人實(shí)現(xiàn)正確接觸。
圖片
如果沒有接觸圖獎(jiǎng)勵(lì),人形機(jī)器人可能無(wú)法控制球,或者錯(cuò)誤地使用身體其它部位控制球:
圖片
論文鏈接:https://arxiv.org/abs/2312.04393