大模型走向物理世界，TeleAI 發(fā)布大模型驅(qū)動(dòng)的具身智能綜述，覆蓋300篇文獻(xiàn)

作者：機(jī)器之心 2024-09-05 13:11:49

具身智能是人工智能、機(jī)器人學(xué)、認(rèn)知科學(xué)的交叉領(lǐng)域，主要研究如何使機(jī)器人具備類(lèi)似人類(lèi)的感知、規(guī)劃、決策和行為能力。

近年來(lái)，大模型在人工智能領(lǐng)域掀起了一場(chǎng)革命，各種文本、圖像、多模態(tài)大模型層出不窮，已經(jīng)深深地改變了人們的工作和生活方式。另一方面，在國(guó)際半導(dǎo)體大會(huì)上，英偉達(dá)創(chuàng)始人黃仁勛表示，人工智能下一個(gè)浪潮將是 “具身智能”，即能理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。近年來(lái)，國(guó)內(nèi)外商業(yè)巨頭也紛紛推出自己的具身機(jī)器人發(fā)展計(jì)劃。大模型和具身智能，無(wú)疑是當(dāng)前人工智能領(lǐng)域最閃耀的雙子星。在光電感知技術(shù)、機(jī)器人技術(shù)、大模型技術(shù)的快速發(fā)展下，大模型驅(qū)動(dòng)的具身智能，不僅有望極大提升機(jī)器人的智能水平，更將推動(dòng)人工智能技術(shù)邁向物理世界，從而產(chǎn)生更加廣泛的應(yīng)用。

在此背景下，中國(guó)電信 CTO、首席科學(xué)家李學(xué)龍教授牽頭組建中國(guó)電信人工智能研究院 (TeleAI), 并將大模型和具身智能作為重要的研究方向。近期，由 TeleAI 研究科學(xué)家白辰甲、清華大學(xué)助理教授許華哲、TeleAI 院長(zhǎng)李學(xué)龍教授共同撰寫(xiě)的中文綜述《大模型驅(qū)動(dòng)的具身智能：發(fā)展與挑戰(zhàn)》一文在《中國(guó)科學(xué)：信息科學(xué)》發(fā)表，綜述通過(guò)對(duì) 300 篇相關(guān)文獻(xiàn)的分類(lèi)和解讀，深度剖析大模型驅(qū)動(dòng)的具身智能的基本概念、技術(shù)框架、現(xiàn)有挑戰(zhàn)和未來(lái)展望，梳理這一熱點(diǎn)問(wèn)題背后的研究脈絡(luò)和技術(shù)體系，進(jìn)一步推動(dòng)具身智能領(lǐng)域的發(fā)展，助力國(guó)家人工智能發(fā)展戰(zhàn)略。

論文地址：https://www.sciengine.com/SSI/doi/10.1360/SSI-2024-0076

具身智能是人工智能、機(jī)器人學(xué)、認(rèn)知科學(xué)的交叉領(lǐng)域，主要研究如何使機(jī)器人具備類(lèi)似人類(lèi)的感知、規(guī)劃、決策和行為能力。具身智能強(qiáng)調(diào)感知 - 運(yùn)動(dòng)回路，使用物理實(shí)體來(lái)感知環(huán)境，根據(jù)任務(wù)目標(biāo)進(jìn)行規(guī)劃和決策，使用運(yùn)動(dòng)操作能力來(lái)完成任務(wù)。大模型具有對(duì)物理世界的豐富知識(shí)，能夠?yàn)橹悄荏w提供自然語(yǔ)言交互、環(huán)境感知和任務(wù)規(guī)劃的能力，同時(shí)能夠和具身智能的傳統(tǒng)框架相結(jié)合，提升智能體策略學(xué)習(xí)的泛化性。圖 1 展示了該領(lǐng)域的典型進(jìn)展。

圖 1 領(lǐng)域典型進(jìn)展

綜述首先介紹相關(guān)技術(shù)背景，包括具身智能的基本概念，大模型相關(guān)技術(shù)，以及強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、模型預(yù)測(cè)控制等策略學(xué)習(xí)框架。隨后，從學(xué)習(xí)范式的角度將大模型驅(qū)動(dòng)的具身智能算法概括了五大類(lèi)并依次進(jìn)行了詳細(xì)闡述，分別是大模型驅(qū)動(dòng)的環(huán)境感知、大模型驅(qū)動(dòng)的任務(wù)規(guī)劃、大模型驅(qū)動(dòng)的基礎(chǔ)策略、大模型驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù)、大模型驅(qū)動(dòng)的數(shù)據(jù)生成。圖 2 展示了綜述的整體框架。

圖 2 綜述整體框架

大模型驅(qū)動(dòng)的具身環(huán)境感知

在具身智能任務(wù)中，智能光電設(shè)備可以為具身智能體提供周?chē)h(huán)境的視覺(jué)信號(hào)，隨后大模型感知技術(shù)為具身決策提供基礎(chǔ)。1）相比于傳統(tǒng)的特征提取方法，視覺(jué)大模型具有較好的泛化性，許多研究通過(guò)引入視覺(jué)預(yù)訓(xùn)練模型來(lái)提高策略的視覺(jué)泛化能力和魯棒性。2）機(jī)器人 Affordance 是一種對(duì)操作任務(wù)更具有解釋性的通用特性，通過(guò)預(yù)訓(xùn)練 Affordance 模型能夠?yàn)榫呱聿僮魈峁└敿?xì)的指導(dǎo)，例如物體的交互位置 (如門(mén)把手，茶壺手柄等)，物體的交互軌跡 (如向內(nèi)推、向上提等)，如圖 3 所示。3）復(fù)雜任務(wù)需要獲取操作物體的 3D 場(chǎng)景特征，許多方法設(shè)計(jì)從點(diǎn)云和多視角圖像中提取目標(biāo)位置、方向、遮擋、物體之間的堆疊關(guān)系等。該領(lǐng)域典型方法如表 1 所示。

圖 3 典型的 Affordance 提取方式

表 1 大模型驅(qū)動(dòng)的具身感知算法總結(jié)

大模型驅(qū)動(dòng)的具身任務(wù)規(guī)劃

在大規(guī)模語(yǔ)言數(shù)據(jù)中訓(xùn)練得到的大模型對(duì)現(xiàn)實(shí)世界有著豐富的先驗(yàn)知識(shí)，可以用來(lái)作為具身智能任務(wù)的規(guī)劃器。然而，大模型的知識(shí)與具身環(huán)境存在不匹配的現(xiàn)象，可能會(huì)導(dǎo)致大模型的規(guī)劃無(wú)法執(zhí)行。1）現(xiàn)有研究通過(guò)構(gòu)建閉環(huán)反饋的方法來(lái)解決開(kāi)環(huán)規(guī)劃中存在的問(wèn)題，包括大模型自我反饋、外部環(huán)境反饋、強(qiáng)化學(xué)習(xí)反饋等，對(duì)大模型等規(guī)劃進(jìn)行糾錯(cuò)，如圖 4 所示。2）通過(guò)規(guī)劃搜索算法能夠提升大模型在長(zhǎng)周期任務(wù)規(guī)劃中的最優(yōu)性，這一領(lǐng)域包含蒙特卡洛樹(shù)搜索、世界模型、規(guī)劃領(lǐng)域定義語(yǔ)言搜索等。該領(lǐng)域典型方法如表 2 所示。

圖 4 大模型規(guī)劃等閉環(huán)反饋方法

表 2 大模型驅(qū)動(dòng)的具身規(guī)劃算法總結(jié)

大模型驅(qū)動(dòng)的具身基礎(chǔ)策略

大模型任務(wù)規(guī)劃依賴于能夠執(zhí)行規(guī)劃對(duì)底層技能庫(kù)。為了減輕底層技能庫(kù)定義的依賴，提升決策效率，1）許多研究考慮將大模型參數(shù)作為具身基礎(chǔ)策略，并利用具身數(shù)據(jù)對(duì)大模型參數(shù)進(jìn)行微調(diào)，使大模型能夠更加適應(yīng)于具身決策場(chǎng)景。基礎(chǔ)策略可以輸出更具體的任務(wù)規(guī)劃，也可以直接輸出機(jī)器人需要執(zhí)行的動(dòng)作，如圖 5 所示。2）擴(kuò)散模型由于對(duì)長(zhǎng)序列數(shù)據(jù)建模中的強(qiáng)大能力，許多研究將其用于建模專(zhuān)家軌跡的多樣化數(shù)據(jù)分布，從而用于長(zhǎng)序列任務(wù)的軌跡規(guī)劃或動(dòng)作規(guī)劃，或作為具身策略結(jié)合強(qiáng)化學(xué)習(xí)算法進(jìn)行策略優(yōu)化。

圖 5 大模型驅(qū)動(dòng)的具身策略微調(diào)

表 3 大模型具身基礎(chǔ)策略算法總結(jié)

大模型驅(qū)動(dòng)的具身獎(jiǎng)勵(lì)函數(shù)

在基于強(qiáng)化學(xué)習(xí)和模型規(guī)劃控制的具身算法中，最優(yōu)策略通過(guò)優(yōu)化獎(jiǎng)勵(lì)函數(shù)產(chǎn)生。傳統(tǒng)方法中獎(jiǎng)勵(lì)函數(shù)由機(jī)器人領(lǐng)域?qū)＜以O(shè)計(jì)，具有一定的設(shè)計(jì)難度。1）大模型對(duì)機(jī)器人和任務(wù)具有豐富的先驗(yàn)知識(shí)，許多研究提出使用大語(yǔ)言模型 / 視覺(jué)語(yǔ)言模型進(jìn)行獎(jiǎng)勵(lì)圖或獎(jiǎng)勵(lì)函數(shù)的生成，隨后通過(guò)策略優(yōu)化和環(huán)境反饋進(jìn)行優(yōu)化。2）其他研究學(xué)習(xí)通過(guò)從狀態(tài)視頻預(yù)測(cè)、描述 - 軌跡匹配程度、軌跡相似性等方面學(xué)習(xí)參數(shù)化的獎(jiǎng)勵(lì)模型。3）受大模型偏好學(xué)習(xí)等啟發(fā)，許多研究通過(guò)人類(lèi)反饋對(duì)軌跡偏好進(jìn)行打分，使用人類(lèi)反饋強(qiáng)化學(xué)習(xí)（RLHF）算法進(jìn)行獎(jiǎng)勵(lì)模型等訓(xùn)練。典型框架如圖 6 和表 4 所示。

圖 6 大模型驅(qū)動(dòng)的獎(jiǎng)勵(lì)函數(shù)框架

表 4 大模型驅(qū)動(dòng)的具身獎(jiǎng)勵(lì)函數(shù)算法總結(jié)

大模型驅(qū)動(dòng)的具身數(shù)據(jù)生成

大模型進(jìn)行具身數(shù)據(jù)生成有望解決機(jī)器人數(shù)據(jù)稀缺的難題。1）世界模型（World Model）揭示了物理世界的運(yùn)行規(guī)律，包括未來(lái)視覺(jué)觀測(cè)如何改變，狀態(tài)如何根據(jù)環(huán)境動(dòng)力學(xué)進(jìn)行轉(zhuǎn)移，以及智能體最終達(dá)到的狀態(tài)等。構(gòu)建世界模型能夠快速產(chǎn)生大量軌跡來(lái)豐富強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)的數(shù)據(jù)，基本框架包含隱空間世界模型、Transformer 世界模型、擴(kuò)散世界模型等。2）大模型能夠借助仿真環(huán)境進(jìn)行自動(dòng)化的環(huán)境生成和數(shù)據(jù)采集，主要流程包括大模型自動(dòng)任務(wù)提出、自動(dòng)環(huán)境構(gòu)造、自動(dòng)任務(wù)解決、自動(dòng)數(shù)據(jù)采集、自動(dòng)技能學(xué)習(xí)等，快速產(chǎn)生針對(duì)特定任務(wù)的仿真數(shù)據(jù)，進(jìn)行機(jī)器人技能和策略的學(xué)習(xí)，如圖 7 所示。該領(lǐng)域典型方法如表 5 所示。

圖 7 大模型驅(qū)動(dòng)的仿真環(huán)境和數(shù)據(jù)生成框架

表 5 大模型驅(qū)動(dòng)的具身數(shù)據(jù)生成算法總結(jié)

大模型驅(qū)動(dòng)的具身智能已具備了研究和技術(shù)體系的雛形，有望使 “數(shù)字” 大模型在 “實(shí)體” 機(jī)器人中生根發(fā)芽。綜述隨后分析了現(xiàn)有研究之間存在的聯(lián)系，并總結(jié)了目前大模型驅(qū)動(dòng)的具身智能領(lǐng)域面臨的挑戰(zhàn)，包括大模型在特定具身場(chǎng)景中的適應(yīng)問(wèn)題、大模型策略和人類(lèi)偏好的對(duì)齊問(wèn)題、具身策略的跨域泛化問(wèn)題、大模型驅(qū)動(dòng)多智能體協(xié)作問(wèn)題、具身智能在真實(shí)環(huán)境中所面臨的挑戰(zhàn)和大模型具身策略的決策實(shí)時(shí)性問(wèn)題等。

雖然目前關(guān)于采取何種路線能夠達(dá)到通用具身智能仍很難定論，但大模型的成功切實(shí)的推動(dòng)了具身智能的發(fā)展。綜述對(duì)該領(lǐng)域的未來(lái)研究進(jìn)行了展望，包括統(tǒng)一具身數(shù)據(jù)平臺(tái)、通用具身數(shù)據(jù)表征、魯棒具身控制策略、可控具身策略生成、人機(jī)合作具身智能、異構(gòu)智能體協(xié)同、輕量化具身策略和人形機(jī)器人等方面。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心