X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間

發(fā)布于 2025-2-27 11:18

瀏覽

0收藏

摘要

模仿學(xué)習(xí)（Imitation Learning, IL）作為一種通過模仿示范來教授智能體復(fù)雜行為的范式，已經(jīng)在機器人學(xué)習(xí)領(lǐng)域展現(xiàn)出巨大潛力。然而，隨著機器學(xué)習(xí)技術(shù)的快速發(fā)展，設(shè)計現(xiàn)代模仿學(xué)習(xí)策略需要在特征編碼、架構(gòu)、策略表示等方面做出眾多決策，這些選擇構(gòu)成了一個龐大且尚未被充分探索的設(shè)計空間。本文詳細(xì)分析了X-IL框架，這是一個開源的模塊化框架，旨在系統(tǒng)地探索模仿學(xué)習(xí)策略的設(shè)計空間。通過對X-IL的架構(gòu)設(shè)計、核心組件以及在LIBERO和RoboCasa基準(zhǔn)測試上的實驗結(jié)果進行深入分析，本文揭示了不同設(shè)計選擇對模仿學(xué)習(xí)性能的影響，并為未來研究提供了有價值的見解。

1. 引言

模仿學(xué)習(xí)（IL）已經(jīng)成為一種強大的范式，可以通過模仿示范來教授智能體復(fù)雜行為，無需顯式的獎勵工程設(shè)計（Argall等，2009）。然而，各個領(lǐng)域新型機器學(xué)習(xí)技術(shù)的快速發(fā)展使得評估這些技術(shù)對模仿學(xué)習(xí)的潛在影響變得具有挑戰(zhàn)性。為了解決這個問題，研究者們提出了X-IL，這是一個創(chuàng)新框架，旨在將最近開發(fā)的技術(shù)整合到模仿學(xué)習(xí)流程中并進行探索。

X-IL框架將模仿學(xué)習(xí)過程分解為四個關(guān)鍵模塊：(1)觀察表示，(2)骨干網(wǎng)絡(luò)，(3)架構(gòu)，以及(4)策略表示。每個模塊都是可互換的，使得研究者能夠系統(tǒng)地探索模仿學(xué)習(xí)策略的設(shè)計空間。這種模塊化設(shè)計促進了快速原型設(shè)計、基準(zhǔn)測試和部署。

X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間-AI.x社區(qū)

圖1：X-IL框架概述。 X-IL支持多模態(tài)輸入（語言、RGB和點云）以及兩種架構(gòu)：僅解碼器和編碼器-解碼器。在每種架構(gòu)中，骨干網(wǎng)絡(luò)作為核心計算單元，支持Transformer、Mamba和xLSTM。對于策略表示，X-IL支持行為克隆（BC）、基于擴散和基于流的策略，為模仿學(xué)習(xí)提供多樣化的學(xué)習(xí)范式。值得注意的是，每個組件——輸入模態(tài)、架構(gòu)、骨干網(wǎng)絡(luò)和策略——都可以輕松交換，以高效探索各種模型配置。

2. 相關(guān)工作

2.1 多模態(tài)模仿學(xué)習(xí)

早期的模仿學(xué)習(xí)方法主要依賴于狀態(tài)（Schaal，1996；Ho & Ermon，2016）或圖像（Pomerleau，1988；Lynch等，2020）來描述環(huán)境和定義目標(biāo)。然而，在現(xiàn)實場景中獲取準(zhǔn)確的狀態(tài)信息并不簡單，基于狀態(tài)的表示難以捕捉非結(jié)構(gòu)化環(huán)境的復(fù)雜性。雖然圖像為行為學(xué)習(xí)提供了豐富的表示（Mandlekar等，2021），但在模仿學(xué)習(xí)中使用圖像作為目標(biāo)條件受到其在目標(biāo)表示上的模糊性和目標(biāo)指定困難的限制。

為了解決這些問題，研究者們探索了自然語言作為替代目標(biāo)表示，提供了更直觀和易于訪問的方式來指定任務(wù)。最近的研究（Shridhar等，2022；Reuss等，2024b）探討了語言目標(biāo)與圖像觀察的集成，使策略學(xué)習(xí)更加靈活。另一條研究路線通過微調(diào)視覺-語言模型（VLMs）來獲得視覺-語言動作模型（VLAs）（Kim等，2024；Li等，2023，2024）。

然而，僅基于圖像的表示缺乏關(guān)鍵的三維結(jié)構(gòu)信息，這對于許多任務(wù)至關(guān)重要。因此，最近出現(xiàn)了將更豐富的三維場景表示（如點云）納入其中以增強策略性能的趨勢（Ke等，2024；Ze等，2024a）。

2.2 基于序列模型的模仿學(xué)習(xí)

近年來，序列模型被越來越多地應(yīng)用于學(xué)習(xí)人類行為，因為人類決策本質(zhì)上是非馬爾可夫的，需要結(jié)合歷史觀察（Mandlekar等，2021）。早期工作利用基于RNN的結(jié)構(gòu)，但這些模型在處理長觀察序列時存在梯度消失問題，并且由于順序處理的性質(zhì)而導(dǎo)致訓(xùn)練效率低下。

為了解決這些限制，基于Transformer的架構(gòu)被廣泛采用（Shafiullah等，2022a；Reuss等，2023），提供了更好的可擴展性和序列建模能力。最近，狀態(tài)空間模型（SSM）（Gu & Dao，2024；Jia等，2024）作為Transformer的有前景的替代方案出現(xiàn)，在小數(shù)據(jù)集上表現(xiàn)出顯著的效率和學(xué)習(xí)一致表示的能力。此外，改進的基于RNN的架構(gòu)，如xLSTM（Beck等，2024），在自然語言處理中顯示出與Transformer和SSM相媲美的潛力，但它們在模仿學(xué)習(xí)中的應(yīng)用仍然很少被探索。

2.3 模塊化模仿學(xué)習(xí)庫

雖然許多開源庫提供了特定算法的模仿學(xué)習(xí)方法實現(xiàn)（Chi等，2023；Lee等，2024；Jia等，2024），但只有少數(shù)提供跨多種算法和架構(gòu)的模塊化設(shè)計。Robomimic（Mandlekar等，2021）實現(xiàn)了具有MLP、RNN和基于Transformer的策略的行為克隆（BC），而Imitation（Gleave等，2022）提供了幾種模仿學(xué)習(xí)和逆強化學(xué)習(xí)方法的模塊化實現(xiàn)。然而，這些庫不包括最近基于擴散的模仿學(xué)習(xí)方法。

為了填補這一空白，最近的工作CleanDiffuser（Dong等，2024）引入了決策制定中擴散模型的模塊化實現(xiàn)，支持MLP、UNet、ResNet和Transformer等策略架構(gòu)。然而，其評估僅限于具有低維狀態(tài)輸入和2D圖像輸入的任務(wù)。相比之下，X-IL通過支持多模態(tài)輸入（包括2D圖像、點云和語言條件目標(biāo)）擴展了模塊化。此外，X-IL整合了最先進的序列模型，如Mamba和xLSTM，擴大了其在更復(fù)雜環(huán)境和多樣化IL架構(gòu)中的適用性。

3. X-IL框架

X-IL是一個基于以下設(shè)計原則的模塊化開源模仿學(xué)習(xí)框架：

模塊化：X-IL系統(tǒng)地將模仿學(xué)習(xí)流程分解為不同的模塊，這些模塊具有不同的可輕松互換的組件。這種模塊化設(shè)計使得不同方法的靈活集成和評估成為可能，促進了對模仿學(xué)習(xí)策略設(shè)計空間的系統(tǒng)探索。

易用性原則：該框架易于使用，支持流行工具如Hydra（Yadan，2019）進行配置管理和Weights & Biases（Wandb）（Biewald，2020）進行日志記錄和可視化，簡化了實驗過程。

整合新技術(shù)：X-IL整合了最新進展，如用于序列建模的Mamba（Gu & Dao，2024）和xLSTM（Beck等，2024），以及用于策略學(xué)習(xí)的擴散和流匹配，提高了模仿學(xué)習(xí)策略的效率和泛化能力。

為了實現(xiàn)靈活的實驗，X-IL將模仿學(xué)習(xí)流程分解為四個關(guān)鍵模塊：1）觀察表示，2）骨干網(wǎng)絡(luò)，3）架構(gòu)，以及4）策略表示。以下是對每個模塊及其組件的詳細(xì)描述：

3.1 觀察表示

X-IL框架考慮三種主要類型的表示：RGB輸入、點云和語言。

RGB輸入：視覺模仿學(xué)習(xí)在最近的研究中受到了廣泛關(guān)注（Chi等，2023）。從多個攝像機視角捕獲的RGB圖像為物體識別和場景理解提供了重要的紋理和語義信息。先前的工作表明，ResNet是操作任務(wù)的強大編碼器，使其成為廣泛采用的選擇（Shafiullah等，2022b；Wan等，2024）。為了有效利用RGB數(shù)據(jù)，X-IL支持各種特征提取器，包括ResNet、FiLM-ResNet（Turkoglu等，2022）和CLIP（Radford等，2021），其模塊化代碼庫允許輕松集成額外的圖像編碼器。

點云：點云提供由RGB-D相機或LiDAR傳感器獲取的3D空間結(jié)構(gòu)，為操作任務(wù)提供幾何信息。與RGB圖像不同，點云本身就編碼了物體位置和形狀，使其成為需要細(xì)粒度空間推理的任務(wù)的理想選擇。先前的工作強調(diào)了保留幾何特征對有效表示學(xué)習(xí)的重要性（Wan等，2024；Ze等，2024c）。在X-IL中，采用最遠(yuǎn)點采樣（FPS）（Qi等，2017）對點進行下采樣，這有助于保留3D空間的幾何結(jié)構(gòu)。X-IL支持兩種編碼器：具有最大池化的輕量級MLP（Ze等，2024c）以提高計算效率，以及具有類別標(biāo)記的基于注意力的編碼器以增強特征提取。

語言：語言引導(dǎo)的模仿學(xué)習(xí)（Stepputtis等，2020；Lynch & Sermanet，2021）越來越受到關(guān)注，因為它提供了描述任務(wù)、物體屬性和機器人動作的高級抽象方式。與視覺和幾何輸入不同，語言提供了增強跨多樣化任務(wù)的泛化和適應(yīng)性的上下文。為了處理語言，X-IL集成了預(yù)訓(xùn)練的語言模型CLIP（Radford等，2021）將文本信息轉(zhuǎn)換為密集嵌入。然后，這些嵌入與視覺和點云特征融合，為策略學(xué)習(xí)提供更豐富的多模態(tài)表示。

3.2 骨干網(wǎng)絡(luò)：X-Block

X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間-AI.x社區(qū)

圖2：X-Block網(wǎng)絡(luò)細(xì)節(jié)。 X-Layer是核心部分，用于處理序列標(biāo)記；AdaLn條件用于注入上下文信息。

骨干架構(gòu)的選擇對于學(xué)習(xí)有效的模仿學(xué)習(xí)策略至關(guān)重要，因為它決定了不同輸入模態(tài)如何被處理以及如何捕獲序列依賴關(guān)系。X-IL定義骨干網(wǎng)絡(luò)為負(fù)責(zé)建模序列信息的核心組件，并提供三種骨干選項：

Transformer（Vaswani等，2017）：一種廣泛使用的基于注意力的模型，由于其處理人類演示中非馬爾可夫行為的能力，在模仿學(xué)習(xí)中表現(xiàn)出強大的性能。大多數(shù)模仿學(xué)習(xí)模型，包括視覺-語言動作模型（VLAs），都使用Transformer作為骨干網(wǎng)絡(luò)。

Mamba（Gu & Dao，2024）：一種結(jié)構(gòu)化狀態(tài)空間模型（SSM），顯著提高了SSM的效率，同時在性能上與Transformer相媲美。與Transformer不同，Mamba保持線性計算復(fù)雜度。Mamba模仿學(xué)習(xí)（MaIL）（Jia等，2024）表明，基于Mamba的策略在小數(shù)據(jù)集上優(yōu)于基于Transformer的策略。

xLSTM（Beck等，2024）：LSTM的一種變體，旨在增強長期依賴建模，同時保持計算效率。與標(biāo)準(zhǔn)LSTM不同，xLSTM結(jié)合了架構(gòu)改進，以減輕梯度消失問題。雖然遞歸模型通常缺乏自注意力的表達(dá)能力，但xLSTM在效率和性能之間提供了平衡，使其成為計算約束是關(guān)注點的模仿學(xué)習(xí)任務(wù)的潛在替代方案。

受DiT-Block（Peebles & Xie，2023）結(jié)構(gòu)的啟發(fā)，X-IL框架引入了X-Block。X-Block的核心組件是X-Layer，負(fù)責(zé)處理時間信息。此外，AdaLN條件（Peebles & Xie，2023）被納入其中——不僅用于條件化擴散模型中的時間嵌入，還用于集成表示特征。研究發(fā)現(xiàn)，使用表示作為條件信號可以增強性能，進一步提高策略學(xué)習(xí)的有效性。

3.3 架構(gòu)

X-IL支持兩種架構(gòu)：僅解碼器和編碼器-解碼器。先前的工作如ACT（Zhao等，2023）和MDT（Reuss等，2024c）采用編碼器-解碼器設(shè)計，而PearceTransformer（Pearce等，2023）和MoDE（Reuss等，2024a）則遵循僅解碼器方法。這些架構(gòu)在圖1中有所展示。

僅解碼器模型：在X-IL中，僅解碼器架構(gòu)通過堆疊多個X-Block實現(xiàn)，其中觀察和動作在解碼器內(nèi)聯(lián)合處理。模型僅輸出動作標(biāo)記，然后用于訓(xùn)練策略表示。

編碼器-解碼器模型：X-IL中的編碼器-解碼器架構(gòu)遵循兩階段方法：編碼器首先將多模態(tài)輸入編碼為潛在表示，然后解碼器基于這種結(jié)構(gòu)化嵌入生成動作。先前的工作主要利用交叉注意力將編碼器的輸出與解碼器的輸入連接起來。然而，Mamba和xLSTM缺乏以這種方式處理可變長度序列的內(nèi)置機制。相反，研究發(fā)現(xiàn)AdaLN條件提供了構(gòu)建編碼器-解碼器架構(gòu)的高效靈活替代方案，使編碼的表示能夠有效集成到解碼過程中。

3.4 策略表示

除了樸素的行為克隆方法外，X-IL框架還提供各種最先進的策略表示，可以大致分為基于擴散和基于流的模型。

行為克隆（Behavior Cloning）：行為克隆（BC）假設(shè)策略表示為高斯分布，并最大化給定真實分布中預(yù)測動作的似然。

基于擴散的策略：去噪擴散概率模型（DDPM）（Ho等，2020）捕獲評分函數(shù)場并迭代優(yōu)化動作。BESO（Reuss等，2023）基于連續(xù)時間擴散框架，允許不同的擴散步驟和多樣化的采樣技術(shù)。X-IL框架同時支持DDPM風(fēng)格和連續(xù)時間BESO風(fēng)格的策略。

基于流的策略：通過流匹配（Lipman等，2022）訓(xùn)練的連續(xù)時間標(biāo)準(zhǔn)化流最近受到了廣泛關(guān)注，也適合作為策略表示。這些方法通常被稱為整流流（RF）（Liu等，2022），在X-IL框架中得到了完全支持。

4. 實驗

為了探索模仿學(xué)習(xí)的設(shè)計空間，研究者們在兩個機器人學(xué)習(xí)基準(zhǔn)測試上進行了廣泛的實驗：LIBERO和RoboCasa。這項研究系統(tǒng)地檢驗了各種骨干網(wǎng)絡(luò)、架構(gòu)和策略設(shè)計，用于基于視覺和點云的模仿學(xué)習(xí)。

4.1 模擬基準(zhǔn)

LIBERO（Liu等，2023）：研究者們使用RGB輸入在LIBERO基準(zhǔn)上評估了具有各種模型架構(gòu)和策略頭的模塊化框架。LIBERO包括四個不同的任務(wù)套件：LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-Long，這些任務(wù)套件專門設(shè)計用于評估機器人學(xué)習(xí)和操作能力的不同方面。

為了徹底比較每種架構(gòu)的性能，研究者們使用10個軌跡（可用示范的20%）和50個軌跡（完整數(shù)據(jù)集）進行了評估。所有模型在LIBERO任務(wù)套件中訓(xùn)練了100個周期，并使用最后的檢查點進行評估。按照官方LIBERO基準(zhǔn)設(shè)置，為每個子任務(wù)模擬了50次展開，每個任務(wù)套件總共500次模擬。研究者們報告了每個任務(wù)套件在3個種子上的平均成功率。

RoboCasa（Nasiriany等，2024）：這是一個大規(guī)模模擬框架，提供各種日常場景任務(wù)。除了大量任務(wù)外，RoboCasa還提供了廣泛的任務(wù)內(nèi)變化。如圖3所示，這些變化包括場景、物體以及機器人和物體的初始位置，而LIBERO不提供這種多樣性。這種高水平的多樣性要求模型具有強大的泛化能力，使該基準(zhǔn)非常具有挑戰(zhàn)性。

X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間-AI.x社區(qū)

圖3：LIBERO和RoboCasa示例。 雖然LIBERO在同一任務(wù)中表現(xiàn)出最小的變化，例如LIBERO-Spatial，但RoboCasa在不同方面提供了多樣性。圖中展示了CoffeeServeMug任務(wù)。

研究者們評估了RoboCasa中的5個任務(wù)，每個任務(wù)有50個人類演示。這5個任務(wù)包含不同的行為：CloseSingleDoor、OpenDrawer、TurnOnStove、CoffeePressButton和CoffeeServeMug。對于訓(xùn)練，每個模型訓(xùn)練了200個周期，并為每個任務(wù)展開了50個回合。研究者們報告了3個種子上的成功率。

4.2 X-IL中的實驗設(shè)置

為了確保公平比較，研究者們匹配了Transformer、Mamba和xLSTM的模型大小。對于擴散策略和流匹配策略，在主要實驗中將采樣步驟數(shù)設(shè)置為4。在LIBERO基準(zhǔn)中，所有模型都使用ResNet-18進行圖像處理，而在RoboCasa基準(zhǔn)中，則使用FiLM-ResNet18進行圖像編碼，使用基于注意力的編碼器進行點云輸入。

4.3 基線

研究者們還報告了以下基線的性能：

BC-Transformer：在RoboCasa（Nasiriany等，2024）中使用。它使用CLIP模型和帶有FilM層的ResNet-18分別編碼目標(biāo)指令和基于圖像的觀察。
Diffusion Policy（Chi等，2023）：一種視覺運動策略，使用條件去噪擴散過程在學(xué)習(xí)的梯度場上迭代優(yōu)化動作分布。
Octo（Octo Model Team等，2024）：一個開源的視覺-語言-動作（VLA）模型，在大規(guī)模數(shù)據(jù)集上訓(xùn)練。它使用基于transformer的擴散策略，支持語言和目標(biāo)圖像作為任務(wù)輸入。
OpenVLA（Kim等，2024）：一個基于更大模型Llama 2 7B的視覺-語言-動作模型。
MDT（Reuss等，2024c）：一個基于擴散的框架，能夠從包括圖像和語言在內(nèi)的多模態(tài)目標(biāo)規(guī)范中學(xué)習(xí)多樣化行為。
MaIL（Jia等，2024）：使用MAMBA替代模仿學(xué)習(xí)中基于transformer的骨干網(wǎng)絡(luò)。它表明，特別是在小數(shù)據(jù)集的情況下，基于Mamba的策略優(yōu)于基于transformer的策略。
ATM（Wen等，2024）：任意點軌跡建模（ATM）是一個從視頻示范中學(xué)習(xí)的框架。ATM使用圖像和語言指令作為輸入，預(yù)測視頻幀中任意點的軌跡。
EnerVerse（Huang等，2025）：一個為機器人操作任務(wù)設(shè)計的未來空間生成框架。
3D Diffusion Policy（DP3）（Ze等，2024b）：DP3從單視圖點云中提取點級特征。機器人動作基于這些特征和當(dāng)前機器人狀態(tài)生成。

4.4 視覺輸入評估

LIBERO：主要結(jié)果如表1所示。為了評估框架在LIBERO上的性能，研究者們測試了使用僅解碼器架構(gòu)的BC、BESO和RF策略，跨Transformer、Mamba和xLSTM骨干網(wǎng)絡(luò)。結(jié)果表明，X-IL實現(xiàn)了最先進的性能，超過了公開可用的模型。具體來說，xLSTM在20%和100%數(shù)據(jù)設(shè)置中都表現(xiàn)出巨大潛力，分別達(dá)到74.5%和92.3%的平均成功率。

RoboCasa：主要結(jié)果如表2所示。與LIBERO相比，RoboCasa由于其動態(tài)變化的背景場景和跨示范和評估的物體變化，提供了更具挑戰(zhàn)性的基準(zhǔn)。研究者們在RoboCasa中測試了X-BESO在五個任務(wù)上的表現(xiàn)，觀察到他們的方法優(yōu)于原始論文中報告的結(jié)果。具體來說，使用基于xLSTM的模型，他們實現(xiàn)了53.6%的更高平均成功率，相比BC-Transformer的40.0%，證明了該方法在處理復(fù)雜和動態(tài)環(huán)境中的有效性。此外，他們觀察到Mamba和xLSTM優(yōu)于基于Transformer的骨干網(wǎng)絡(luò)，這與他們從LIBERO得出的發(fā)現(xiàn)一致。這一結(jié)果進一步突顯了在模仿學(xué)習(xí)中利用新序列模型的潛力，表明除Transformer之外的替代架構(gòu)可以在復(fù)雜機器人任務(wù)中提供改進的效率和性能。

4.5 點云輸入評估

研究者們在RoboCasa上評估了使用點云輸入的X-BESO，并取得了優(yōu)于3D擴散策略的結(jié)果。從結(jié)果中得出的一個有趣觀察是，基于點云的輸入不一定優(yōu)于基于RGB的輸入。

分析表明，這是由于RoboCasa場景的復(fù)雜性，其中點云從多樣化的來源捕獲，導(dǎo)致在采樣過程中顯著的信息損失——特別是在涉及小物體的任務(wù)中。在這種情況下，只有稀疏的點集保留下來，限制了點云表示的有效性。這突顯了以物體為中心的方法的潛在好處，這些方法專注于保留關(guān)鍵的任務(wù)相關(guān)細(xì)節(jié)。

此外，研究者們評估了結(jié)合點云和RGB輸入的性能。首先從點云中提取緊湊表示，然后與RGB特征連接。實驗結(jié)果表明，結(jié)合兩種模態(tài)顯著提高了性能，特別是基于xLSTM的模型，達(dá)到了60.9%的成功率——相比僅使用RGB的53.6%和僅使用點云的32.8%。這突顯了探索更有效的多模態(tài)融合策略以充分利用每種模態(tài)優(yōu)勢的重要性。

4.6 不同架構(gòu)的比較

研究者們在四個任務(wù)上進行了實驗——來自LIBERO的Spatial（20%）和Long（20%），以及來自RoboCasa的TurnOnStove和CoffeeServeMug——以比較僅解碼器和編碼器-解碼器架構(gòu)的性能。圖4中呈現(xiàn)的結(jié)果表明，AdaLN條件的編碼器-解碼器架構(gòu)在大多數(shù)任務(wù)上實現(xiàn)了卓越的性能，突顯了其有效性。此外，通過分別處理觀察和動作，這種設(shè)計為編碼器和解碼器選擇不同層提供了更多靈活性，使其更適合擴展到更大的模型。

X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間-AI.x社區(qū)

圖4：不同架構(gòu)的比較。 Dec指僅解碼器模型，而EncDec指編碼器-解碼器模型。

4.7 不同推理步驟下擴散模型的比較

研究者們在RoboCasa的具有挑戰(zhàn)性的TurnOnStove任務(wù)上評估了具有DDPM、BESO和RF的僅解碼器xLSTM，比較了在1、4、8、12和16個推理步驟下的性能和推理速度（圖5）。DDPM在單步驟時表現(xiàn)不佳，而BESO和RF表現(xiàn)良好，并隨著步驟增加而改進。它們的推理時間相似，由于動作維度較低，流匹配的速度優(yōu)勢不太明顯。

X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間-AI.x社區(qū)

圖5：DDPM、BESO和RF的不同推理步驟比較。 左：成功率；右：推理時間。

4.8 不同編碼器的比較

研究者們在RoboCasa數(shù)據(jù)集上使用Dec-xLSTM BESO評估了不同的圖像編碼器，比較了FiLM-ResNet18、FiLM-ResNet34和CLIP（凍結(jié)）以評估它們對性能的影響。他們還比較了最大池化和基于注意力的點云編碼器。結(jié)果如圖6所示。

X-IL：系統(tǒng)化探索模仿學(xué)習(xí)策略的設(shè)計空間-AI.x社區(qū)

**圖6：不同圖像編碼器和點云編碼

對于圖像編碼器，F(xiàn)iLM-ResNet34的性能優(yōu)于FiLM-ResNet18，這表明更大的編碼器可以提取更豐富的特征。然而，凍結(jié)的CLIP編碼器表現(xiàn)不如微調(diào)的ResNet，這可能是由于CLIP在預(yù)訓(xùn)練期間沒有接觸到機器人操作場景，導(dǎo)致其特征提取能力在這種特定領(lǐng)域受限。

對于點云編碼器，基于注意力的編碼器在所有任務(wù)上都優(yōu)于最大池化編碼器，證明了注意力機制在捕獲點云中空間關(guān)系方面的有效性。這一結(jié)果強調(diào)了為不同輸入模態(tài)選擇適當(dāng)編碼器的重要性，以最大化模型性能。

5. 討論與分析

5.1 新型序列模型在模仿學(xué)習(xí)中的潛力

實驗結(jié)果清楚地表明，Mamba和xLSTM等新型序列模型在模仿學(xué)習(xí)任務(wù)中展現(xiàn)出巨大潛力。特別是，基于xLSTM的模型在LIBERO和RoboCasa基準(zhǔn)測試中均優(yōu)于基于Transformer的模型。這一發(fā)現(xiàn)具有重要意義，因為它挑戰(zhàn)了Transformer在序列建模任務(wù)中的主導(dǎo)地位，并為模仿學(xué)習(xí)中的架構(gòu)選擇提供了新的視角。

xLSTM的成功可以歸因于其有效處理長期依賴關(guān)系的能力，同時保持計算效率。與標(biāo)準(zhǔn)LSTM不同，xLSTM通過架構(gòu)改進減輕了梯度消失問題，使其能夠捕獲復(fù)雜的時間模式，這對于理解和復(fù)制人類演示中的行為至關(guān)重要。

同樣，Mamba在小數(shù)據(jù)集上表現(xiàn)出色，這與先前研究（Jia等，2024）的發(fā)現(xiàn)一致。Mamba的線性計算復(fù)雜度使其成為資源受限環(huán)境中的有吸引力的選擇，而不會顯著犧牲性能。

這些結(jié)果強調(diào)了探索Transformer之外的序列模型的價值，并表明模仿學(xué)習(xí)社區(qū)應(yīng)該考慮更廣泛的架構(gòu)選擇，以適應(yīng)不同的任務(wù)需求和計算約束。

5.2 多模態(tài)融合的重要性

研究結(jié)果強調(diào)了多模態(tài)融合在提高模仿學(xué)習(xí)性能方面的關(guān)鍵作用。通過結(jié)合RGB和點云輸入，研究者們觀察到顯著的性能提升，特別是在復(fù)雜的RoboCasa任務(wù)中。這種多模態(tài)方法允許模型利用每種模態(tài)的互補優(yōu)勢——RGB提供豐富的紋理和語義信息，而點云提供精確的3D幾何結(jié)構(gòu)。

然而，有效的多模態(tài)融合仍然是一個挑戰(zhàn)。簡單的特征連接可能不足以充分利用不同模態(tài)之間的關(guān)系。未來的研究應(yīng)探索更復(fù)雜的融合策略，如交叉注意力機制或多模態(tài)Transformer，以更好地整合不同模態(tài)的信息。

此外，語言條件在提供任務(wù)上下文和目標(biāo)規(guī)范方面的作用不容忽視。結(jié)合語言、視覺和幾何信息的模型可能能夠更好地理解和執(zhí)行復(fù)雜任務(wù)，特別是在需要精確物體操作的場景中。

5.3 編碼器-解碼器架構(gòu)的優(yōu)勢

實驗表明，基于AdaLN條件的編碼器-解碼器架構(gòu)在多種任務(wù)上優(yōu)于僅解碼器架構(gòu)。這種設(shè)計通過分離觀察編碼和動作生成過程，為每個階段提供了更大的靈活性和專業(yè)化。

編碼器-解碼器架構(gòu)的一個關(guān)鍵優(yōu)勢是其可擴展性。通過允許編碼器和解碼器具有不同的層數(shù)和結(jié)構(gòu)，這種設(shè)計可以更容易地適應(yīng)更大的模型和更復(fù)雜的任務(wù)。此外，編碼器可以專注于提取觀察中的關(guān)鍵特征，而解碼器可以專注于生成準(zhǔn)確的動作序列。

然而，這種架構(gòu)的復(fù)雜性增加了計算開銷和訓(xùn)練難度。在資源受限的環(huán)境中，僅解碼器模型可能是更實用的選擇，特別是對于相對簡單的任務(wù)。

5.4 策略表示的選擇

X-IL框架支持多種策略表示，包括行為克隆（BC）、基于擴散的策略（DDPM和BESO）以及基于流的策略（RF）。實驗結(jié)果表明，BESO和RF在單步推理中表現(xiàn)良好，并隨著推理步驟的增加而進一步改善，而DDPM在單步推理中表現(xiàn)較差。

這一發(fā)現(xiàn)具有重要的實際意義，因為在實時機器人控制中，推理速度通常是一個關(guān)鍵考慮因素。能夠在較少步驟下有效執(zhí)行的策略（如BESO和RF）可能更適合實際部署，特別是在需要快速響應(yīng)的應(yīng)用中。

此外，不同策略表示的性能可能取決于任務(wù)的具體要求和約束。例如，需要高精度的任務(wù)可能受益于多步推理，而對速度敏感的應(yīng)用可能更適合優(yōu)化的單步方法。因此，X-IL框架的模塊化設(shè)計允許研究者根據(jù)具體需求選擇最合適的策略表示。

5.5 編碼器選擇的影響

實驗結(jié)果表明，編碼器選擇對模型性能有顯著影響。對于圖像輸入，更大的骨干網(wǎng)絡(luò)（如ResNet34）通常提供更好的性能，但代價是增加了計算復(fù)雜性。預(yù)訓(xùn)練模型（如CLIP）雖然在通用視覺任務(wù)中表現(xiàn)出色，但在特定的機器人操作場景中可能需要微調(diào)才能達(dá)到最佳性能。

對于點云輸入，基于注意力的編碼器優(yōu)于簡單的最大池化方法，這表明注意力機制在捕獲點云中的空間關(guān)系方面非常有效。這一發(fā)現(xiàn)強調(diào)了為不同輸入模態(tài)選擇適當(dāng)編碼器的重要性。

未來的研究可能會探索更先進的編碼器架構(gòu)，如Swin Transformer（Liu等，2021）或ConvNeXt（Liu等，2022）用于圖像處理，以及PointNeXt（Qian等，2022）或Point Transformer（Zhao等，2021）用于點云處理，以進一步提高特征提取能力。

6. 結(jié)論與未來展望

本文詳細(xì)分析了X-IL框架，這是一個用于系統(tǒng)探索模仿學(xué)習(xí)策略設(shè)計空間的開源模塊化框架。通過對X-IL的架構(gòu)設(shè)計、核心組件以及在LIBERO和RoboCasa基準(zhǔn)測試上的實驗結(jié)果進行深入分析，本文揭示了不同設(shè)計選擇對模仿學(xué)習(xí)性能的影響。

主要發(fā)現(xiàn)包括：

新型序列模型的潛力：Mamba和xLSTM等新型序列模型在模仿學(xué)習(xí)任務(wù)中表現(xiàn)出色，在某些情況下甚至優(yōu)于傳統(tǒng)的Transformer架構(gòu)。這表明模仿學(xué)習(xí)社區(qū)應(yīng)該考慮更廣泛的架構(gòu)選擇。
多模態(tài)融合的重要性：結(jié)合RGB和點云等多種輸入模態(tài)可以顯著提高模型性能，特別是在復(fù)雜的機器人操作任務(wù)中。
編碼器-解碼器架構(gòu)的優(yōu)勢：基于AdaLN條件的編碼器-解碼器架構(gòu)在多種任務(wù)上優(yōu)于僅解碼器架構(gòu)，提供了更大的靈活性和可擴展性。
策略表示的選擇：BESO和RF等策略表示在單步推理中表現(xiàn)良好，并隨著推理步驟的增加而進一步改善，這對實時機器人控制具有重要意義。
編碼器選擇的影響：編碼器選擇對模型性能有顯著影響，強調(diào)了為不同輸入模態(tài)選擇適當(dāng)編碼器的重要性。

這些發(fā)現(xiàn)為未來的模仿學(xué)習(xí)研究提供了有價值的見解和方向。X-IL框架的模塊化設(shè)計使研究者能夠系統(tǒng)地探索不同組件和配置，促進了更有效和高性能的模仿學(xué)習(xí)策略的開發(fā)。

未來的研究方向可能包括：

更復(fù)雜的多模態(tài)融合策略：探索超越簡單特征連接的融合方法，如交叉注意力機制或多模態(tài)Transformer。
更高效的點云處理技術(shù)：開發(fā)能夠更好地保留小物體和細(xì)節(jié)的點云采樣和編碼方法。
自適應(yīng)策略表示：設(shè)計能夠根據(jù)任務(wù)需求和計算約束自動調(diào)整推理步驟的策略表示。
更大規(guī)模的預(yù)訓(xùn)練和遷移學(xué)習(xí)：探索在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練模型，然后遷移到特定的機器人操作任務(wù)。
實時性能優(yōu)化：開發(fā)能夠在保持高性能的同時滿足實時控制要求的優(yōu)化技術(shù)。

X-IL框架為這些未來研究提供了堅實的基礎(chǔ)，促進了模仿學(xué)習(xí)領(lǐng)域的進一步發(fā)展和創(chuàng)新。

githhub:https://github.com/ALRhub/X_IL

paper: https://arxiv.org/abs/2502.12330

本文轉(zhuǎn)載自 ??頓數(shù)AI??，作者：可可

標(biāo)簽

X-IL

系統(tǒng)化

學(xué)習(xí)策略

贊

回復(fù)