機器人領(lǐng)域首個開源視覺-語言操作大模型，RoboFlamingo框架激發(fā)開源VLMs更大潛能

作者：機器之心 2024-01-17 12:10:44

還在苦苦尋找開源的機器人大模型？試試RoboFlamingo！

近年來，大模型的研究正在加速推進，它逐漸在各類任務上展現(xiàn)出多模態(tài)的理解和時間空間上的推理能力。機器人的各類具身操作任務天然就對語言指令理解、場景感知和時空規(guī)劃等能力有著很高的要求，這自然引申出一個問題：能不能充分利用大模型能力，將其遷移到機器人領(lǐng)域，直接規(guī)劃底層動作序列呢？

對此，ByteDance Research 基于開源的多模態(tài)語言視覺大模型 OpenFlamingo 開發(fā)了開源、易用的 RoboFlamingo 機器人操作模型，只用單機就可以訓練。使用簡單、少量的微調(diào)就可以把 VLM 變成 Robotics VLM，從而適用于語言交互的機器人操作任務。

OpenFlamingo 在機器人操作數(shù)據(jù)集 CALVIN 上進行了驗證，實驗結(jié)果表明，RoboFlamingo 只利用了 1% 的帶語言標注的數(shù)據(jù)即在一系列機器人操作任務上取得了 SOTA 的性能。隨著 RT-X 數(shù)據(jù)集開放，采用開源數(shù)據(jù)預訓練 RoboFlamingo 并 finetune 到不同機器人平臺，將有希望成為一個簡單有效的機器人大模型 pipeline。論文還測試了各種不同 policy head、不同訓練范式和不同 Flamingo 結(jié)構(gòu)的 VLM 在 Robotics 任務上微調(diào)的表現(xiàn)，得到了一些有意思的結(jié)論。

項目主頁：https://roboflamingo.github.io
代碼地址：https://github.com/RoboFlamingo/RoboFlamingo
論文地址：https://arxiv.org/abs/2311.01378

研究背景

基于語言的機器人操作是具身智能領(lǐng)域的一個重要應用，它涉及到多模態(tài)數(shù)據(jù)的理解和處理，包括視覺、語言和控制等。近年來，視覺語言基礎模型（VLMs）已經(jīng)在多個領(lǐng)域取得了顯著的進展，包括圖像描述、視覺問答和圖像生成等。然而，將這些模型應用于機器人操作仍然存在一些挑戰(zhàn)，例如如何將視覺和語言信息結(jié)合起來，如何處理機器人操作的時序性等。

為了解決這些問題，ByteDance Research 的機器人研究團隊利用現(xiàn)有的開源 VLM，OpenFlamingo，設計了一套新的視覺語言操作框架，RoboFlamingo。其中 VLM 可以進行單步視覺語言理解，而額外的 policy head 模組被用來處理歷史信息。只需要簡單的微調(diào)方法就能讓 RoboFlamingo 適應于基于語言的機器人操作任務。

RoboFlamingo 在基于語言的機器人操作數(shù)據(jù)集 CALVIN 上進行了驗證，實驗結(jié)果表明，RoboFlamingo 只利用了 1% 的帶語言標注的數(shù)據(jù)即在一系列機器人操作任務上取得了 SOTA 的性能（多任務學習的 task sequence 成功率為 66%，平均任務完成數(shù)量為 4.09，基線方法為 38%，平均任務完成數(shù)量為 3.06；zero-shot 任務的成功率為 24%，平均任務完成數(shù)量為 2.48，基線方法為 1%，平均任務完成數(shù)量是 0.67），并且能夠通過開環(huán)控制實現(xiàn)實時響應，可以靈活部署在較低性能的平臺上。這些結(jié)果表明，RoboFlamingo 是一種有效的機器人操作方法，可以為未來的機器人應用提供有用的參考。

方法

本工作利用已有的基于圖像 - 文本對的視覺語言基礎模型，通過訓練端到端的方式生成機器人每一步的 relative action。模型的主要模塊包含了 vision encoder，feature fusion decoder 和 policy head 三個模塊。Vision encoder 模塊先將當前視覺觀測輸入到 ViT 中，并通過 resampler 對 ViT 輸出的 token 進行 down sample。Feature fusion decoder 將 text token 作為輸入，并在每個 layer 中先將 vision encoder 的 output 作為 query 進行 cross attention，之后進行 self attention 以完成視覺與語言特征的融合。最后，對 feature fusion decoder 進行 max pooling 后將其送入 policy head 中，policy head 根據(jù) feature fusion decoder 輸出的當前和歷史 token 序列直接輸出當前的 7 DoF relative action，包括了 6-dim 的機械臂末端位姿和 1-dim 的 gripper open/close。

在訓練過程中，RoboFlamingo 利用預訓練的 ViT、LLM 和 Cross Attention 參數(shù)，并只微調(diào) resampler、cross attention 和 policy head 的參數(shù)。

實驗結(jié)果

數(shù)據(jù)集：

CALVIN（Composing Actions from Language and Vision）是一個開源的模擬基準測試，用于學習基于語言的 long-horizon 操作任務。與現(xiàn)有的視覺 - 語言任務數(shù)據(jù)集相比，CALVIN 的任務在序列長度、動作空間和語言上都更為復雜，并支持靈活地指定傳感器輸入。CALVIN 分為 ABCD 四個 split，每個 split 對應了不同的 context 和 layout。

定量分析：

RoboFlamingo 在各設置和指標上的性能均為最佳，說明了其具有很強的模仿能力、視覺泛化能力以及語言泛化能力。Full 和 Lang 表示模型是否使用未配對的視覺數(shù)據(jù)進行訓練（即沒有語言配對的視覺數(shù)據(jù)）；Freeze-emb 指的是凍結(jié)融合解碼器的嵌入層；Enriched 表示使用 GPT-4 增強的指令。

消融實驗：

不同的 policy head：

實驗考察了四種不同的策略頭部：MLP w/o hist、MLP w hist、GPT 和 LSTM。其中，MLP w/o hist 直接根據(jù)當前觀測預測歷史，其性能最差，MLP w hist 將歷史觀測在 vision encoder 端進行融合后預測 action，性能有所提升；GPT 和 LSTM 在 policy head 處分別顯式、隱式地維護歷史信息，其表現(xiàn)最好，說明了通過 policy head 進行歷史信息融合的有效性。

視覺-語言預訓練的影響：

預訓練對于 RoboFlamingo 的性能提升起到了關(guān)鍵作用。實驗顯示，通過預先在大型視覺-語言數(shù)據(jù)集上進行訓練，RoboFlamingo 在機器人任務中表現(xiàn)得更好。

模型大小與性能：

雖然通常更大的模型會帶來更好的性能，但實驗結(jié)果表明，即使是較小的模型，也能在某些任務上與大型模型媲美。

指令微調(diào)的影響：

指令微調(diào)是一個強大的技巧，實驗結(jié)果表明，它可以進一步提高模型的性能。

定性結(jié)果

相較于基線方法，RoboFlamingo 不但完整執(zhí)行了 5 個連續(xù)的子任務，且對于基線頁執(zhí)行成功的前兩個子任務，RoboFlamingo 所用的步數(shù)也明顯更少。

總結(jié)

本工作為語言交互的機器人操作策略提供了一個新穎的基于現(xiàn)有開源 VLMs 的框架，使用簡單微調(diào)就能實現(xiàn)出色的效果。RoboFlamingo 為機器人技術(shù)研究者提供了一個強大的開源框架，能夠更容易地發(fā)揮開源 VLMs 的潛能。工作中豐富的實驗結(jié)果或許可以為機器人技術(shù)的實際應用提供寶貴的經(jīng)驗和數(shù)據(jù)，有助于未來的研究和技術(shù)發(fā)展。

責任編輯：張燕妮來源：機器之心

AI 訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

機器人領(lǐng)域首個開源視覺-語言操作大模型，RoboFlamingo框架激發(fā)開源VLMs更大潛能

研究背景

方法

實驗結(jié)果

定性結(jié)果

總結(jié)

機器人領(lǐng)域首個開源視覺-語言操作大模型，RoboFlamingo框架激發(fā)開源VLMs更大潛能