CVPR 2025 | 多模態(tài)六邊形戰(zhàn)士Magma:會點(diǎn)按鈕會搬磚,標(biāo)注竟讓AI長出"時空大腦"
文章鏈接:https://www.arxiv.org/pdf/2502.13130
項目鏈接:https://microsoft.github.io/Magma/
模型鏈接:https://huggingface.co/microsoft/Magma-8B
亮點(diǎn)直擊
- 提出了Magma,第一個不僅具備多模態(tài)理解能力,還具備空間-時間推理能力的基礎(chǔ)模型,能夠在數(shù)字和物理環(huán)境中完成智能體任務(wù)。
- 提出了使用Set-of-Mark (SoM)和Trace-of-Mark (ToM)技術(shù),顯著增強(qiáng)了空間-時間智能,用于行動定位和規(guī)劃,并使Magma能夠在大規(guī)模異構(gòu)數(shù)據(jù)集上進(jìn)行有效的預(yù)訓(xùn)練。
- 構(gòu)建了一個大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)集,其中不僅包含開源的多模態(tài)視覺-語言(VL)數(shù)據(jù)集,還包括UI數(shù)據(jù)、機(jī)器人數(shù)據(jù)以及通過SoM和ToM自動標(biāo)注的人類教學(xué)視頻。訓(xùn)練語料庫總共包含約3900萬個多樣化的樣本。
- 廣泛評估了預(yù)訓(xùn)練的Magma模型,展示了其在廣泛任務(wù)中的卓越性能。Magma通過單一參數(shù)配置,在機(jī)器人操作和UI導(dǎo)航任務(wù)上均超越了開源模型,達(dá)到了新的SOTA水平。
- 展示了所提出的Magma預(yù)訓(xùn)練方法顯著提升了模型的語言智能和空間-時間智能能力。
總結(jié)速覽
解決的問題
- 多模態(tài)理解與行動的分離:現(xiàn)有的視覺-語言-行動(VLA)模型通常在特定任務(wù)上表現(xiàn)良好,但在跨任務(wù)和跨領(lǐng)域的泛化能力上表現(xiàn)有限。這些模型往往在特定任務(wù)上學(xué)習(xí)行動策略,而犧牲了通用的多模態(tài)理解能力。
- 環(huán)境差異帶來的挑戰(zhàn):2D數(shù)字世界和3D物理世界之間的差異使得VLA模型通常需要分別訓(xùn)練,難以在多個環(huán)境中通用。
- 數(shù)據(jù)集之間的差距:多模態(tài)理解(主要是文本描述)與行動任務(wù)(主要是空間坐標(biāo))之間存在顯著差距,導(dǎo)致直接結(jié)合數(shù)據(jù)集難以提升模型性能。
提出的方案
- Magma基礎(chǔ)模型:提出了一個多模態(tài)AI智能體的基礎(chǔ)模型Magma,旨在同時具備多模態(tài)理解和多模態(tài)行動預(yù)測能力。
- Set-of-Mark (SoM) 和 Trace-of-Mark (ToM):通過SoM標(biāo)記圖像中的可操作視覺對象(如GUI中的可點(diǎn)擊按鈕),通過ToM標(biāo)記視頻中的對象運(yùn)動軌跡(如人手或機(jī)械臂的軌跡),將圖像和視頻數(shù)據(jù)集轉(zhuǎn)化為“視覺-語言-行動”數(shù)據(jù),以彌合不同任務(wù)類型之間的差距。
- 統(tǒng)一訓(xùn)練:通過大量異構(gòu)數(shù)據(jù)集(包括UI數(shù)據(jù)集、機(jī)器人操作數(shù)據(jù)集、人類教學(xué)視頻等)進(jìn)行統(tǒng)一訓(xùn)練,使模型能夠在零樣本情況下應(yīng)用于不同的下游任務(wù)。
應(yīng)用的技術(shù)
- 多模態(tài)理解:模型能夠理解來自不同領(lǐng)域(數(shù)字和物理)的多模態(tài)輸入,不僅在語義上,還在空間和時間上。
- 多模態(tài)行動預(yù)測:模型能夠?qū)㈤L時程任務(wù)分解為準(zhǔn)確的行動序列,并由AI智能體系統(tǒng)有效執(zhí)行。
- SoM和ToM:通過SoM和ToM標(biāo)記技術(shù),將圖像和視頻數(shù)據(jù)集轉(zhuǎn)化為可用于行動任務(wù)的數(shù)據(jù),提升模型的空間-時間智能。
達(dá)到的效果
- 新SOTA結(jié)果:Magma在UI導(dǎo)航和機(jī)器人操作任務(wù)上創(chuàng)造了新的SOTA結(jié)果,超越了專門針對這些任務(wù)的模型。
- 廣泛適用性:Magma在圖像和視頻相關(guān)的多模態(tài)任務(wù)上也表現(xiàn)出色,與訓(xùn)練在更大數(shù)據(jù)集上的大型多模態(tài)模型相比具有競爭力。
- 環(huán)境無關(guān)性:SoM和ToM技術(shù)環(huán)境無關(guān),易于推廣到新的智能體任務(wù),為使用大量未標(biāo)記視頻(如原始教學(xué)視頻)擴(kuò)展模型預(yù)訓(xùn)練提供了有效且高效的方法。
多模態(tài)智能體建模
問題定義
對于這些看似不同的輸出模態(tài),遵循一種常見做法,將所有輸出轉(zhuǎn)換為文本標(biāo)記,以促進(jìn)模型學(xué)習(xí)。將2D動作轉(zhuǎn)換為文本字典(如[19]),并使用大型語言模型(LLMs)中幾乎未使用的最后256個離散語言標(biāo)記表示機(jī)器人動作。盡管這種統(tǒng)一到語言空間的方法簡化了學(xué)習(xí),但我們注意到任務(wù)之間存在顯著沖突,實驗中將展示這一點(diǎn)。接下來,我們將討論如何緩解這些挑戰(zhàn),以在廣泛的數(shù)據(jù)集上訓(xùn)練智能體基礎(chǔ)模型。
方法
在構(gòu)建多模態(tài)AI智能體的強(qiáng)大基礎(chǔ)時,解決了兩個關(guān)鍵挑戰(zhàn):預(yù)訓(xùn)練目標(biāo):如何構(gòu)建統(tǒng)一的預(yù)訓(xùn)練接口以促進(jìn)聯(lián)合訓(xùn)練?一種直接的方法是預(yù)測UI導(dǎo)航的2D坐標(biāo)、末端執(zhí)行器的3D位置以及多模態(tài)視覺-語言(VL)任務(wù)的常規(guī)文本輸出。然而,在實驗中,觀察到這些任務(wù)在輸入和輸出上存在固有的領(lǐng)域差距。前者導(dǎo)致像素級別的巨大搜索空間,后者直接預(yù)測本體感知動作的輸出,而未基于圖像觀察進(jìn)行接地。我們能否設(shè)計一個智能體任務(wù)來彌合所有任務(wù)之間的差距?
數(shù)據(jù)擴(kuò)展:現(xiàn)有的視覺-語言-動作數(shù)據(jù)在數(shù)量和多樣性上有限,與LLMs的語言數(shù)據(jù)或LMMs的圖像-文本語料庫不同。例如,最大的開源機(jī)器人數(shù)據(jù)集OXE 包含來自22個環(huán)境的約100萬條軌跡。另一方面,像LAION 這樣的大規(guī)模圖像-文本數(shù)據(jù)集幾乎不包含對動作預(yù)訓(xùn)練有用的監(jiān)督信息,因為它們都是靜態(tài)的,沒有動作的概念。然而,視頻描繪了大量的人類動作和人與物體的交互。我們能否充分利用這些視頻數(shù)據(jù)進(jìn)行智能體預(yù)訓(xùn)練?
本工作提出了一種簡單而有效的方法來解決上述挑戰(zhàn)。受Set-of-Mark (SoM) 提示 [126] 的通用性啟發(fā),采用它來實現(xiàn)UI和機(jī)器人任務(wù)中的動作接地,因為模型在預(yù)測圖像空間中的可點(diǎn)擊按鈕或機(jī)器人手臂的數(shù)字標(biāo)記時面臨的困難較小。我們進(jìn)一步沿時間軸擴(kuò)展它,要求模型預(yù)測**Trace-of-Mark (ToM)**,這迫使模型通過預(yù)測遠(yuǎn)期的未來“動作”來學(xué)習(xí)更長的時間范圍,更重要的是,提供了一種有效利用未標(biāo)記視頻數(shù)據(jù)的方法。SoM和ToM的結(jié)合實現(xiàn)了數(shù)字和物理領(lǐng)域中智能體任務(wù)的無縫協(xié)同,以及從原始視頻中提取“動作”監(jiān)督的可擴(kuò)展方法。
Set-of-Mark 用于動作接地
SoM提示最初是為了增強(qiáng)GPT-4V的接地能力而提出的,隨后被廣泛用于各種智能體任務(wù)。與之前利用它提示現(xiàn)成的LMMs以增強(qiáng)視覺-語言接地的工作不同,我們在此提出訓(xùn)練一個智能體模型用于動作接地,即定位特定任務(wù)的可操作點(diǎn)/區(qū)域,并在需要時進(jìn)一步預(yù)測原子動作。
其中 是標(biāo)記
的一個子集。
在下圖3中,展示了一些實例,以演示基于SoM的動作接地(如下圖1所示)。為了獲得要標(biāo)記的候選區(qū)域,可以利用不同的提議網(wǎng)絡(luò),如圖像分割模型 、目標(biāo)檢測模型或領(lǐng)域特定模型。
Trace-of-Mark 用于動作規(guī)劃
視頻數(shù)據(jù)包含大量關(guān)于人類動作和行為的信息,這些信息可以有效地用于提升智能體模型的能力。然而,由于缺乏動作標(biāo)簽,之前的方法很少探索這一方向,除了一些專注于世界模型學(xué)習(xí)的工作。通過提出Trace-of-Mark (ToM),將“疊加標(biāo)記”策略從靜態(tài)圖像擴(kuò)展到動態(tài)視頻,使智能體模型能夠有效地從視頻中學(xué)習(xí)規(guī)劃和行動。
建模
為了保留Magma所需的多模態(tài)理解能力,采用了當(dāng)前視覺-語言模型(VLMs)中的常見做法(例如LLaVA和 Phi-3-Vision)。給定視覺觀察 I,使用視覺編碼V將每一幀編碼為若干標(biāo)記,然后將所有標(biāo)記連接成一個序列,并將其與編碼任務(wù)描述的語言標(biāo)記一起輸入到僅解碼器的大型語言模型(LLM)中。由于任務(wù)的多樣性,需要一個能夠無縫編碼各種分辨率的圖像和視頻的視覺編碼器。本文提出使用卷積網(wǎng)絡(luò)ConvNeXt 作為視覺骨干網(wǎng)絡(luò),因為它默認(rèn)支持任意圖像分辨率。為了處理高分辨率圖像(例如高達(dá)2000的UI截圖),簡單地執(zhí)行全局編碼,而不使用之前工作中的復(fù)雜技巧,并發(fā)現(xiàn)它可以編碼全局上下文,同時結(jié)合全局和局部裁剪。最終,將智能體建模公式化為自回歸解碼過程:
多模態(tài)智能體預(yù)訓(xùn)練
數(shù)據(jù)集
為了開發(fā)一個具備語言和空間智能的基礎(chǔ)模型,能夠處理多樣化的智能體任務(wù),我們從廣泛的圖像、視頻和機(jī)器人領(lǐng)域整理了一個綜合的預(yù)訓(xùn)練數(shù)據(jù)集。
- 機(jī)器人操作數(shù)據(jù):對于機(jī)器人任務(wù),遵循OpenVLA,使用Open-X-Embodiment 的機(jī)器人數(shù)據(jù)集。
- UI導(dǎo)航數(shù)據(jù):利用兩個預(yù)訓(xùn)練數(shù)據(jù)集,SeeClick 和 Vision2UI 。
- 教學(xué)視頻:整理了Epic-Kitchen、Ego4d、Somethingv2 和其他相關(guān)數(shù)據(jù)集,考慮到其中包含粗糙但豐富的目標(biāo)驅(qū)動的人類動作。
- 多模態(tài)理解:最后,納入了ShareGPT4V、LLaVA-1.5中的指令調(diào)優(yōu)數(shù)據(jù),以及其他一些OCR相關(guān)數(shù)據(jù)集,以獲得圖像理解能力。
還有許多相關(guān)數(shù)據(jù)集可以用于模型預(yù)訓(xùn)練,例如大規(guī)模指令調(diào)優(yōu)數(shù)據(jù) 和更多樣化的視頻數(shù)據(jù)。本研究專注于展示我們的預(yù)訓(xùn)練方法,并將進(jìn)一步的擴(kuò)展留給未來。接下來,將詳細(xì)闡述如何通過Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 提取智能體動作監(jiān)督。
SoM 和 ToM 生成
如下表1所示,對不同的數(shù)據(jù)類型應(yīng)用SoM和ToM,其中SoM應(yīng)用于所有數(shù)據(jù)以學(xué)習(xí)統(tǒng)一的動作接地。ToM不適用于UI數(shù)據(jù),因為UI數(shù)據(jù)由離散的截圖序列組成。
SoM 用于 UI 導(dǎo)航
對于預(yù)訓(xùn)練數(shù)據(jù)中的UI截圖,主要依賴于基于DoM Tree提取的原始注釋。除了從HTML代碼中提取的邊界框,還進(jìn)一步使用Android視圖層次結(jié)構(gòu) 對SeeClick數(shù)據(jù)中的移動截圖進(jìn)行邊界框標(biāo)注。給定圖像中提取的候選邊界框,我們應(yīng)用下算法1為對象分配文本標(biāo)簽(第3行)并繪制邊界框。為了最小化重疊框的放置,我們在計算文本框大小并分配其坐標(biāo)之前(第7行),使用先前繪制的框確定標(biāo)簽的最佳位置(第5行)。在評估期間,遵循常見做法,使用OmniParser 對ScreenSpot 進(jìn)行零樣本評估,并使用 [27] 提供的候選框?qū)ind2Web進(jìn)行下游訓(xùn)練和評估。
SoM 和 ToM 用于視頻和機(jī)器人數(shù)據(jù)
使用標(biāo)記和軌跡作為智能體動作監(jiān)督,預(yù)訓(xùn)練Magma模型以進(jìn)行動作接地和規(guī)劃。為了提取可靠的軌跡,使用最先進(jìn)的點(diǎn)跟蹤模型CoTracker 來跟蹤每個視頻片段中的關(guān)鍵點(diǎn)。與之前工作中使用的目標(biāo)檢測和跟蹤系統(tǒng)不同,點(diǎn)跟蹤提供了最精細(xì)的末端執(zhí)行器(機(jī)器人手臂或人手)和對象的運(yùn)動軌跡,更重要的是,它可以應(yīng)用于任何視頻,因為它不需要對象識別。
CoTracker的可靠性:為了確定這些軌跡的泛化能力,在所有預(yù)訓(xùn)練數(shù)據(jù)上運(yùn)行算法之前檢查了CoTracker的可靠性。CoTracker已經(jīng)在多個視頻數(shù)據(jù)集(如TAP-Vid 和 PointOdyssey)上得到了充分驗證。在本工作中,提出了全面的策略來處理視頻中的場景轉(zhuǎn)換和相機(jī)運(yùn)動(下算法2),這些策略有效地擴(kuò)展到Ego4D和其他教學(xué)視頻數(shù)據(jù)集(下圖13)。為了進(jìn)一步驗證ToM的可靠性,在YouCook2-BB的一個子集上定量評估了軌跡,該子集包含人類標(biāo)注的邊界框。從每個標(biāo)注的框中提取軌跡,并統(tǒng)計1秒后仍落入框內(nèi)的未來軌跡數(shù)量。在1320個片段上,得到了0.89的精度,表明軌跡可靠地捕捉了時間運(yùn)動。
片段和CLIP分?jǐn)?shù)過濾:由于點(diǎn)跟蹤系統(tǒng)在短時間窗口內(nèi)工作,首先使用提供的注釋將每個視頻分割成片段,然后使用PySceneDetect進(jìn)一步將每個片段分解為具有一致鏡頭的短視頻片段。然而,檢測到的視頻片段可能并不總是與其相關(guān)的文本注釋相關(guān)。因此,使用預(yù)訓(xùn)練的CLIP視覺和文本編碼器計算每個片段和文本對之間的余弦相似度分?jǐn)?shù),并過濾掉分?jǐn)?shù)低于0.25的片段。
預(yù)訓(xùn)練
上述數(shù)據(jù)和注釋整理形成了一個綜合的預(yù)訓(xùn)練套件,涵蓋:
- 不同的數(shù)字和物理環(huán)境;
- 語言和空間注釋;
- 各種多模態(tài)理解和智能體任務(wù)。
如下圖6(左)所示,包含了來自SeeClick 和 Vision2UI 的近270萬張UI導(dǎo)航截圖。遵循OpenVLA,將Open-X-Embodiment中的97萬條軌跡納入其中,這些軌跡包含940萬條圖像-語言-動作三元組。預(yù)訓(xùn)練數(shù)據(jù)的大部分是視頻,包含超過2500萬個樣本,源自約400萬個鏡頭一致的視頻片段。最后,我們納入了來自ShareGPT4V、LLaVa-1.5 和其他一些OCR相關(guān)數(shù)據(jù)集 的120萬張圖像和文本對,將其稱為Magma-SFT(82萬)。
默認(rèn)情況下,使用LLaMA-3-8B作為語言骨干網(wǎng)絡(luò),ConvNext-XXlarge作為視覺骨干網(wǎng)絡(luò)。在下圖7中展示了預(yù)訓(xùn)練架構(gòu)。本文提出的SoM和ToM作為橋梁,連接了所有四種類型數(shù)據(jù)的語言和動作監(jiān)督,并顯著增強(qiáng)了模型的空間智能,正如在實驗中所觀察到的那樣。
為了進(jìn)行比較,在實驗中運(yùn)行了一些變體以進(jìn)行消融研究:
- Magma-8B (SFT):使用Magma-SFT(82萬)進(jìn)行指令調(diào)優(yōu)的模型,遵循LMM訓(xùn)練中使用的常規(guī)方法。
- Magma-8B (UI)和Magma-8B (OXE):分別在UI截圖和OXE機(jī)器人數(shù)據(jù)上預(yù)訓(xùn)練的模型。
- Magma-8B (ACT):在UI截圖和機(jī)器人數(shù)據(jù)上聯(lián)合預(yù)訓(xùn)練的模型。
- Magma-8B (Full):使用整個數(shù)據(jù)集(包含SoM和ToM注釋)訓(xùn)練的完整模型。
除非另有說明,所有預(yù)訓(xùn)練都包括Magma-SFT(82萬)。使用整理的數(shù)據(jù)對模型進(jìn)行最多三個epoch的預(yù)訓(xùn)練,學(xué)習(xí)率恒定為1e-5,并在零樣本設(shè)置下評估預(yù)訓(xùn)練模型在不同任務(wù)上的表現(xiàn),同時在下游任務(wù)上微調(diào)其權(quán)重。整個模型(包括語言模型和視覺編碼器的參數(shù))都會被調(diào)整。
實驗
智能體能力評估
評估 Magma 作為多模態(tài)智能體的基礎(chǔ)模型在數(shù)字世界中的UI導(dǎo)航任務(wù)、物理世界中的機(jī)器人操作任務(wù),以及通用多模態(tài)理解方面的有效性。
零樣本評估
為了評估 Magma 的零樣本遷移能力,采用 ScreenSpot 和 VisualWebBench評估 UI 動作定位和導(dǎo)航,并使用 SimplerEnv 評估機(jī)器人操作。此外,還在通用和文本豐富的 VQA 任務(wù)以及幻覺基準(zhǔn) POPE上驗證了本文的模型。
如下表 2 所示,Magma 在所有其他通用領(lǐng)域的大型多模態(tài)模型(LMMs)(如 LLaVA、Qwen-VL)以及特定領(lǐng)域的智能體模型(如用于 UI 導(dǎo)航的 SeeClick和用于機(jī)器人操作的 OpenVLA)上始終表現(xiàn)優(yōu)越。值得注意的是,Magma 在 UI 任務(wù)上的零樣本性能遠(yuǎn)超使用 GPT-4V 和 Omniparser 的最先進(jìn)視覺方法。
本文報告了 SimplerEnv 中兩種常用模擬器(Bridge 和 Google Robot)的結(jié)果,包括 8 項任務(wù),共 172 個視覺匹配和變體聚合場景。由于 OpenVLA 在真實機(jī)器人軌跡上進(jìn)行預(yù)訓(xùn)練,該模型在真實到模擬(real-to-sim)自適應(yīng)過程中容易受到領(lǐng)域差距的影響。相比之下,本文的 Magma 模型在多模態(tài)理解和動作預(yù)測方面使用了廣泛的異構(gòu)數(shù)據(jù)集進(jìn)行訓(xùn)練,對這種差距更具適應(yīng)性,并取得了顯著更高的成功率。
下圖 8 展示了預(yù)訓(xùn)練的 Magma 模型與其他代表性模型的詳細(xì)對比。值得注意的是,Magma 領(lǐng)先排名第二的 OpenVLA 19.6%,幾乎將平均成功率翻倍。在“將物體放入抽屜”和“將胡蘿卜放在盤子上”等具有挑戰(zhàn)性的任務(wù)中,Magma 取得了卓越的成功率,而大多數(shù)基線模型完全失敗。此外,在預(yù)訓(xùn)練模型的基礎(chǔ)上微調(diào)的 Magma 版本比僅在機(jī)器人數(shù)據(jù)集上訓(xùn)練的版本表現(xiàn)更好,這凸顯了從多樣化數(shù)據(jù)集中學(xué)習(xí)的空間智能對于物理機(jī)器人操作任務(wù)的價值。
消融研究對模型的預(yù)訓(xùn)練技術(shù)和數(shù)據(jù)組合進(jìn)行消融實驗,結(jié)果如下表 3 所示。首先,簡單地將 UI 和機(jī)器人數(shù)據(jù)結(jié)合并不會帶來性能提升,反而會對兩類任務(wù)的性能造成損害。這是可以預(yù)見的,因為這兩個智能體任務(wù)在圖像域和動作空間(2D 坐標(biāo) vs. 7-DoF)上存在顯著差異。在預(yù)訓(xùn)練中加入視頻數(shù)據(jù)可以在整體上略微提升性能,但仍無法彌合二者之間的差距,因為額外的視頻解說只能增強(qiáng)語言智能。然而,當(dāng)在所有預(yù)訓(xùn)練數(shù)據(jù)上應(yīng)用 SoM 和 ToM 并將其映射到統(tǒng)一接口后,模型能夠有效地從異構(gòu)數(shù)據(jù)中學(xué)習(xí)語言和空間智能。該研究表明,本文提出的方法是有效的,并且語言理解與空間理解對于智能體任務(wù)同等重要。
高效微調(diào)
UI導(dǎo)航:遵循之前的工作 [19, 43],在Mind2Web和AITW上對Magma進(jìn)行微調(diào),分別測試其在網(wǎng)頁和移動UI導(dǎo)航中的能力。對于Mind2Web,首先根據(jù) [140] 選擇的候選框?qū)τ?xùn)練樣本應(yīng)用SoM提示,然后在與SeeClick相同的樣本上對Magma進(jìn)行微調(diào)。下表4顯示了三個子任務(wù)的結(jié)果,清楚地表明Magma優(yōu)于通用領(lǐng)域和特定領(lǐng)域的LMMs。同樣,在AITW上,Magma超越了基于開源或?qū)S心P偷淖钕冗M(jìn)方法??紤]到我們使用了類似規(guī)模的LLM和適量的UI相關(guān)預(yù)訓(xùn)練數(shù)據(jù),這種出色的性能主要?dú)w功于所提出的SoM和ToM建模技術(shù),這些技術(shù)顯著促進(jìn)了UI導(dǎo)航中的動作接地。
機(jī)器人操作:前面表2顯示,未經(jīng)領(lǐng)域特定微調(diào)的Magma模型已經(jīng)優(yōu)于在相同數(shù)量OXE數(shù)據(jù)上預(yù)訓(xùn)練27個epoch的最近提出的OpenVLA模型。接下來,我們通過將微調(diào)后的Magma模型與OpenVLA在三種設(shè)置下進(jìn)行比較,驗證其有效性:
- 在真實機(jī)器人數(shù)據(jù)上微調(diào):評估分布外操作任務(wù);
- 在模擬機(jī)器人設(shè)置中微調(diào):使用LIBERO基準(zhǔn)測試評估Magma在有限軌跡下的任務(wù)適應(yīng)能力;
- 在物理WidoxW 250 Arm上評估。
研究者們收集了四個操作任務(wù),每個任務(wù)大約有50條軌跡(詳見補(bǔ)充材料),并在這些任務(wù)上聯(lián)合微調(diào)OpenVLA和Magma。為了評估,我們每個任務(wù)進(jìn)行10次試驗,確保模型之間的初始狀態(tài)(末端執(zhí)行器和對象的位置和方向)相同。如下圖9所示,結(jié)果清楚地展示了Magma的優(yōu)越性能。對于涉及日常對象的挑戰(zhàn)性任務(wù),如“Pick Place Hotdog Sausage”、“Put Mushroom in Pot”和“Push Cloth Right to Left”,OpenVLA幾乎無法完成任務(wù),主要是由于觀察到的臂部運(yùn)動和對象定位不精確。相比之下,Magma在這些復(fù)雜任務(wù)上表現(xiàn)良好,這主要?dú)w功于其從預(yù)訓(xùn)練中獲得的空間理解和接地能力。此外評估了模型在未見任務(wù)“Push Cloth Left to Right”上的表現(xiàn),該任務(wù)未包含在微調(diào)數(shù)據(jù)集中。Magma顯著優(yōu)于基線,表明其具有更強(qiáng)的保留預(yù)訓(xùn)練知識并泛化到新任務(wù)的能力。
Magma的高效適應(yīng)能力(通過微調(diào))在LIBERO基準(zhǔn)測試中的少樣本微調(diào)評估中得到了進(jìn)一步驗證。對于基準(zhǔn)測試中的每個任務(wù)套件,我們僅采樣10條軌跡進(jìn)行微調(diào)。在評估期間,每個任務(wù)套件進(jìn)行100次試驗。如下圖10所示,結(jié)果表明Magma在所有任務(wù)套件中實現(xiàn)了顯著更高的平均成功率。此外,在預(yù)訓(xùn)練期間移除SoM和ToM會對模型性能產(chǎn)生負(fù)面影響,這進(jìn)一步證明了我們預(yù)訓(xùn)練方法的有效性。
評估空間推理能力
將 Magma 模型在 UI 導(dǎo)航和機(jī)器人操作任務(wù)上的顯著性能提升(如上所示)歸因于其增強(qiáng)的空間推理能力。為了驗證這一假設(shè),我們在具有挑戰(zhàn)性的視覺空間推理(VSR)、BLINK 和 SpatialEval基準(zhǔn)測試上,以零樣本(zero-shot)設(shè)置評估我們預(yù)訓(xùn)練模型所學(xué)到的空間智能的有效性。結(jié)果匯總在表 6 中。我們發(fā)現(xiàn),Magma 在 VSR 和 SpatialEval 上的表現(xiàn)大幅超越現(xiàn)有方法,并且在 BLINK 任務(wù)上的表現(xiàn)與 CogVLM 相當(dāng),盡管后者使用了約 15 億張圖像進(jìn)行預(yù)訓(xùn)練,而 Magma 僅使用了約 2900 萬張圖像。此外,我們的消融研究表明,SoM 和 ToM 預(yù)訓(xùn)練任務(wù)對于 Magma 提升空間推理能力具有重要作用。最后,在預(yù)訓(xùn)練過程中使用視頻數(shù)據(jù)的優(yōu)勢,并通過實驗表明,在訓(xùn)練數(shù)據(jù)中去除視頻會導(dǎo)致 BLINK 任務(wù)的性能下降約 8%。此外,在下圖 11 中提供了一些 Magma 模型的預(yù)測示例??臻g推理問題對 GPT-4o 等最新專有模型仍然具有挑戰(zhàn)性。盡管 Magma 沒有在包含迷宮的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,但它仍然能夠回答與迷宮相關(guān)的空間推理問題。
評估多模態(tài)理解
圖像指令微調(diào)為了進(jìn)一步評估 Magma 的多模態(tài)理解能力,在 Magma-SFT-820K 數(shù)據(jù)上進(jìn)行持續(xù)微調(diào)。然后,將微調(diào)后的 Magma 模型與現(xiàn)有的 VLMs(視覺語言模型)進(jìn)行比較,使用一系列常用的圖像推理基準(zhǔn),例如 MME 和 GQA。如下表 7 所示,Magma 在大多數(shù)任務(wù)上超越了最近提出的 VLMs,尤其是在 TextVQA 和 ChartQA 上分別取得了約 5% 和 22% 的顯著提升。與下表 6 中的觀察結(jié)果類似,我們的消融研究強(qiáng)調(diào)了 SoM 和 ToM 預(yù)訓(xùn)練任務(wù)的有效性,這在 ChartQA 上帶來了約 5% 的提升。
視頻指令微調(diào)下表 8中報告了 Magma 模型在多個挑戰(zhàn)性視頻問答(QA)基準(zhǔn)測試中的表現(xiàn),包括 IntentQA、NextQA、VideoMME 和 MVBench。使用 LMMs-Eval 框架進(jìn)行后三個基準(zhǔn)測試,以確保評估結(jié)果的可重復(fù)性。
結(jié)果展示了本文預(yù)訓(xùn)練方法的有效性,在不同基準(zhǔn)測試中,Magna consistently 在大多數(shù)具有可比參數(shù)數(shù)量的最新模型中表現(xiàn)更好。例如,我們的 Magma 模型在 IG-VLM 和 SF-LLaVA 模型上實現(xiàn)了約 28% 的性能提升。IntentQA 基準(zhǔn)評估模型理解視頻中觀察到的動作背后意圖的能力。因此,Magma 在該數(shù)據(jù)集上取得的顯著提升可能歸因于我們 ToM 預(yù)訓(xùn)練任務(wù)的有效性,該任務(wù)鼓勵模型推理未來視頻幀中的時間動態(tài)。MVBench 中動作預(yù)測子任務(wù)上的顯著提升也進(jìn)一步證實了這一點(diǎn),Magma 超越了 VideoChat2 和 LLaVA-OV 等最先進(jìn)的模型。
最先進(jìn)的視頻 LMMs 通常依賴于像 Webvid 和 ShareGPT4Video 這樣的大型視頻和文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,這些數(shù)據(jù)集包含超過 400 萬個樣本,并且有經(jīng)過策劃的文本。此外,前述模型在預(yù)訓(xùn)練時也使用了更多的幀數(shù)。相比之下,即使在我們的案例中進(jìn)行了多幀預(yù)訓(xùn)練,由于計算限制,我們最多只使用了 4 幀。因此,Magma 在 VideoMME 和 MVBench 上超越了 LLaVA-OV 和 ShareGPT4Video 等方法尤其具有意義,因為這些方法通常使用更大的指令微調(diào)數(shù)據(jù)集,包括圖像和視頻數(shù)據(jù)。此外,正如 Magma 在專有模型 GPT-4V 上獲得的性能提升所證明的那樣,我們注意到這些結(jié)果的改進(jìn)不僅僅是因為使用了像 LLama-3 這樣更新更強(qiáng)大的語言模型。值得注意的是,Magma 在性能上遠(yuǎn)超 LongVA,盡管它只使用了 32 幀,而 LongVA 使用了 64 幀。
結(jié)論
本文提出了 Magma 基礎(chǔ)模型,它能夠理解和處理多模態(tài)輸入,以完成不同環(huán)境中的智能體任務(wù)。實驗表明,在預(yù)訓(xùn)練中使用 SoM 和 ToM 預(yù)測任務(wù)幫助模型分別學(xué)習(xí)如何進(jìn)行基礎(chǔ)推理和規(guī)劃動作。在實驗中,Magma 展示了強(qiáng)大的時空推理能力,并且在下游的 UI 導(dǎo)航和機(jī)器人操作任務(wù)上顯著超越了基準(zhǔn)模型。
社會影響和局限性為了開發(fā)一個具有語言和空間智能、能夠處理數(shù)字和物理環(huán)境中多樣化智能體任務(wù)的基礎(chǔ)模型,從多個領(lǐng)域收集了全面的預(yù)訓(xùn)練數(shù)據(jù)集,包括圖像、視頻和機(jī)器人領(lǐng)域:
- UI 導(dǎo)航數(shù)據(jù):利用了兩個預(yù)訓(xùn)練數(shù)據(jù)集 SeeClick 和 Vision2UI。
- 教學(xué)視頻:由于我們的目標(biāo)是學(xué)習(xí)一個能夠執(zhí)行日常任務(wù)(如人類)的智能體模型,我們匯編了來自 Epic Kitchen、Ego4d、Something-Something v2 和其他教學(xué)視頻的數(shù)據(jù)。
- 機(jī)器人操作數(shù)據(jù):對于機(jī)器人任務(wù),遵循 OpenVLA 方法,利用了 Open-X-Embodiment 中的機(jī)器人數(shù)據(jù)。
- 多模態(tài)理解數(shù)據(jù):最后,包括了一小部分多模態(tài)預(yù)訓(xùn)練數(shù)據(jù) ShareGPT4V,以及指令調(diào)優(yōu)數(shù)據(jù) LlaVA-1.5 和其他領(lǐng)域特定的數(shù)據(jù),以保持預(yù)訓(xùn)練模型的通用多模態(tài)理解能力。
機(jī)器人和 UI 導(dǎo)航數(shù)據(jù)的標(biāo)注非常標(biāo)準(zhǔn)化,集中于通用的操作任務(wù)(“將 x 物體放置在 y 物體上”)和通用的 UI 導(dǎo)航任務(wù)(“點(diǎn)擊搜索按鈕”)。然而,我們對執(zhí)行特定任務(wù)的人物視頻數(shù)據(jù)進(jìn)行了詳細(xì)的數(shù)據(jù)反思。在這些視頻中,我們的核心推論是任務(wù)執(zhí)行時物體的運(yùn)動軌跡。
教學(xué)視頻中身份和活動的分布并未代表全球人群及社會中的多樣性。意識到在使用這些數(shù)據(jù)進(jìn)行訓(xùn)練時,可能存在無意的社會性、性別、種族及其他偏見,因此我們將確保在發(fā)布模型時提供必要的免責(zé)聲明。訓(xùn)練數(shù)據(jù)集、任務(wù)列表和描述僅關(guān)注要執(zhí)行的下一步操作,而不是描述、處理或分析任務(wù)本身。雖然模型可能會基于不良的任務(wù)描述產(chǎn)生意外輸出,我們將確保突出展示模型訓(xùn)練的用例及其預(yù)期用途。
負(fù)責(zé)任的 AI值得注意的是,該模型專為受控的 Web UI 和 Android 模擬器中的 UI 導(dǎo)航任務(wù)以及機(jī)器人操作任務(wù)設(shè)計,不應(yīng)廣泛應(yīng)用于其他任務(wù)。推薦的使用場景是在其訓(xùn)練環(huán)境內(nèi),即配備機(jī)器人臂和日常物體的封閉空間用于機(jī)器人操作,及在計算機(jī)上運(yùn)行的 Android 模擬器用于 UI 操作任務(wù)。對于 UI 導(dǎo)航任務(wù),研究人員應(yīng)確保在每個智能體系統(tǒng)生成的動作中,始終由人工干預(yù)和控制。由于模型本身無法獨(dú)立行動,因此研究人員使用的子模塊必須確保執(zhí)行模型提出的 UI 操作時不會產(chǎn)生意外后果。
該模型本身展示了足夠的 UI 導(dǎo)航和機(jī)器人操作能力,但不能直接用于惡意利用場景。惡意攻擊者可以使用特定的訓(xùn)練數(shù)據(jù)進(jìn)行特定的惡意任務(wù),將該模型作為基礎(chǔ)來執(zhí)行自動化的 UI 導(dǎo)航任務(wù)。這是與智能體模型相關(guān)的普遍風(fēng)險。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接??https://mp.weixin.qq.com/s/z69YT0Ww_QGCYQ1ghiaFXQ??
