成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<cite id="okkmg"></cite>

<table id="okkmg"><dl id="okkmg"></dl></table>

<li id="okkmg"><source id="okkmg"></source></li>

<li id="okkmg"><source id="okkmg"></source></li>

<rt id="okkmg"></rt>

<li id="okkmg"></li>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）精華

發(fā)布于 2024-5-14 10:09

瀏覽

0收藏

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2402.15116

github地址：https://github.com/jun0wanan/awesome-large-multimodal-agents

大語言模型（LLMs）在為基于文本的AI智能體提供動(dòng)力方面取得了卓越的表現(xiàn)，賦予它們類似于人類的決策和推理能力。與此同時(shí)，出現(xiàn)了一個(gè)新興的研究趨勢(shì)，專注于將這些由LLMs驅(qū)動(dòng)的AI智能體擴(kuò)展到多模態(tài)領(lǐng)域。這種擴(kuò)展使得AI智能體能夠解釋和響應(yīng)各種多模態(tài)用戶queries，從而處理更加復(fù)雜和微妙的任務(wù)。

本文對(duì)LLMs驅(qū)動(dòng)的多模態(tài)智能體進(jìn)行了系統(tǒng)性審查，將其稱為大型多模態(tài)智能體（簡(jiǎn)稱LMAs）。

首先，介紹了開發(fā)LMAs所涉及的基本組件，并將當(dāng)前的研究成果分類為四種不同類型。

隨后，審查了整合多個(gè)LMAs的協(xié)作框架，增強(qiáng)了集體效能。該領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)是現(xiàn)有研究中使用了多種不同的評(píng)估方法，這些方法阻礙了對(duì)不同LMAs進(jìn)行有效比較。因此，本文編制了這些評(píng)估方法，并建立了一個(gè)全面的框架來彌合這些差距。該框架旨在標(biāo)準(zhǔn)化評(píng)估，促進(jìn)更有意義的比較。在審查結(jié)束時(shí)，強(qiáng)調(diào)了LMAs的廣泛應(yīng)用，并提出了可能的未來研究方向。

本文討論旨在為這一快速發(fā)展的領(lǐng)域的未來研究提供有價(jià)值的見解和指導(dǎo)。

介紹

智能體（agent）是一個(gè)能夠感知其環(huán)境并根據(jù)這些感知做出決策以達(dá)到特定目標(biāo)的系統(tǒng)。盡管在狹窄領(lǐng)域內(nèi)表現(xiàn)出色，早期智能體往往缺乏適應(yīng)性和泛化能力，與人類智能存在顯著差異。最近大語言模型（LLMs）的進(jìn)展開始彌合這一差距，LLMs增強(qiáng)了它們?cè)诿罱忉尅⒅R(shí)吸收和模擬人類推理和學(xué)習(xí)方面的能力。這些智能體使用LLMs作為它們的主要決策工具，并進(jìn)一步增強(qiáng)了關(guān)鍵的類人特征，如記憶。這種增強(qiáng)使它們能夠處理各種自然語言處理任務(wù)，并使用語言與環(huán)境進(jìn)行交互。

然而，現(xiàn)實(shí)世界的場(chǎng)景往往涉及超越文本的信息，包括多種模態(tài)，其中視覺方面的重要性很大。因此，由LLMs驅(qū)動(dòng)的智能智能體的下一個(gè)進(jìn)化步驟是獲得處理和生成多模態(tài)信息的能力，特別是視覺數(shù)據(jù)。這種能力對(duì)于這些智能體進(jìn)化為更強(qiáng)大的AI實(shí)體，模仿人類級(jí)別的智能至關(guān)重要。本文具備這種能力的智能體被稱為大型多模態(tài)智能體（LMAs）。通常，它們面臨的挑戰(zhàn)比僅包含語言的智能體更為復(fù)雜。

以網(wǎng)絡(luò)搜索為例，一個(gè)LMA首先需要通過搜索欄輸入用戶的要求，以查找相關(guān)信息。隨后，它通過鼠標(biāo)點(diǎn)擊和滾動(dòng)導(dǎo)航到網(wǎng)頁，以瀏覽實(shí)時(shí)網(wǎng)頁內(nèi)容。最后，LMA需要處理多模態(tài)數(shù)據(jù)（如文本、視頻和圖像）并進(jìn)行多步推理，包括從網(wǎng)絡(luò)文章、視頻報(bào)道和社交媒體更新中提取關(guān)鍵信息，并將這些信息整合以響應(yīng)用戶的查詢。我們注意到，現(xiàn)有的LMAs研究是孤立進(jìn)行的，因此有必要通過總結(jié)和比較現(xiàn)有的框架來進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展。存在一些與LLM驅(qū)動(dòng)智能體相關(guān)的調(diào)查，但其中很少有關(guān)注多模態(tài)方面的。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

本文旨在通過總結(jié)LMAs的主要發(fā)展來填補(bǔ)這一空白。首先，介紹了核心組件，并提出了現(xiàn)有研究的新分類法，進(jìn)一步討論了現(xiàn)有的協(xié)作框架。關(guān)于評(píng)估，概述了評(píng)估LMAs性能的現(xiàn)有方法，并進(jìn)行了全面的總結(jié)。然后，應(yīng)用部分提供了多模態(tài)智能體及其相關(guān)任務(wù)廣泛的現(xiàn)實(shí)世界應(yīng)用的詳盡概述。最后，通過討論并提出LMAs可能的未來發(fā)展方向來總結(jié)這項(xiàng)工作，為有用的研究指導(dǎo)提供支持。

LMAs的核心組件

本節(jié)詳細(xì)介紹了LMAs的四個(gè)核心元素，包括感知、規(guī)劃、行動(dòng)和記憶。

感知。感知是一種復(fù)雜的認(rèn)知過程，使人類能夠收集和解釋環(huán)境信息。在LMAs中，感知組件主要集中在處理來自不同環(huán)境的多模態(tài)信息上。如下表1所示，在不同任務(wù)中的LMAs涉及各種模態(tài)。它們需要從這些不同的模態(tài)中提取對(duì)任務(wù)完成最有利的關(guān)鍵信息，從而促進(jìn)任務(wù)的更有效規(guī)劃和執(zhí)行。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

早期的處理多模態(tài)信息的研究通常依賴于簡(jiǎn)單的相關(guān)模型或工具，將圖像或音頻轉(zhuǎn)換為文本描述。然而，這種轉(zhuǎn)換方法往往會(huì)產(chǎn)生大量無關(guān)和冗余信息，特別是對(duì)于復(fù)雜的模態(tài)（例如視頻）。除了輸入長(zhǎng)度限制，LLMs經(jīng)常面臨有效提取相關(guān)信息進(jìn)行規(guī)劃的挑戰(zhàn)。為解決這一問題，近期的研究引入了子任務(wù)工具的概念，旨在處理復(fù)雜的數(shù)據(jù)類型。在類似真實(shí)世界的環(huán)境（即開放世界游戲）中，[51]提出了一種處理非文本模態(tài)信息的新方法。該方法首先從環(huán)境中提取關(guān)鍵的視覺詞匯，然后使用GPT模型進(jìn)一步將這些詞匯細(xì)化為一系列描述性句子。當(dāng)LLMs感知環(huán)境中的視覺模態(tài)時(shí)，它們使用這些模態(tài)來檢索最相關(guān)的描述性句子，從而有效增強(qiáng)了對(duì)環(huán)境的理解。

規(guī)劃。 規(guī)劃者在LMAs中起著核心作用，類似于人類大腦的功能。它們負(fù)責(zé)對(duì)當(dāng)前任務(wù)進(jìn)行深入推理，并制定相應(yīng)的計(jì)劃。與僅使用語言的智能體相比，LMAs在更復(fù)雜的環(huán)境中運(yùn)行，制定合理計(jì)劃更具挑戰(zhàn)性。從四個(gè)角度（模型、格式、檢查和反思、規(guī)劃方法）詳細(xì)介紹了規(guī)劃者：

模型：如下表1所示，現(xiàn)有研究采用不同的模型作為規(guī)劃者。其中，最流行的是GPT-3.5或GPT-4。然而，這些模型并不是公開的，因此一些研究已經(jīng)開始轉(zhuǎn)向使用開源模型，例如LLaMA和LLaVA，后者可以直接處理多種模態(tài)的信息，增強(qiáng)了它們制定更優(yōu)化計(jì)劃的能力。
格式：它表示規(guī)劃者制定的計(jì)劃的格式。如上面表1所示，有兩種格式化方式。第一種是自然語言。例如，在某些研究中，獲得的規(guī)劃內(nèi)容是“我首先使用OpenCV的openpose控制模型分析圖像中男孩的姿態(tài)......”，其中制定的計(jì)劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式，如在某些研究中描述的“image_patch = ImagePatch(image)”，其中調(diào)用ImagePatch函數(shù)來執(zhí)行規(guī)劃。還有混合形式。
檢查和反思：在復(fù)雜的多模態(tài)環(huán)境中，LMAs要始終制定有意義的、完成任務(wù)的規(guī)劃是具有挑戰(zhàn)性的。這個(gè)組件旨在增強(qiáng)魯棒性和適應(yīng)性。一些研究方法存儲(chǔ)成功的經(jīng)驗(yàn)在長(zhǎng)期記憶中，包括多模態(tài)狀態(tài)，以指導(dǎo)規(guī)劃。在規(guī)劃過程中，它們首先檢索相關(guān)經(jīng)驗(yàn)，幫助規(guī)劃者深思熟慮以減少不確定性。此外，[12]利用人類在執(zhí)行相同任務(wù)時(shí)在不同狀態(tài)下制定的計(jì)劃。當(dāng)遇到類似的狀態(tài)時(shí)，規(guī)劃者可以參考這些“標(biāo)準(zhǔn)答案”進(jìn)行思考，從而制定更合理的計(jì)劃。此外，[71]采用了更復(fù)雜的規(guī)劃方法，如蒙特卡羅，以擴(kuò)大規(guī)劃搜索的范圍，找到最佳的規(guī)劃策略。
規(guī)劃方法：現(xiàn)有的規(guī)劃策略可以分為兩種類型：動(dòng)態(tài)規(guī)劃和靜態(tài)規(guī)劃，如前面表1所示。前者是指根據(jù)初始輸入將目標(biāo)分解為一系列子計(jì)劃，類似于思維鏈（CoT），即使在過程中發(fā)生錯(cuò)誤，也不會(huì)重新制定計(jì)劃；后者意味著每個(gè)計(jì)劃都是基于當(dāng)前環(huán)境信息或反饋制定的。如果在計(jì)劃中檢測(cè)到錯(cuò)誤，它將恢復(fù)到原始狀態(tài)進(jìn)行重新規(guī)劃。

?

行動(dòng)。 多模態(tài)智能體系統(tǒng)中的行動(dòng)組件負(fù)責(zé)執(zhí)行規(guī)劃者制定的規(guī)劃和決策。它將這些規(guī)劃轉(zhuǎn)化為具體的行動(dòng)，例如使用工具、身體動(dòng)作或與界面交互，從而確保智能體能夠準(zhǔn)確高效地實(shí)現(xiàn)其目標(biāo)并與環(huán)境進(jìn)行交互。討論重點(diǎn)在于兩個(gè)方面：類型和方法。

在前面表1中，行動(dòng)被分類為三種類型：工具使用（T）、實(shí)體動(dòng)作（E）和虛擬動(dòng)作（V），其中工具包括視覺基礎(chǔ)模型（VFMs）、API、Python等（如表2所列）；實(shí)體動(dòng)作是由物理實(shí)體執(zhí)行的，如機(jī)器人或虛擬角色；虛擬動(dòng)作包括網(wǎng)絡(luò)任務(wù)（例如，點(diǎn)擊鏈接、滾動(dòng)和鍵盤使用）。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

就方法而言，如表1所示，主要有兩種類型。第一種類型涉及使用提示向智能體提供有關(guān)可執(zhí)行行動(dòng)的信息，例如當(dāng)前可用的工具及其功能；第二種類型涉及收集關(guān)于行動(dòng)的數(shù)據(jù)，并利用這些信息來自我指導(dǎo)開源大型模型的微調(diào)過程，例如LLaVA。這些數(shù)據(jù)通常由先進(jìn)的模型生成，例如GPT-4。與僅使用語言的智能體相比，與行動(dòng)相關(guān)的信息和數(shù)據(jù)的復(fù)雜性需要更復(fù)雜的方法來優(yōu)化學(xué)習(xí)策略。

記憶。 早期研究表明，記憶機(jī)制在通用智能體的運(yùn)作中起著至關(guān)重要的作用。與人類類似，智能體的記憶可以分為長(zhǎng)期記憶和短期記憶。在簡(jiǎn)單的環(huán)境中，短期記憶足以讓智能體處理手頭的任務(wù)。然而，在更復(fù)雜和更現(xiàn)實(shí)的環(huán)境中，長(zhǎng)期記憶變得至關(guān)重要。在表1中，可以看到只有少數(shù)LMAs包含長(zhǎng)期記憶。與僅使用語言的智能體不同，這些多模態(tài)智能體需要能夠跨越各種模態(tài)存儲(chǔ)信息的長(zhǎng)期記憶。在一些研究中，所有模態(tài)都被轉(zhuǎn)換為文本格式進(jìn)行存儲(chǔ)。然而，在某些研究中，提出了一種多模態(tài)長(zhǎng)期記憶系統(tǒng)，專門設(shè)計(jì)用于存檔以前的成功經(jīng)驗(yàn)。具體而言，這些記憶被存儲(chǔ)為鍵值對(duì)，其中鍵是多模態(tài)狀態(tài)，值是成功的計(jì)劃。在遇到新的多模態(tài)狀態(tài)時(shí)，根據(jù)它們的編碼相似性檢索最類似的例子。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

其中，代表通過CLIP模型編碼的鍵的視覺信息，與當(dāng)前由CLIP編碼的視覺狀態(tài)進(jìn)行相似性比較。

LMAs的分類法

通過將現(xiàn)有研究分類為四種類型，提出了一種分類法。

類型I：閉源LLMs作為沒有長(zhǎng)期記憶的規(guī)劃者。 早期的研究采用提示來利用閉源的大語言模型（如GPT-3.5）作為推理和規(guī)劃的規(guī)劃者，如圖2(a)所示。根據(jù)特定的環(huán)境或任務(wù)要求，這些計(jì)劃的執(zhí)行可以通過下游工具包或通過使用鼠標(biāo)或機(jī)器人手臂等物理設(shè)備直接與環(huán)境進(jìn)行交互。這種類型的LMAs通常在更簡(jiǎn)單的環(huán)境中運(yùn)行，承擔(dān)著傳統(tǒng)的任務(wù)，如圖像編輯、視覺定位和視覺問答（VQA）。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

類型II：經(jīng)過微調(diào)的LLMs作為沒有長(zhǎng)期記憶的規(guī)劃者。 這種類型的LMAs涉及收集多模態(tài)指令跟隨數(shù)據(jù)或使用自我指導(dǎo)來微調(diào)開源的大語言模型（如LLaMA）或多模態(tài)模型（如LLaVA），如圖2(b)所示。這種增強(qiáng)不僅使模型能夠作為推理和規(guī)劃的中心“大腦”，還使其能夠執(zhí)行這些計(jì)劃。類型II LMAs面臨的環(huán)境和任務(wù)與類型I類似，通常涉及傳統(tǒng)的視覺或多模態(tài)任務(wù)。與相對(duì)簡(jiǎn)單的動(dòng)態(tài)特性、封閉環(huán)境和基本任務(wù)的典型場(chǎng)景相比，在像Minecraft這樣的開放世界游戲中，LMAs需要在動(dòng)態(tài)背景下執(zhí)行精確的規(guī)劃，在高復(fù)雜性的任務(wù)中進(jìn)行處理，并進(jìn)行終身學(xué)習(xí)以適應(yīng)新的挑戰(zhàn)。因此，在類型I和類型II的基礎(chǔ)上，類型III和類型IV的LMAs集成了記憶組件，展示了向人工智能領(lǐng)域中的通用智能體發(fā)展的巨大潛力。

類型III：具有間接長(zhǎng)期記憶的規(guī)劃者。 對(duì)于類型III的LMAs，如圖2(c)所示，LLMs充當(dāng)中央規(guī)劃者，并配備有長(zhǎng)期記憶。這些規(guī)劃者通過調(diào)用相關(guān)工具訪問和檢索長(zhǎng)期記憶，利用這些記憶來增強(qiáng)推理和規(guī)劃。例如，在[71]中開發(fā)的多模態(tài)智能體框架專為視頻處理等動(dòng)態(tài)任務(wù)量身定制。該框架包括一個(gè)規(guī)劃者、一個(gè)工具包和一個(gè)與任務(wù)相關(guān)的記憶庫，目錄了空間和時(shí)間屬性。規(guī)劃者使用專門的子任務(wù)工具查詢記憶庫，以獲取與視頻內(nèi)容相關(guān)的時(shí)空屬性，從而推斷出與任務(wù)相關(guān)的時(shí)間和空間數(shù)據(jù)。存儲(chǔ)在工具包中的每個(gè)工具都專為特定類型的時(shí)空推理而設(shè)計(jì)，并在框架內(nèi)作為執(zhí)行者。

類型IV：具有本地長(zhǎng)期記憶的規(guī)劃者。 與類型III不同，類型IV的LMAs具有LLMs直接與長(zhǎng)期記憶進(jìn)行交互，繞過了使用工具訪問長(zhǎng)期記憶的需要，如圖2(d)所示。例如，在[51]中提出的多模態(tài)智能體展示了在Minecraft的開放世界環(huán)境中完成200多個(gè)不同任務(wù)的熟練技能。在他們的多模態(tài)智能體設(shè)計(jì)中，交互式規(guī)劃者將多模態(tài)基礎(chǔ)模型與LLM相結(jié)合，首先將環(huán)境多模態(tài)輸入轉(zhuǎn)換為文本。規(guī)劃者進(jìn)一步采用自檢機(jī)制來預(yù)測(cè)和評(píng)估執(zhí)行中的每個(gè)步驟，主動(dòng)發(fā)現(xiàn)潛在缺陷，并結(jié)合環(huán)境反饋和自我解釋，迅速糾正和完善計(jì)劃，而無需額外信息。此外，該多模態(tài)智能體框架包括一個(gè)新穎的多模態(tài)記憶。成功的任務(wù)計(jì)劃及其初始多模態(tài)狀態(tài)被存儲(chǔ)，規(guī)劃者從該數(shù)據(jù)庫中檢索類似的狀態(tài)用于新任務(wù)，利用積累的經(jīng)驗(yàn)以實(shí)現(xiàn)更快、更有效的任務(wù)完成。

多智能體協(xié)作

本節(jié)進(jìn)一步介紹了超出孤立智能體討論范圍的LMAs的協(xié)作框架。

如下圖3(a)(b)所示，這些框架采用多個(gè)LMAs協(xié)同工作。這兩種框架之間的關(guān)鍵區(qū)別在于是否存在記憶組件，但它們的基本原理是一致的：多個(gè)LMAs擁有不同的角色和責(zé)任，使它們能夠協(xié)調(diào)行動(dòng)，共同實(shí)現(xiàn)共同目標(biāo)。這種結(jié)構(gòu)減輕了單個(gè)智能體的負(fù)擔(dān)，從而增強(qiáng)了任務(wù)性能。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

例如，在[37]的多模態(tài)智能體框架中，引入了一個(gè)感知者智能體來感知多模態(tài)環(huán)境，由大型多模態(tài)模型組成。一個(gè)被指定為Patroller的智能體負(fù)責(zé)與感知者智能體進(jìn)行多次交互，對(duì)感知到的環(huán)境數(shù)據(jù)進(jìn)行實(shí)時(shí)檢查和反饋，以確保當(dāng)前計(jì)劃和行動(dòng)的準(zhǔn)確性。當(dāng)檢測(cè)到執(zhí)行失敗或需要重新評(píng)估時(shí)，Patroller向規(guī)劃者提供相關(guān)信息，促使重新組織或更新子目標(biāo)下的動(dòng)作序列。

MemoDroid框架由幾個(gè)關(guān)鍵智能體組成，它們共同工作以自動(dòng)化移動(dòng)任務(wù)。探索智能體負(fù)責(zé)對(duì)目標(biāo)應(yīng)用程序界面進(jìn)行離線分析，根據(jù)UI元素生成潛在子任務(wù)列表，然后將其存儲(chǔ)在應(yīng)用程序內(nèi)存中。在在線執(zhí)行階段，選擇智能體根據(jù)用戶命令和當(dāng)前屏幕狀態(tài)從探索的集合中確定要執(zhí)行的特定子任務(wù)。推斷智能體進(jìn)一步通過提示LLM識(shí)別并完成所選子任務(wù)所需的基礎(chǔ)動(dòng)作序列。同時(shí)，當(dāng)遇到與先前學(xué)習(xí)的任務(wù)相似的任務(wù)時(shí)，Recall智能體可以直接從內(nèi)存中調(diào)用和執(zhí)行相應(yīng)的子任務(wù)和動(dòng)作序列。

評(píng)估

研究的主要焦點(diǎn)是增強(qiáng)當(dāng)前LMAs的能力。然而，對(duì)于這些智能體的評(píng)估和評(píng)價(jià)方法，卻付出了有限的努力。大多數(shù)研究仍然依賴于傳統(tǒng)的性能評(píng)估指標(biāo)，這清楚地說明了評(píng)估LMAs的挑戰(zhàn)。這也強(qiáng)調(diào)了在這一領(lǐng)域開發(fā)實(shí)用的評(píng)估標(biāo)準(zhǔn)和建立基準(zhǔn)數(shù)據(jù)集的必要性。本節(jié)總結(jié)了對(duì)LMAs的現(xiàn)有評(píng)估，并提供了對(duì)未來發(fā)展的展望。

主觀評(píng)價(jià)

主觀評(píng)價(jià)主要是指使用人類來評(píng)估這些LMAs的能力。最終目標(biāo)是創(chuàng)建一個(gè)能夠像人類一樣理解世界并自主執(zhí)行各種任務(wù)的LMA。因此，采用人類用戶對(duì)LMAs能力的主觀評(píng)估至關(guān)重要。主要的評(píng)估指標(biāo)包括多功能性、用戶友好性、可擴(kuò)展性以及價(jià)值和安全性。

多功能性。 多功能性表示LMA靈活運(yùn)用各種工具、執(zhí)行物理和虛擬行動(dòng)以及管理各種任務(wù)的能力。[30]提出了比較現(xiàn)有LMAs使用的工具的規(guī)模和類型，以及評(píng)估它們功能多樣性的方法。

用戶友好性。 用戶友好性涉及用戶對(duì)LMAs完成任務(wù)結(jié)果的滿意度，包括效率、準(zhǔn)確性和結(jié)果的豐富程度。這種評(píng)估相對(duì)較主觀。在[64]中，人類對(duì)LMAs的評(píng)估對(duì)于精確評(píng)估其在解釋和執(zhí)行用戶指令方面的有效性至關(guān)重要。

可擴(kuò)展性。 可擴(kuò)展性基本評(píng)估LMAs吸收新能力并應(yīng)對(duì)新興挑戰(zhàn)的能力。鑒于人類需求的動(dòng)態(tài)性，嚴(yán)格評(píng)估LMAs的適應(yīng)性和終身學(xué)習(xí)潛力至關(guān)重要。例如，[23]中的評(píng)估側(cè)重于智能體使用以前未見過的工具完成任務(wù)的熟練程度。

價(jià)值和安全性。 除了之前提到的指標(biāo)外，“價(jià)值和安全性”指標(biāo)在確定智能體對(duì)人類用戶的實(shí)際意義和安全性方面起著至關(guān)重要的作用。雖然許多當(dāng)前的評(píng)估忽視了這一指標(biāo)，但考慮到LMAs的“價(jià)值和安全性”是至關(guān)重要的。與語言智能體相比，LMAs可以處理更廣泛的任務(wù)類別，因此更重要的是讓它們遵循與人類社會(huì)價(jià)值觀一致的道德和倫理原則。

客觀評(píng)價(jià)

客觀評(píng)價(jià)與主觀評(píng)估不同，依賴于定量指標(biāo)全面、系統(tǒng)地、標(biāo)準(zhǔn)化地評(píng)估LMAs的能力。目前，這是多模態(tài)智能體研究中最廣泛采用的評(píng)估方法。

指標(biāo)。 指標(biāo)在客觀評(píng)估中發(fā)揮著至關(guān)重要的作用。在當(dāng)前的多模態(tài)智能體研究中，采用了特定的與任務(wù)相關(guān)的指標(biāo)，例如智能體生成答案的準(zhǔn)確性，如視覺問答（VQA）中的準(zhǔn)確性。然而，LLMs出現(xiàn)之前建立的傳統(tǒng)任務(wù)指標(biāo)在評(píng)估llm驅(qū)動(dòng)的LMAs時(shí)并不足夠有效。因此，越來越多的研究工作致力于確定更適合的評(píng)估指標(biāo)。例如，在VisualWebArena中，設(shè)計(jì)了一種專門的評(píng)估指標(biāo)，用于評(píng)估LMAs處理視覺引導(dǎo)任務(wù)的性能。這包括測(cè)量智能體對(duì)網(wǎng)頁內(nèi)容的視覺理解的準(zhǔn)確性，例如識(shí)別和利用由標(biāo)記集定義的可交互元素進(jìn)行操作，并根據(jù)手動(dòng)設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)定義的任務(wù)目標(biāo)實(shí)現(xiàn)狀態(tài)轉(zhuǎn)換的能力。此外，還包括對(duì)特定視覺場(chǎng)景問題的響應(yīng)的準(zhǔn)確性以及根據(jù)視覺信息執(zhí)行的操作的一致性。

基準(zhǔn)測(cè)試。 基準(zhǔn)測(cè)試代表著一個(gè)測(cè)試環(huán)境，其中包含一系列評(píng)估標(biāo)準(zhǔn)、數(shù)據(jù)集和任務(wù)。它被用于評(píng)估和比較不同算法或系統(tǒng)的性能。與傳統(tǒng)任務(wù)的基準(zhǔn)測(cè)試相比，SmartPlay 利用精心設(shè)計(jì)的一套游戲全面衡量LMAs的各種能力，為每種能力建立了詳細(xì)的評(píng)估指標(biāo)和挑戰(zhàn)級(jí)別。與使用游戲進(jìn)行評(píng)估的方法相比，GAIA 開發(fā)了一個(gè)包含466個(gè)問題及其答案的測(cè)試集。這些問題要求AI系統(tǒng)具備一系列基本能力，例如推理、處理多模態(tài)信息、網(wǎng)絡(luò)導(dǎo)航和熟練使用工具。與當(dāng)前創(chuàng)建越來越困難的任務(wù)以測(cè)試人類能力的趨勢(shì)不同，GAIA側(cè)重于對(duì)現(xiàn)有高級(jí)AI系統(tǒng)提出概念上簡(jiǎn)單但具有挑戰(zhàn)性的問題。這些問題涉及需要精確執(zhí)行復(fù)雜操作序列的真實(shí)場(chǎng)景，其輸出易于驗(yàn)證。類似地，VisualWebArena是一個(gè)基準(zhǔn)測(cè)試套件，旨在評(píng)估和推進(jìn)LMAs在處理視覺和文本理解任務(wù)上的能力，適用于真實(shí)網(wǎng)頁。還有其他基準(zhǔn)測(cè)試有效地測(cè)試了智能體的能力。

應(yīng)用

LMAs擅長(zhǎng)處理多種數(shù)據(jù)模態(tài)，在各種情景下的決策和響應(yīng)生成方面勝過僅限于語言的智能體。它們的適應(yīng)性使它們?cè)谡鎸?shí)世界的多感官環(huán)境中異常有用，如圖4所示。

一文詳解多模態(tài)智能體（LMAs）最新進(jìn)展（核心組件/分類/評(píng)估/應(yīng)用）-AI.x社區(qū)

GUI自動(dòng)化。 在這個(gè)應(yīng)用中，LMAs的目標(biāo)是理解和模擬用戶界面內(nèi)的人類操作，實(shí)現(xiàn)重復(fù)任務(wù)的執(zhí)行、跨多個(gè)應(yīng)用程序的導(dǎo)航以及簡(jiǎn)化復(fù)雜的工作流程。這種自動(dòng)化有望節(jié)省用戶的時(shí)間和精力，讓他們可以專注于工作的更重要和更有創(chuàng)造性的方面。例如，GPT-4V-Act是一種先進(jìn)的人工智能，將GPT-4V的能力與網(wǎng)絡(luò)瀏覽相結(jié)合，以改進(jìn)人機(jī)交互。它的主要目標(biāo)是使用戶界面更易于訪問，簡(jiǎn)化工作流程自動(dòng)化，并增強(qiáng)自動(dòng)化的UI測(cè)試。這種人工智能對(duì)于殘疾人或技術(shù)能力有限的人來說特別有益，幫助他們更輕松地瀏覽復(fù)雜的界面。

機(jī)器人技術(shù)與實(shí)體人工智能。 這個(gè)應(yīng)用專注于將機(jī)器人的感知、推理和行動(dòng)能力與其環(huán)境中的物理交互相結(jié)合。通過使用多模態(tài)智能體，機(jī)器人可以利用多種感官通道，如視覺、聽覺和觸覺，獲取全面的環(huán)境數(shù)據(jù)。例如，MP5系統(tǒng)是一種先進(jìn)的多模態(tài)實(shí)體系統(tǒng)，用于Minecraft，利用主動(dòng)感知來智能地分解并執(zhí)行廣泛的、無限期的任務(wù)，使用大語言模型。

游戲開發(fā)。 游戲人工智能致力于設(shè)計(jì)和實(shí)現(xiàn)這些智能體，以展示智能和真實(shí)感，從而提供引人入勝和具有挑戰(zhàn)性的玩家體驗(yàn)。將智能體技術(shù)成功地整合到游戲中，已經(jīng)導(dǎo)致了更復(fù)雜和交互式的虛擬環(huán)境的創(chuàng)建。

自動(dòng)駕駛。 傳統(tǒng)的自動(dòng)駕駛方法在有效感知和解釋復(fù)雜場(chǎng)景方面面臨困難。最近基于多模態(tài)智能體技術(shù)的進(jìn)展，特別是由LLMs驅(qū)動(dòng)，標(biāo)志著在克服這些挑戰(zhàn)和彌合感知差距方面取得了重大進(jìn)展。GPT-Driver，這是一種先進(jìn)的方法，采用OpenAI GPT-3.5模型作為自動(dòng)駕駛車輛的可靠運(yùn)動(dòng)規(guī)劃器，特別注重生成安全舒適的駕駛軌跡。利用LLMs固有的推理能力，他們的方法為新穎駕駛場(chǎng)景中有限的泛化問題提供了有希望的解決方案。

視頻理解。 視頻理解智能體是專門用于分析和理解視頻內(nèi)容的人工智能系統(tǒng)。它利用深度學(xué)習(xí)技術(shù)從視頻中提取關(guān)鍵信息，識(shí)別對(duì)象、動(dòng)作和場(chǎng)景，以增強(qiáng)對(duì)視頻內(nèi)容的理解。

視覺生成和編輯。 這種類型的應(yīng)用旨在創(chuàng)建和編輯視覺內(nèi)容。利用先進(jìn)的技術(shù)，這個(gè)工具輕松地創(chuàng)建和修改圖像，為用戶提供了創(chuàng)意項(xiàng)目的靈活選擇。例如，LLaVA-Interactive是一個(gè)開源的多模態(tài)交互系統(tǒng)，將預(yù)訓(xùn)練的AI模型的能力融合在一起，以便于與視覺線索進(jìn)行多輪對(duì)話并生成編輯后的圖像，從而實(shí)現(xiàn)了一種經(jīng)濟(jì)高效、靈活直觀的AI輔助視覺內(nèi)容創(chuàng)建體驗(yàn)。

復(fù)雜的視覺推理任務(wù)。 這個(gè)領(lǐng)域是多模態(tài)智能體研究的重點(diǎn)，主要強(qiáng)調(diào)多模態(tài)內(nèi)容的分析。這種流行歸因于LLMs在理解和推理基于知識(shí)的查詢方面的優(yōu)越認(rèn)知能力，超越了以前模型的能力。在這些應(yīng)用中，主要關(guān)注的是問答任務(wù)。這包括利用視覺模態(tài)（圖像或視頻）和文本模態(tài)（帶有問題或附帶文檔的問題）進(jìn)行推理響應(yīng)。

音頻編輯與生成。 這個(gè)應(yīng)用中的LMAs集成了音頻領(lǐng)域的基礎(chǔ)專家模型，使音樂的編輯和創(chuàng)作變得高效。

結(jié)論

本調(diào)查對(duì)由LLMs驅(qū)動(dòng)的多模態(tài)智能體（LMAs）的最新研究進(jìn)行了徹底的概述。首先介紹了LMAs的核心組件（即感知、規(guī)劃、行動(dòng)和記憶），并將現(xiàn)有研究分類為四類。隨后，整理了評(píng)估LMAs的現(xiàn)有方法，并設(shè)計(jì)了一個(gè)全面的評(píng)估框架。最后，重點(diǎn)介紹了LMAs領(lǐng)域內(nèi)一系列當(dāng)前和重要的應(yīng)用場(chǎng)景。盡管取得了顯著進(jìn)展，但這個(gè)領(lǐng)域仍面臨許多未解決的挑戰(zhàn)，有很大的改進(jìn)空間。我們最后根據(jù)審查的進(jìn)展，強(qiáng)調(diào)了幾個(gè)有前途的方向：

在框架方面：LMAs未來的框架可能會(huì)從兩個(gè)不同的角度發(fā)展。從單一智能體的角度來看，發(fā)展可能朝著創(chuàng)建一個(gè)更統(tǒng)一的系統(tǒng)的方向發(fā)展。這涉及到規(guī)劃者直接與多模態(tài)環(huán)境互動(dòng)，利用全面的工具集，并直接操作記憶；從多個(gè)智能體的角度來看，推進(jìn)多個(gè)多模態(tài)智能體之間的有效協(xié)調(diào)，執(zhí)行集體任務(wù)，是一個(gè)關(guān)鍵的研究方向。這包括基本的方面，如協(xié)作機(jī)制、通信協(xié)議和戰(zhàn)略任務(wù)分配。
在評(píng)估方面：對(duì)于這個(gè)領(lǐng)域，需要系統(tǒng)和標(biāo)準(zhǔn)的評(píng)估框架。理想的評(píng)估框架應(yīng)該包含一系列評(píng)估任務(wù)，從簡(jiǎn)單到復(fù)雜不等，每個(gè)任務(wù)都具有對(duì)人類的重要相關(guān)性和效用。它應(yīng)該包含清晰而明智的評(píng)估指標(biāo)，經(jīng)過精心設(shè)計(jì)，以全面而非重復(fù)的方式評(píng)估LMA的各種能力。此外，用于評(píng)估的數(shù)據(jù)集應(yīng)該經(jīng)過精心策劃，以反映更貼近實(shí)際情況的場(chǎng)景。
在應(yīng)用方面：LMAs在現(xiàn)實(shí)世界中的潛在應(yīng)用是巨大的，為傳統(tǒng)模型之前具有挑戰(zhàn)性的問題提供了解決方案，例如網(wǎng)絡(luò)瀏覽。此外，LMAs與人機(jī)交互領(lǐng)域的交叉也代表了未來應(yīng)用的重要方向之一。它們處理和理解來自各種模態(tài)的信息的能力使它們能夠執(zhí)行更復(fù)雜、更細(xì)微的任務(wù)，從而增強(qiáng)了它們?cè)趯?shí)際場(chǎng)景中的實(shí)用性，并改善了人與機(jī)器之間的交互。

本文轉(zhuǎn)自 AI生成未來，作者：Junlin Xie等

原文鏈接:??https://mp.weixin.qq.com/s/uvHvVcAXRb_d55_T687ByA??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

一次性支持 200 萬字無損上下文！Kimi智能助手玩了個(gè)大的——月之暗面「登月」最新進(jìn)展!

pangguiyu ? 4024瀏覽 ? 0回復(fù)
一文詳解Transformer 細(xì)節(jié)及代碼實(shí)現(xiàn)

angel ? 3736瀏覽 ? 0回復(fù)
兩萬字長(zhǎng)文詳解視頻擴(kuò)散模型的最新進(jìn)展

angel ? 6063瀏覽 ? 0回復(fù)
谷歌“另辟蹊徑”，展示AI視頻生音頻最新進(jìn)展，效果驚艷！網(wǎng)友：但有一個(gè)缺點(diǎn)

51CTO技術(shù)棧 ? 2754瀏覽 ? 0回復(fù)
「多模態(tài)大模型」解讀 | 突破單一文本模態(tài)局限

Baihai_IDP ? 3479瀏覽 ? 0回復(fù)
一文講清什么是 AI Agent（智能體）？

wsp_ping ? 5651瀏覽 ? 0回復(fù)
超全兩萬字長(zhǎng)文詳解視頻擴(kuò)散模型的最新進(jìn)展

angel ? 7479瀏覽 ? 0回復(fù)
多智能體新進(jìn)展 | 斯坦福大學(xué)提出新模型'Hypothetical Minds'，讓AI更懂人類思維

AI論文解讀 ? 3469瀏覽 ? 0回復(fù)
一文讀懂：從RAG到多模態(tài)RAG

kede96 ? 4352瀏覽 ? 0回復(fù)
一文詳解MHA、GQA、MQA原理

大模型自然語言處理 ? 4502瀏覽 ? 0回復(fù)
一文詳解集成學(xué)習(xí)算法原理

寶寶數(shù)模AI ? 2484瀏覽 ? 0回復(fù)
OpenCV 5：邁向計(jì)算機(jī)視覺新紀(jì)元的最新進(jìn)展

sword_hero ? 3267瀏覽 ? 0回復(fù)
一文深剖Microsoft AutoGen，帶你跑通多智能體AI框架

小虎哦哦 ? 5587瀏覽 ? 0回復(fù)
Claude 3.7 Sonnet：AI推理的新進(jìn)展，開發(fā)者與企業(yè)的智能助手

Halo咯咯 ? 2585瀏覽 ? 0回復(fù)
解鎖Transformer核心！一文吃透自注意力機(jī)制

人工智能訓(xùn)練營(yíng) ? 4482瀏覽 ? 0回復(fù)
一文讀懂AI智能體：概念、特性、類型與應(yīng)用全解析

Halo咯咯 ? 5045瀏覽 ? 0回復(fù)
基礎(chǔ)智能體的進(jìn)展與挑戰(zhàn)：智能體的七個(gè)核心組件構(gòu)建認(rèn)知基石

數(shù)字化助推器 ? 1332瀏覽 ? 0回復(fù)
一文看懂！大語言模型與AI智能體的前沿進(jìn)展

十一月雨_55 ? 2800瀏覽 ? 0回復(fù)
一文搞定 AI 智能體架構(gòu)設(shè)計(jì)的九大核心技術(shù)

玄姐聊AGI ? 2042瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴(kuò)散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預(yù)測(cè)未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： SIGGRAPH`24 | 毫米級(jí)接近真實(shí)動(dòng)作生成！LGTM：文本驅(qū)動(dòng)！(深大&快手&字節(jié))

下一篇：如何正確使用Stable Diffusion？文本到圖像擴(kuò)散模型中記憶化實(shí)用分析（浙大）

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：啪啪免费 | 女同久久另类99精品国产 | 久草欧美视频 | 91久久国产综合久久 | 黄色片视频 | 亚洲综合成人网 | 日韩一区二区三区在线观看视频 | 亚洲成人毛片 | 手机在线一区二区三区 | 亚洲欧洲色视频 | 日本在线免费 | 久久精品视频一区二区三区 | 国产福利在线 | 91精品国产91久久综合桃花 | 亚洲一区二区三区免费在线观看 | 九九热精品视频 | 欧美精品1区 | 亚洲欧美视频 | 91在线免费观看网站 | 久久综合一区二区三区 | 久久美女网 | 成人依人| 亚洲精品在线看 | 日韩欧美在线一区 | 久久一级大片 | 国产一区二区在线免费观看 | 中国三级黄色录像 | 日韩av一区在线观看 | 国产精品a久久久久 | 日韩欧美亚洲 | 欧美日韩中文在线 | 欧美三级电影在线播放 | 日韩欧美中文 | 国产一区二区在线看 | 欧美黑人巨大videos精品 | 精品欧美一区二区在线观看欧美熟 | 毛片一区二区三区 | 久久亚洲二区 | 久久国产电影 | 亚洲高清免费观看 | 久久最新|

<strike id="maowy"><samp id="maowy"></samp></strike><bdo id="maowy"><source id="maowy"></source></bdo><strike id="maowy"><samp id="maowy"></samp></strike>

<rt id="maowy"><delect id="maowy"></delect></rt>

<strike id="maowy"></strike>

<li id="maowy"></li>