成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用) 精華

發(fā)布于 2024-5-14 10:09
瀏覽
0收藏

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2402.15116


github地址:https://github.com/jun0wanan/awesome-large-multimodal-agents

大語言模型(LLMs)在為基于文本的AI智能體提供動(dòng)力方面取得了卓越的表現(xiàn),賦予它們類似于人類的決策和推理能力。與此同時(shí),出現(xiàn)了一個(gè)新興的研究趨勢(shì),專注于將這些由LLMs驅(qū)動(dòng)的AI智能體擴(kuò)展到多模態(tài)領(lǐng)域。這種擴(kuò)展使得AI智能體能夠解釋和響應(yīng)各種多模態(tài)用戶queries,從而處理更加復(fù)雜和微妙的任務(wù)。


本文對(duì)LLMs驅(qū)動(dòng)的多模態(tài)智能體進(jìn)行了系統(tǒng)性審查,將其稱為大型多模態(tài)智能體(簡(jiǎn)稱LMAs)。


首先,介紹了開發(fā)LMAs所涉及的基本組件,并將當(dāng)前的研究成果分類為四種不同類型。

隨后,審查了整合多個(gè)LMAs的協(xié)作框架,增強(qiáng)了集體效能。該領(lǐng)域的一個(gè)關(guān)鍵挑戰(zhàn)是現(xiàn)有研究中使用了多種不同的評(píng)估方法,這些方法阻礙了對(duì)不同LMAs進(jìn)行有效比較。因此,本文編制了這些評(píng)估方法,并建立了一個(gè)全面的框架來彌合這些差距。該框架旨在標(biāo)準(zhǔn)化評(píng)估,促進(jìn)更有意義的比較。在審查結(jié)束時(shí),強(qiáng)調(diào)了LMAs的廣泛應(yīng)用,并提出了可能的未來研究方向。


本文討論旨在為這一快速發(fā)展的領(lǐng)域的未來研究提供有價(jià)值的見解和指導(dǎo)。

介紹

智能體(agent)是一個(gè)能夠感知其環(huán)境并根據(jù)這些感知做出決策以達(dá)到特定目標(biāo)的系統(tǒng)。盡管在狹窄領(lǐng)域內(nèi)表現(xiàn)出色,早期智能體往往缺乏適應(yīng)性和泛化能力,與人類智能存在顯著差異。最近大語言模型(LLMs)的進(jìn)展開始彌合這一差距,LLMs增強(qiáng)了它們?cè)诿罱忉尅⒅R(shí)吸收和模擬人類推理和學(xué)習(xí)方面的能力。這些智能體使用LLMs作為它們的主要決策工具,并進(jìn)一步增強(qiáng)了關(guān)鍵的類人特征,如記憶。這種增強(qiáng)使它們能夠處理各種自然語言處理任務(wù),并使用語言與環(huán)境進(jìn)行交互。


然而,現(xiàn)實(shí)世界的場(chǎng)景往往涉及超越文本的信息,包括多種模態(tài),其中視覺方面的重要性很大。因此,由LLMs驅(qū)動(dòng)的智能智能體的下一個(gè)進(jìn)化步驟是獲得處理和生成多模態(tài)信息的能力,特別是視覺數(shù)據(jù)。這種能力對(duì)于這些智能體進(jìn)化為更強(qiáng)大的AI實(shí)體,模仿人類級(jí)別的智能至關(guān)重要。本文具備這種能力的智能體被稱為大型多模態(tài)智能體(LMAs)。通常,它們面臨的挑戰(zhàn)比僅包含語言的智能體更為復(fù)雜。


以網(wǎng)絡(luò)搜索為例,一個(gè)LMA首先需要通過搜索欄輸入用戶的要求,以查找相關(guān)信息。隨后,它通過鼠標(biāo)點(diǎn)擊和滾動(dòng)導(dǎo)航到網(wǎng)頁,以瀏覽實(shí)時(shí)網(wǎng)頁內(nèi)容。最后,LMA需要處理多模態(tài)數(shù)據(jù)(如文本、視頻和圖像)并進(jìn)行多步推理,包括從網(wǎng)絡(luò)文章、視頻報(bào)道和社交媒體更新中提取關(guān)鍵信息,并將這些信息整合以響應(yīng)用戶的查詢。我們注意到,現(xiàn)有的LMAs研究是孤立進(jìn)行的,因此有必要通過總結(jié)和比較現(xiàn)有的框架來進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展。存在一些與LLM驅(qū)動(dòng)智能體相關(guān)的調(diào)查,但其中很少有關(guān)注多模態(tài)方面的。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

本文旨在通過總結(jié)LMAs的主要發(fā)展來填補(bǔ)這一空白。首先,介紹了核心組件,并提出了現(xiàn)有研究的新分類法,進(jìn)一步討論了現(xiàn)有的協(xié)作框架。關(guān)于評(píng)估,概述了評(píng)估LMAs性能的現(xiàn)有方法,并進(jìn)行了全面的總結(jié)。然后,應(yīng)用部分提供了多模態(tài)智能體及其相關(guān)任務(wù)廣泛的現(xiàn)實(shí)世界應(yīng)用的詳盡概述。最后,通過討論并提出LMAs可能的未來發(fā)展方向來總結(jié)這項(xiàng)工作,為有用的研究指導(dǎo)提供支持。

LMAs的核心組件

本節(jié)詳細(xì)介紹了LMAs的四個(gè)核心元素,包括感知、規(guī)劃、行動(dòng)和記憶。


感知。感知是一種復(fù)雜的認(rèn)知過程,使人類能夠收集和解釋環(huán)境信息。在LMAs中,感知組件主要集中在處理來自不同環(huán)境的多模態(tài)信息上。如下表1所示,在不同任務(wù)中的LMAs涉及各種模態(tài)。它們需要從這些不同的模態(tài)中提取對(duì)任務(wù)完成最有利的關(guān)鍵信息,從而促進(jìn)任務(wù)的更有效規(guī)劃和執(zhí)行。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

早期的處理多模態(tài)信息的研究通常依賴于簡(jiǎn)單的相關(guān)模型或工具,將圖像或音頻轉(zhuǎn)換為文本描述。然而,這種轉(zhuǎn)換方法往往會(huì)產(chǎn)生大量無關(guān)和冗余信息,特別是對(duì)于復(fù)雜的模態(tài)(例如視頻)。除了輸入長(zhǎng)度限制,LLMs經(jīng)常面臨有效提取相關(guān)信息進(jìn)行規(guī)劃的挑戰(zhàn)。為解決這一問題,近期的研究引入了子任務(wù)工具的概念,旨在處理復(fù)雜的數(shù)據(jù)類型。在類似真實(shí)世界的環(huán)境(即開放世界游戲)中,[51]提出了一種處理非文本模態(tài)信息的新方法。該方法首先從環(huán)境中提取關(guān)鍵的視覺詞匯,然后使用GPT模型進(jìn)一步將這些詞匯細(xì)化為一系列描述性句子。當(dāng)LLMs感知環(huán)境中的視覺模態(tài)時(shí),它們使用這些模態(tài)來檢索最相關(guān)的描述性句子,從而有效增強(qiáng)了對(duì)環(huán)境的理解。


規(guī)劃。 規(guī)劃者在LMAs中起著核心作用,類似于人類大腦的功能。它們負(fù)責(zé)對(duì)當(dāng)前任務(wù)進(jìn)行深入推理,并制定相應(yīng)的計(jì)劃。與僅使用語言的智能體相比,LMAs在更復(fù)雜的環(huán)境中運(yùn)行,制定合理計(jì)劃更具挑戰(zhàn)性。從四個(gè)角度(模型、格式、檢查和反思、規(guī)劃方法)詳細(xì)介紹了規(guī)劃者:

  • 模型:如下表1所示,現(xiàn)有研究采用不同的模型作為規(guī)劃者。其中,最流行的是GPT-3.5或GPT-4。然而,這些模型并不是公開的,因此一些研究已經(jīng)開始轉(zhuǎn)向使用開源模型,例如LLaMA和LLaVA,后者可以直接處理多種模態(tài)的信息,增強(qiáng)了它們制定更優(yōu)化計(jì)劃的能力。
  • 格式:它表示規(guī)劃者制定的計(jì)劃的格式。如上面表1所示,有兩種格式化方式。第一種是自然語言。例如,在某些研究中,獲得的規(guī)劃內(nèi)容是“我首先使用OpenCV的openpose控制模型分析圖像中男孩的姿態(tài)......”,其中制定的計(jì)劃是使用“OpenCV的openpose控制模型”。第二種是以程序形式,如在某些研究中描述的“image_patch = ImagePatch(image)”,其中調(diào)用ImagePatch函數(shù)來執(zhí)行規(guī)劃。還有混合形式。
  • 檢查和反思:在復(fù)雜的多模態(tài)環(huán)境中,LMAs要始終制定有意義的、完成任務(wù)的規(guī)劃是具有挑戰(zhàn)性的。這個(gè)組件旨在增強(qiáng)魯棒性和適應(yīng)性。一些研究方法存儲(chǔ)成功的經(jīng)驗(yàn)在長(zhǎng)期記憶中,包括多模態(tài)狀態(tài),以指導(dǎo)規(guī)劃。在規(guī)劃過程中,它們首先檢索相關(guān)經(jīng)驗(yàn),幫助規(guī)劃者深思熟慮以減少不確定性。此外,[12]利用人類在執(zhí)行相同任務(wù)時(shí)在不同狀態(tài)下制定的計(jì)劃。當(dāng)遇到類似的狀態(tài)時(shí),規(guī)劃者可以參考這些“標(biāo)準(zhǔn)答案”進(jìn)行思考,從而制定更合理的計(jì)劃。此外,[71]采用了更復(fù)雜的規(guī)劃方法,如蒙特卡羅,以擴(kuò)大規(guī)劃搜索的范圍,找到最佳的規(guī)劃策略。
  • 規(guī)劃方法:現(xiàn)有的規(guī)劃策略可以分為兩種類型:動(dòng)態(tài)規(guī)劃和靜態(tài)規(guī)劃,如前面表1所示。前者是指根據(jù)初始輸入將目標(biāo)分解為一系列子計(jì)劃,類似于思維鏈(CoT),即使在過程中發(fā)生錯(cuò)誤,也不會(huì)重新制定計(jì)劃;后者意味著每個(gè)計(jì)劃都是基于當(dāng)前環(huán)境信息或反饋制定的。如果在計(jì)劃中檢測(cè)到錯(cuò)誤,它將恢復(fù)到原始狀態(tài)進(jìn)行重新規(guī)劃。

?

行動(dòng)。 多模態(tài)智能體系統(tǒng)中的行動(dòng)組件負(fù)責(zé)執(zhí)行規(guī)劃者制定的規(guī)劃和決策。它將這些規(guī)劃轉(zhuǎn)化為具體的行動(dòng),例如使用工具、身體動(dòng)作或與界面交互,從而確保智能體能夠準(zhǔn)確高效地實(shí)現(xiàn)其目標(biāo)并與環(huán)境進(jìn)行交互。討論重點(diǎn)在于兩個(gè)方面:類型和方法。


在前面表1中,行動(dòng)被分類為三種類型:工具使用(T)、實(shí)體動(dòng)作(E)和虛擬動(dòng)作(V),其中工具包括視覺基礎(chǔ)模型(VFMs)、API、Python等(如表2所列);實(shí)體動(dòng)作是由物理實(shí)體執(zhí)行的,如機(jī)器人或虛擬角色;虛擬動(dòng)作包括網(wǎng)絡(luò)任務(wù)(例如,點(diǎn)擊鏈接、滾動(dòng)和鍵盤使用)。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

就方法而言,如表1所示,主要有兩種類型。第一種類型涉及使用提示向智能體提供有關(guān)可執(zhí)行行動(dòng)的信息,例如當(dāng)前可用的工具及其功能;第二種類型涉及收集關(guān)于行動(dòng)的數(shù)據(jù),并利用這些信息來自我指導(dǎo)開源大型模型的微調(diào)過程,例如LLaVA。這些數(shù)據(jù)通常由先進(jìn)的模型生成,例如GPT-4。與僅使用語言的智能體相比,與行動(dòng)相關(guān)的信息和數(shù)據(jù)的復(fù)雜性需要更復(fù)雜的方法來優(yōu)化學(xué)習(xí)策略。


記憶。 早期研究表明,記憶機(jī)制在通用智能體的運(yùn)作中起著至關(guān)重要的作用。與人類類似,智能體的記憶可以分為長(zhǎng)期記憶和短期記憶。在簡(jiǎn)單的環(huán)境中,短期記憶足以讓智能體處理手頭的任務(wù)。然而,在更復(fù)雜和更現(xiàn)實(shí)的環(huán)境中,長(zhǎng)期記憶變得至關(guān)重要。在表1中,可以看到只有少數(shù)LMAs包含長(zhǎng)期記憶。與僅使用語言的智能體不同,這些多模態(tài)智能體需要能夠跨越各種模態(tài)存儲(chǔ)信息的長(zhǎng)期記憶。在一些研究中,所有模態(tài)都被轉(zhuǎn)換為文本格式進(jìn)行存儲(chǔ)。然而,在某些研究中,提出了一種多模態(tài)長(zhǎng)期記憶系統(tǒng),專門設(shè)計(jì)用于存檔以前的成功經(jīng)驗(yàn)。具體而言,這些記憶被存儲(chǔ)為鍵值對(duì),其中鍵是多模態(tài)狀態(tài),值是成功的計(jì)劃。在遇到新的多模態(tài)狀態(tài)時(shí),根據(jù)它們的編碼相似性檢索最類似的例子。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

其中,代表通過CLIP模型編碼的鍵的視覺信息,與當(dāng)前由CLIP編碼的視覺狀態(tài)進(jìn)行相似性比較。

LMAs的分類法

通過將現(xiàn)有研究分類為四種類型,提出了一種分類法。


類型I:閉源LLMs作為沒有長(zhǎng)期記憶的規(guī)劃者。 早期的研究采用提示來利用閉源的大語言模型(如GPT-3.5)作為推理和規(guī)劃的規(guī)劃者,如圖2(a)所示。根據(jù)特定的環(huán)境或任務(wù)要求,這些計(jì)劃的執(zhí)行可以通過下游工具包或通過使用鼠標(biāo)或機(jī)器人手臂等物理設(shè)備直接與環(huán)境進(jìn)行交互。這種類型的LMAs通常在更簡(jiǎn)單的環(huán)境中運(yùn)行,承擔(dān)著傳統(tǒng)的任務(wù),如圖像編輯、視覺定位和視覺問答(VQA)。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

類型II:經(jīng)過微調(diào)的LLMs作為沒有長(zhǎng)期記憶的規(guī)劃者。 這種類型的LMAs涉及收集多模態(tài)指令跟隨數(shù)據(jù)或使用自我指導(dǎo)來微調(diào)開源的大語言模型(如LLaMA)或多模態(tài)模型(如LLaVA),如圖2(b)所示。這種增強(qiáng)不僅使模型能夠作為推理和規(guī)劃的中心“大腦”,還使其能夠執(zhí)行這些計(jì)劃。類型II LMAs面臨的環(huán)境和任務(wù)與類型I類似,通常涉及傳統(tǒng)的視覺或多模態(tài)任務(wù)。與相對(duì)簡(jiǎn)單的動(dòng)態(tài)特性、封閉環(huán)境和基本任務(wù)的典型場(chǎng)景相比,在像Minecraft這樣的開放世界游戲中,LMAs需要在動(dòng)態(tài)背景下執(zhí)行精確的規(guī)劃,在高復(fù)雜性的任務(wù)中進(jìn)行處理,并進(jìn)行終身學(xué)習(xí)以適應(yīng)新的挑戰(zhàn)。因此,在類型I和類型II的基礎(chǔ)上,類型III和類型IV的LMAs集成了記憶組件,展示了向人工智能領(lǐng)域中的通用智能體發(fā)展的巨大潛力。


類型III:具有間接長(zhǎng)期記憶的規(guī)劃者。 對(duì)于類型III的LMAs,如圖2(c)所示,LLMs充當(dāng)中央規(guī)劃者,并配備有長(zhǎng)期記憶。這些規(guī)劃者通過調(diào)用相關(guān)工具訪問和檢索長(zhǎng)期記憶,利用這些記憶來增強(qiáng)推理和規(guī)劃。例如,在[71]中開發(fā)的多模態(tài)智能體框架專為視頻處理等動(dòng)態(tài)任務(wù)量身定制。該框架包括一個(gè)規(guī)劃者、一個(gè)工具包和一個(gè)與任務(wù)相關(guān)的記憶庫,目錄了空間和時(shí)間屬性。規(guī)劃者使用專門的子任務(wù)工具查詢記憶庫,以獲取與視頻內(nèi)容相關(guān)的時(shí)空屬性,從而推斷出與任務(wù)相關(guān)的時(shí)間和空間數(shù)據(jù)。存儲(chǔ)在工具包中的每個(gè)工具都專為特定類型的時(shí)空推理而設(shè)計(jì),并在框架內(nèi)作為執(zhí)行者。


類型IV:具有本地長(zhǎng)期記憶的規(guī)劃者。 與類型III不同,類型IV的LMAs具有LLMs直接與長(zhǎng)期記憶進(jìn)行交互,繞過了使用工具訪問長(zhǎng)期記憶的需要,如圖2(d)所示。例如,在[51]中提出的多模態(tài)智能體展示了在Minecraft的開放世界環(huán)境中完成200多個(gè)不同任務(wù)的熟練技能。在他們的多模態(tài)智能體設(shè)計(jì)中,交互式規(guī)劃者將多模態(tài)基礎(chǔ)模型與LLM相結(jié)合,首先將環(huán)境多模態(tài)輸入轉(zhuǎn)換為文本。規(guī)劃者進(jìn)一步采用自檢機(jī)制來預(yù)測(cè)和評(píng)估執(zhí)行中的每個(gè)步驟,主動(dòng)發(fā)現(xiàn)潛在缺陷,并結(jié)合環(huán)境反饋和自我解釋,迅速糾正和完善計(jì)劃,而無需額外信息。此外,該多模態(tài)智能體框架包括一個(gè)新穎的多模態(tài)記憶。成功的任務(wù)計(jì)劃及其初始多模態(tài)狀態(tài)被存儲(chǔ),規(guī)劃者從該數(shù)據(jù)庫中檢索類似的狀態(tài)用于新任務(wù),利用積累的經(jīng)驗(yàn)以實(shí)現(xiàn)更快、更有效的任務(wù)完成。

多智能體協(xié)作

本節(jié)進(jìn)一步介紹了超出孤立智能體討論范圍的LMAs的協(xié)作框架。


如下圖3(a)(b)所示,這些框架采用多個(gè)LMAs協(xié)同工作。這兩種框架之間的關(guān)鍵區(qū)別在于是否存在記憶組件,但它們的基本原理是一致的:多個(gè)LMAs擁有不同的角色和責(zé)任,使它們能夠協(xié)調(diào)行動(dòng),共同實(shí)現(xiàn)共同目標(biāo)。這種結(jié)構(gòu)減輕了單個(gè)智能體的負(fù)擔(dān),從而增強(qiáng)了任務(wù)性能。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

例如,在[37]的多模態(tài)智能體框架中,引入了一個(gè)感知者智能體來感知多模態(tài)環(huán)境,由大型多模態(tài)模型組成。一個(gè)被指定為Patroller的智能體負(fù)責(zé)與感知者智能體進(jìn)行多次交互,對(duì)感知到的環(huán)境數(shù)據(jù)進(jìn)行實(shí)時(shí)檢查和反饋,以確保當(dāng)前計(jì)劃和行動(dòng)的準(zhǔn)確性。當(dāng)檢測(cè)到執(zhí)行失敗或需要重新評(píng)估時(shí),Patroller向規(guī)劃者提供相關(guān)信息,促使重新組織或更新子目標(biāo)下的動(dòng)作序列。


MemoDroid框架由幾個(gè)關(guān)鍵智能體組成,它們共同工作以自動(dòng)化移動(dòng)任務(wù)。探索智能體負(fù)責(zé)對(duì)目標(biāo)應(yīng)用程序界面進(jìn)行離線分析,根據(jù)UI元素生成潛在子任務(wù)列表,然后將其存儲(chǔ)在應(yīng)用程序內(nèi)存中。在在線執(zhí)行階段,選擇智能體根據(jù)用戶命令和當(dāng)前屏幕狀態(tài)從探索的集合中確定要執(zhí)行的特定子任務(wù)。推斷智能體進(jìn)一步通過提示LLM識(shí)別并完成所選子任務(wù)所需的基礎(chǔ)動(dòng)作序列。同時(shí),當(dāng)遇到與先前學(xué)習(xí)的任務(wù)相似的任務(wù)時(shí),Recall智能體可以直接從內(nèi)存中調(diào)用和執(zhí)行相應(yīng)的子任務(wù)和動(dòng)作序列。

評(píng)估

研究的主要焦點(diǎn)是增強(qiáng)當(dāng)前LMAs的能力。然而,對(duì)于這些智能體的評(píng)估和評(píng)價(jià)方法,卻付出了有限的努力。大多數(shù)研究仍然依賴于傳統(tǒng)的性能評(píng)估指標(biāo),這清楚地說明了評(píng)估LMAs的挑戰(zhàn)。這也強(qiáng)調(diào)了在這一領(lǐng)域開發(fā)實(shí)用的評(píng)估標(biāo)準(zhǔn)和建立基準(zhǔn)數(shù)據(jù)集的必要性。本節(jié)總結(jié)了對(duì)LMAs的現(xiàn)有評(píng)估,并提供了對(duì)未來發(fā)展的展望。

主觀評(píng)價(jià)

主觀評(píng)價(jià)主要是指使用人類來評(píng)估這些LMAs的能力。最終目標(biāo)是創(chuàng)建一個(gè)能夠像人類一樣理解世界并自主執(zhí)行各種任務(wù)的LMA。因此,采用人類用戶對(duì)LMAs能力的主觀評(píng)估至關(guān)重要。主要的評(píng)估指標(biāo)包括多功能性、用戶友好性、可擴(kuò)展性以及價(jià)值和安全性。


多功能性。 多功能性表示LMA靈活運(yùn)用各種工具、執(zhí)行物理和虛擬行動(dòng)以及管理各種任務(wù)的能力。[30]提出了比較現(xiàn)有LMAs使用的工具的規(guī)模和類型,以及評(píng)估它們功能多樣性的方法。


用戶友好性。 用戶友好性涉及用戶對(duì)LMAs完成任務(wù)結(jié)果的滿意度,包括效率、準(zhǔn)確性和結(jié)果的豐富程度。這種評(píng)估相對(duì)較主觀。在[64]中,人類對(duì)LMAs的評(píng)估對(duì)于精確評(píng)估其在解釋和執(zhí)行用戶指令方面的有效性至關(guān)重要。


可擴(kuò)展性。 可擴(kuò)展性基本評(píng)估LMAs吸收新能力并應(yīng)對(duì)新興挑戰(zhàn)的能力。鑒于人類需求的動(dòng)態(tài)性,嚴(yán)格評(píng)估LMAs的適應(yīng)性和終身學(xué)習(xí)潛力至關(guān)重要。例如,[23]中的評(píng)估側(cè)重于智能體使用以前未見過的工具完成任務(wù)的熟練程度。


價(jià)值和安全性。 除了之前提到的指標(biāo)外,“價(jià)值和安全性”指標(biāo)在確定智能體對(duì)人類用戶的實(shí)際意義和安全性方面起著至關(guān)重要的作用。雖然許多當(dāng)前的評(píng)估忽視了這一指標(biāo),但考慮到LMAs的“價(jià)值和安全性”是至關(guān)重要的。與語言智能體相比,LMAs可以處理更廣泛的任務(wù)類別,因此更重要的是讓它們遵循與人類社會(huì)價(jià)值觀一致的道德和倫理原則。

客觀評(píng)價(jià)

客觀評(píng)價(jià)與主觀評(píng)估不同,依賴于定量指標(biāo)全面、系統(tǒng)地、標(biāo)準(zhǔn)化地評(píng)估LMAs的能力。目前,這是多模態(tài)智能體研究中最廣泛采用的評(píng)估方法。


指標(biāo)。 指標(biāo)在客觀評(píng)估中發(fā)揮著至關(guān)重要的作用。在當(dāng)前的多模態(tài)智能體研究中,采用了特定的與任務(wù)相關(guān)的指標(biāo),例如智能體生成答案的準(zhǔn)確性,如視覺問答(VQA)中的準(zhǔn)確性。然而,LLMs出現(xiàn)之前建立的傳統(tǒng)任務(wù)指標(biāo)在評(píng)估llm驅(qū)動(dòng)的LMAs時(shí)并不足夠有效。因此,越來越多的研究工作致力于確定更適合的評(píng)估指標(biāo)。例如,在VisualWebArena中,設(shè)計(jì)了一種專門的評(píng)估指標(biāo),用于評(píng)估LMAs處理視覺引導(dǎo)任務(wù)的性能。這包括測(cè)量智能體對(duì)網(wǎng)頁內(nèi)容的視覺理解的準(zhǔn)確性,例如識(shí)別和利用由標(biāo)記集定義的可交互元素進(jìn)行操作,并根據(jù)手動(dòng)設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)定義的任務(wù)目標(biāo)實(shí)現(xiàn)狀態(tài)轉(zhuǎn)換的能力。此外,還包括對(duì)特定視覺場(chǎng)景問題的響應(yīng)的準(zhǔn)確性以及根據(jù)視覺信息執(zhí)行的操作的一致性。


基準(zhǔn)測(cè)試。 基準(zhǔn)測(cè)試代表著一個(gè)測(cè)試環(huán)境,其中包含一系列評(píng)估標(biāo)準(zhǔn)、數(shù)據(jù)集和任務(wù)。它被用于評(píng)估和比較不同算法或系統(tǒng)的性能。與傳統(tǒng)任務(wù)的基準(zhǔn)測(cè)試相比,SmartPlay 利用精心設(shè)計(jì)的一套游戲全面衡量LMAs的各種能力,為每種能力建立了詳細(xì)的評(píng)估指標(biāo)和挑戰(zhàn)級(jí)別。與使用游戲進(jìn)行評(píng)估的方法相比,GAIA 開發(fā)了一個(gè)包含466個(gè)問題及其答案的測(cè)試集。這些問題要求AI系統(tǒng)具備一系列基本能力,例如推理、處理多模態(tài)信息、網(wǎng)絡(luò)導(dǎo)航和熟練使用工具。與當(dāng)前創(chuàng)建越來越困難的任務(wù)以測(cè)試人類能力的趨勢(shì)不同,GAIA側(cè)重于對(duì)現(xiàn)有高級(jí)AI系統(tǒng)提出概念上簡(jiǎn)單但具有挑戰(zhàn)性的問題。這些問題涉及需要精確執(zhí)行復(fù)雜操作序列的真實(shí)場(chǎng)景,其輸出易于驗(yàn)證。類似地,VisualWebArena是一個(gè)基準(zhǔn)測(cè)試套件,旨在評(píng)估和推進(jìn)LMAs在處理視覺和文本理解任務(wù)上的能力,適用于真實(shí)網(wǎng)頁。還有其他基準(zhǔn)測(cè)試有效地測(cè)試了智能體的能力。

應(yīng)用

LMAs擅長(zhǎng)處理多種數(shù)據(jù)模態(tài),在各種情景下的決策和響應(yīng)生成方面勝過僅限于語言的智能體。它們的適應(yīng)性使它們?cè)谡鎸?shí)世界的多感官環(huán)境中異常有用,如圖4所示。

一文詳解多模態(tài)智能體(LMAs)最新進(jìn)展(核心組件/分類/評(píng)估/應(yīng)用)-AI.x社區(qū)

GUI自動(dòng)化。 在這個(gè)應(yīng)用中,LMAs的目標(biāo)是理解和模擬用戶界面內(nèi)的人類操作,實(shí)現(xiàn)重復(fù)任務(wù)的執(zhí)行、跨多個(gè)應(yīng)用程序的導(dǎo)航以及簡(jiǎn)化復(fù)雜的工作流程。這種自動(dòng)化有望節(jié)省用戶的時(shí)間和精力,讓他們可以專注于工作的更重要和更有創(chuàng)造性的方面。例如,GPT-4V-Act是一種先進(jìn)的人工智能,將GPT-4V的能力與網(wǎng)絡(luò)瀏覽相結(jié)合,以改進(jìn)人機(jī)交互。它的主要目標(biāo)是使用戶界面更易于訪問,簡(jiǎn)化工作流程自動(dòng)化,并增強(qiáng)自動(dòng)化的UI測(cè)試。這種人工智能對(duì)于殘疾人或技術(shù)能力有限的人來說特別有益,幫助他們更輕松地瀏覽復(fù)雜的界面。


機(jī)器人技術(shù)與實(shí)體人工智能。 這個(gè)應(yīng)用專注于將機(jī)器人的感知、推理和行動(dòng)能力與其環(huán)境中的物理交互相結(jié)合。通過使用多模態(tài)智能體,機(jī)器人可以利用多種感官通道,如視覺、聽覺和觸覺,獲取全面的環(huán)境數(shù)據(jù)。例如,MP5系統(tǒng)是一種先進(jìn)的多模態(tài)實(shí)體系統(tǒng),用于Minecraft,利用主動(dòng)感知來智能地分解并執(zhí)行廣泛的、無限期的任務(wù),使用大語言模型。

游戲開發(fā)。 游戲人工智能致力于設(shè)計(jì)和實(shí)現(xiàn)這些智能體,以展示智能和真實(shí)感,從而提供引人入勝和具有挑戰(zhàn)性的玩家體驗(yàn)。將智能體技術(shù)成功地整合到游戲中,已經(jīng)導(dǎo)致了更復(fù)雜和交互式的虛擬環(huán)境的創(chuàng)建。


自動(dòng)駕駛。 傳統(tǒng)的自動(dòng)駕駛方法在有效感知和解釋復(fù)雜場(chǎng)景方面面臨困難。最近基于多模態(tài)智能體技術(shù)的進(jìn)展,特別是由LLMs驅(qū)動(dòng),標(biāo)志著在克服這些挑戰(zhàn)和彌合感知差距方面取得了重大進(jìn)展。GPT-Driver,這是一種先進(jìn)的方法,采用OpenAI GPT-3.5模型作為自動(dòng)駕駛車輛的可靠運(yùn)動(dòng)規(guī)劃器,特別注重生成安全舒適的駕駛軌跡。利用LLMs固有的推理能力,他們的方法為新穎駕駛場(chǎng)景中有限的泛化問題提供了有希望的解決方案。


視頻理解。 視頻理解智能體是專門用于分析和理解視頻內(nèi)容的人工智能系統(tǒng)。它利用深度學(xué)習(xí)技術(shù)從視頻中提取關(guān)鍵信息,識(shí)別對(duì)象、動(dòng)作和場(chǎng)景,以增強(qiáng)對(duì)視頻內(nèi)容的理解。


視覺生成和編輯。 這種類型的應(yīng)用旨在創(chuàng)建和編輯視覺內(nèi)容。利用先進(jìn)的技術(shù),這個(gè)工具輕松地創(chuàng)建和修改圖像,為用戶提供了創(chuàng)意項(xiàng)目的靈活選擇。例如,LLaVA-Interactive是一個(gè)開源的多模態(tài)交互系統(tǒng),將預(yù)訓(xùn)練的AI模型的能力融合在一起,以便于與視覺線索進(jìn)行多輪對(duì)話并生成編輯后的圖像,從而實(shí)現(xiàn)了一種經(jīng)濟(jì)高效、靈活直觀的AI輔助視覺內(nèi)容創(chuàng)建體驗(yàn)。


復(fù)雜的視覺推理任務(wù)。 這個(gè)領(lǐng)域是多模態(tài)智能體研究的重點(diǎn),主要強(qiáng)調(diào)多模態(tài)內(nèi)容的分析。這種流行歸因于LLMs在理解和推理基于知識(shí)的查詢方面的優(yōu)越認(rèn)知能力,超越了以前模型的能力。在這些應(yīng)用中,主要關(guān)注的是問答任務(wù)。這包括利用視覺模態(tài)(圖像或視頻)和文本模態(tài)(帶有問題或附帶文檔的問題)進(jìn)行推理響應(yīng)。


音頻編輯與生成。 這個(gè)應(yīng)用中的LMAs集成了音頻領(lǐng)域的基礎(chǔ)專家模型,使音樂的編輯和創(chuàng)作變得高效。

結(jié)論

本調(diào)查對(duì)由LLMs驅(qū)動(dòng)的多模態(tài)智能體(LMAs)的最新研究進(jìn)行了徹底的概述。首先介紹了LMAs的核心組件(即感知、規(guī)劃、行動(dòng)和記憶),并將現(xiàn)有研究分類為四類。隨后,整理了評(píng)估LMAs的現(xiàn)有方法,并設(shè)計(jì)了一個(gè)全面的評(píng)估框架。最后,重點(diǎn)介紹了LMAs領(lǐng)域內(nèi)一系列當(dāng)前和重要的應(yīng)用場(chǎng)景。盡管取得了顯著進(jìn)展,但這個(gè)領(lǐng)域仍面臨許多未解決的挑戰(zhàn),有很大的改進(jìn)空間。我們最后根據(jù)審查的進(jìn)展,強(qiáng)調(diào)了幾個(gè)有前途的方向:

  • 在框架方面:LMAs未來的框架可能會(huì)從兩個(gè)不同的角度發(fā)展。從單一智能體的角度來看,發(fā)展可能朝著創(chuàng)建一個(gè)更統(tǒng)一的系統(tǒng)的方向發(fā)展。這涉及到規(guī)劃者直接與多模態(tài)環(huán)境互動(dòng),利用全面的工具集,并直接操作記憶;從多個(gè)智能體的角度來看,推進(jìn)多個(gè)多模態(tài)智能體之間的有效協(xié)調(diào),執(zhí)行集體任務(wù),是一個(gè)關(guān)鍵的研究方向。這包括基本的方面,如協(xié)作機(jī)制、通信協(xié)議和戰(zhàn)略任務(wù)分配。
  • 在評(píng)估方面:對(duì)于這個(gè)領(lǐng)域,需要系統(tǒng)和標(biāo)準(zhǔn)的評(píng)估框架。理想的評(píng)估框架應(yīng)該包含一系列評(píng)估任務(wù),從簡(jiǎn)單到復(fù)雜不等,每個(gè)任務(wù)都具有對(duì)人類的重要相關(guān)性和效用。它應(yīng)該包含清晰而明智的評(píng)估指標(biāo),經(jīng)過精心設(shè)計(jì),以全面而非重復(fù)的方式評(píng)估LMA的各種能力。此外,用于評(píng)估的數(shù)據(jù)集應(yīng)該經(jīng)過精心策劃,以反映更貼近實(shí)際情況的場(chǎng)景。
  • 在應(yīng)用方面:LMAs在現(xiàn)實(shí)世界中的潛在應(yīng)用是巨大的,為傳統(tǒng)模型之前具有挑戰(zhàn)性的問題提供了解決方案,例如網(wǎng)絡(luò)瀏覽。此外,LMAs與人機(jī)交互領(lǐng)域的交叉也代表了未來應(yīng)用的重要方向之一。它們處理和理解來自各種模態(tài)的信息的能力使它們能夠執(zhí)行更復(fù)雜、更細(xì)微的任務(wù),從而增強(qiáng)了它們?cè)趯?shí)際場(chǎng)景中的實(shí)用性,并改善了人與機(jī)器之間的交互。


本文轉(zhuǎn)自 AI生成未來 ,作者:Junlin Xie等


原文鏈接:??https://mp.weixin.qq.com/s/uvHvVcAXRb_d55_T687ByA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 啪啪免费 | 女同久久另类99精品国产 | 久草欧美视频 | 91久久国产综合久久 | 黄色片视频 | 亚洲综合成人网 | 日韩一区二区三区在线观看视频 | 亚洲成人毛片 | 手机在线一区二区三区 | 亚洲欧洲色视频 | 日本在线免费 | 久久精品视频一区二区三区 | 国产福利在线 | 91精品国产91久久综合桃花 | 亚洲一区二区三区免费在线观看 | 九九热精品视频 | 欧美精品1区 | 亚洲欧美视频 | 91在线免费观看网站 | 久久综合一区二区三区 | 久久美女网 | 成人依人| 亚洲精品在线看 | 日韩欧美在线一区 | 久久一级大片 | 国产一区二区在线免费观看 | 中国三级黄色录像 | 日韩av一区在线观看 | 国产精品a久久久久 | 日韩欧美亚洲 | 欧美日韩中文在线 | 欧美三级电影在线播放 | 日韩欧美中文 | 国产一区二区在线看 | 欧美黑人巨大videos精品 | 精品欧美一区二区在线观看欧美熟 | 毛片一区二区三区 | 久久亚洲二区 | 久久国产电影 | 亚洲高清免费观看 | 久久最新|