成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步

人工智能 新聞
近期,基于多模態(tài)大模型(MLLM)構(gòu)建GUI智能體以實現(xiàn)智能設(shè)備上(如手機、PC)的任務(wù)自動化,受到了廣泛的關(guān)注。

面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent,來自阿里通義實驗室。

從Office到瀏覽器,跨APP工作流都可以交給AI來完成了。

圖片

指令1(翻譯):在記事本應(yīng)用程序中,打開“文檔”中的“備忘錄”文件,查看上午的第二項活動。在時鐘應(yīng)用程序中,在該活動開始前1小時設(shè)置鬧鐘。

指令2(翻譯):在文件資源管理器中,打開“文檔”中的“旅行計劃”文件,查看旅行計劃的目的地。將旅行目的地添加到時鐘應(yīng)用程序的世界時鐘列表中。在Chrome瀏覽器上搜索從北京到旅行目的地的航班時間。

指令3(翻譯):在Chrome瀏覽器中分別搜索英偉達(Nvidia)和蘋果(Apple)的當(dāng)前股價。在Excel中打開“stock_prices”文件,將公司名稱寫入A列,相應(yīng)的股價寫入B列。

指令4(翻譯):在Outlook中讀取發(fā)給豪伊的主題為“旅行”的已讀郵件,記錄行程的出發(fā)地、目的地和出發(fā)日期。在Chrome瀏覽器上的booking.com網(wǎng)站搜索單程機票。

指令5(翻譯):在文件資源管理器中打開“文檔”文件夾里的“test_doc1”文件,在Word中將標(biāo)題設(shè)為加粗,并將前兩段的行距設(shè)為1.5倍。

近期,基于多模態(tài)大模型(MLLM)構(gòu)建GUI智能體以實現(xiàn)智能設(shè)備上(如手機、PC)的任務(wù)自動化,受到了廣泛的關(guān)注。

如下圖所示,與手機相比,PC場景的復(fù)雜性體現(xiàn)在兩方面:

一是PC的圖形界面包含了更密集多樣的可交互元素,以及不同布局的文本,給細(xì)粒度感知帶來了挑戰(zhàn);二是PC常用于生產(chǎn)力場景,涉及更多復(fù)雜的App內(nèi)及跨App工作流,因此包含更復(fù)雜的任務(wù)序列。

現(xiàn)有工作如UFO、Agent-S等,對文本的精細(xì)感知和操作能力不足,并且忽視了子任務(wù)之間的復(fù)雜依賴,因此在復(fù)雜PC任務(wù)上存在局限性。

圖片

針對這一問題,阿里通義實驗室的研究人員提出面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent:

(1)設(shè)計主動感知模塊(APM)實現(xiàn)對屏幕內(nèi)容的精細(xì)感知和操作;

(2)提出層次化多智能體協(xié)作結(jié)構(gòu),將復(fù)雜指令分解為指令-子任務(wù)-動作3個層次,并在相應(yīng)層次設(shè)置Manager、Progress、Decision及Reflection智能體,實現(xiàn)對復(fù)雜指令自上而下的難度分解,以及自下而上的精確反饋。

為了更好地評估智能體在復(fù)雜PC任務(wù)上的表現(xiàn),作者還構(gòu)建了一個涉及8個常用PC應(yīng)用的復(fù)雜指令集,實驗評估發(fā)現(xiàn),所提出的PC-Agent框架在復(fù)雜任務(wù)上的表現(xiàn)顯著超越已有方法。

主動感知模塊APM

對于可交互元素,通過提取屏幕的accessibility tree來獲取其位置及功能描述信息。對于文本信息,當(dāng)決策智能體觸發(fā)Select (目標(biāo)文本)動作時,主動感知模塊通過基于MLLM的意圖理解模塊提取目標(biāo)文本的起止范圍,然后利用OCR工具進行精確定位及后續(xù)精細(xì)操作。

圖片主動感知模塊示意圖

層次化多智能體協(xié)作

PC-Agent將復(fù)雜指令的執(zhí)行分解為3個層次:指令-子任務(wù)-動作。

(1)在指令層次,設(shè)置Manager智能體負(fù)責(zé)將復(fù)雜指令拆分為子任務(wù),以及進行跨子任務(wù)通信。如上圖所示,復(fù)雜指令的子任務(wù)之間往往相互依賴,部分子任務(wù)需要前序子任務(wù)的執(zhí)行結(jié)果才能實例化為一個可獨立執(zhí)行的子任務(wù)。設(shè)置Manager智能體,有助于處理子任務(wù)之間復(fù)雜的依賴關(guān)系,并有效降低單一子任務(wù)的決策難度。

(2)在子任務(wù)層次,設(shè)置Progress智能體,負(fù)責(zé)跟蹤和總結(jié)子任務(wù)的執(zhí)行進度,從而實現(xiàn)更精確的進度感知,并避免冗長模糊的操作歷史干擾決策。

(3)在動作層次,設(shè)置Decision智能體和Reflection智能體。對于當(dāng)前子任務(wù)的每個步驟,Decision智能體通過感知模塊觀察屏幕,并結(jié)合Progress智能體輸出的進度信息和Reflection智能體輸出的反思信息,生成當(dāng)前步驟的操作決策。Reflection智能體則根據(jù)每個步驟操作前后屏幕的變化,判斷該步驟是否達到了預(yù)期的效果,并將可能出現(xiàn)的異常情況反饋給Progress和Decision智能體。

圖片PC-Agent框架示意圖

PC-Eval指令集

由于現(xiàn)有基于真實PC環(huán)境的動態(tài)評測數(shù)據(jù)集(如WindowsAgentArena)主要由相對基礎(chǔ)的指令構(gòu)成,為了更好地評估智能體在實際場景復(fù)雜指令的表現(xiàn),作者提出了一個新的評測指令集PC-Eval,包含涉及8個常用PC應(yīng)用的25條復(fù)雜用戶指令。

每條指令由若干具有依賴關(guān)系的子任務(wù)構(gòu)成,強調(diào)精細(xì)化操作及長程決策,并與現(xiàn)實場景工作流相對應(yīng)。下表列舉了部分指令的示例。

圖片

實驗結(jié)果

現(xiàn)有基于先進MLLM(如GPT-4o、Claude-3.5)的單智能體方法,幾乎無法完成任何復(fù)雜指令,驗證了PC復(fù)雜場景在感知、決策方面極具挑戰(zhàn)性。此外,對比分析現(xiàn)有的開源多智能體方法UFO及Agent-S的測試結(jié)果,可以發(fā)現(xiàn):

(1)現(xiàn)有方法的精細(xì)感知和操作能力較弱,例如UFO在Excel表格場景會將多個信息重復(fù)填入同一單元格,而UFO和Agent-S均無法執(zhí)行Word文檔的編輯操作。

(2)現(xiàn)有方法無法有效處理子任務(wù)間復(fù)雜的依賴,例如對于“打開文檔A,翻譯其內(nèi)容,新建文檔B,將文檔A內(nèi)容的翻譯寫在文檔B中”這樣的指令,Agent-S會在新建的文檔中寫下“The translation of the content”這句話,而非實際的翻譯內(nèi)容。

(3)相比之下,主動感知模塊使得PC-Agent具備精細(xì)感知與操作能力,層次化多智能體協(xié)作也實現(xiàn)了有效的指令拆解、子任務(wù)間通信、進度感知以及錯誤反饋,從而顯著提升了PC-Agent在復(fù)雜任務(wù)上的性能表現(xiàn)。

圖片

樣例展示

圖片

搜索多項信息并編輯Excel表格的操作序列

圖片

Reflection智能體發(fā)現(xiàn)無效操作并反饋給Decision智能體

圖片

Word文檔中的居中、添加下劃線等編輯操作

論文鏈接:https://arxiv.org/pdf/2502.14282

代碼鏈接:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2010-03-15 09:40:19

Windows 8研發(fā)

2020-09-22 10:49:12

大數(shù)據(jù)旅游技術(shù)

2009-03-31 11:12:59

萬兆以太網(wǎng)

2014-11-28 13:37:30

DCN無線

2021-04-27 11:20:20

機器學(xué)習(xí)骨科醫(yī)療

2023-04-12 16:12:09

2011-08-02 14:31:16

激光打印機用戶體驗

2021-01-29 17:57:32

存儲

2014-11-13 15:54:23

Imperva亞馬遜

2015-05-27 14:38:14

戴爾云計算

2016-09-07 15:38:13

綠色數(shù)據(jù)中心能源消耗

2013-08-29 10:16:39

企業(yè)管理社交化云之家

2011-09-16 11:38:34

AVGQQ電腦管家

2023-12-18 13:06:25

腦機接口AI

2022-07-27 22:15:20

HarmonyOS鴻蒙鴻蒙系統(tǒng)

2021-05-31 20:28:11

AI

2020-07-05 07:56:58

Python語言開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品入口麻豆88视频 | 中文字幕在线免费观看 | 中文字幕一区二区三区不卡 | 波多野结衣中文字幕一区二区三区 | 亚洲一区二区三区视频 | 精品国产乱码久久久久久蜜柚 | 亚洲一区不卡在线 | 蜜桃久久 | 在线视频成人 | 日韩欧美二区 | 成人午夜免费视频 | 国产传媒在线观看 | 精品视频www | 在线视频a | 精品国产欧美 | 亚洲精品久久久久中文字幕二区 | 一久久久 | 久久久久国产精品 | 国产做a爱片久久毛片 | 国产欧美一区二区三区日本久久久 | 久草在线 | 精品国产91久久久久久 | 午夜在线小视频 | www国产亚洲精品久久网站 | 欧美日韩成人在线 | 91精品一区| 韩日精品一区 | 伊人看片 | 欧美色999| 粉嫩av久久一区二区三区 | 久久不卡 | 成人久久18免费网站麻豆 | 天天干夜夜操视频 | 久久久精彩视频 | av大片| 亚洲a在线视频 | 国产农村妇女精品一二区 | 亚洲精选久久 | 色视频在线播放 | 成人免费毛片片v | 久久精品免费观看 |