阿里PC-Agent重構(gòu)人機交互,精準(zhǔn)拆解跨應(yīng)用指令,自動化辦公更進一步
面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent,來自阿里通義實驗室。
從Office到瀏覽器,跨APP工作流都可以交給AI來完成了。
指令1(翻譯):在記事本應(yīng)用程序中,打開“文檔”中的“備忘錄”文件,查看上午的第二項活動。在時鐘應(yīng)用程序中,在該活動開始前1小時設(shè)置鬧鐘。
指令2(翻譯):在文件資源管理器中,打開“文檔”中的“旅行計劃”文件,查看旅行計劃的目的地。將旅行目的地添加到時鐘應(yīng)用程序的世界時鐘列表中。在Chrome瀏覽器上搜索從北京到旅行目的地的航班時間。
指令3(翻譯):在Chrome瀏覽器中分別搜索英偉達(Nvidia)和蘋果(Apple)的當(dāng)前股價。在Excel中打開“stock_prices”文件,將公司名稱寫入A列,相應(yīng)的股價寫入B列。
指令4(翻譯):在Outlook中讀取發(fā)給豪伊的主題為“旅行”的已讀郵件,記錄行程的出發(fā)地、目的地和出發(fā)日期。在Chrome瀏覽器上的booking.com網(wǎng)站搜索單程機票。
指令5(翻譯):在文件資源管理器中打開“文檔”文件夾里的“test_doc1”文件,在Word中將標(biāo)題設(shè)為加粗,并將前兩段的行距設(shè)為1.5倍。
近期,基于多模態(tài)大模型(MLLM)構(gòu)建GUI智能體以實現(xiàn)智能設(shè)備上(如手機、PC)的任務(wù)自動化,受到了廣泛的關(guān)注。
如下圖所示,與手機相比,PC場景的復(fù)雜性體現(xiàn)在兩方面:
一是PC的圖形界面包含了更密集多樣的可交互元素,以及不同布局的文本,給細(xì)粒度感知帶來了挑戰(zhàn);二是PC常用于生產(chǎn)力場景,涉及更多復(fù)雜的App內(nèi)及跨App工作流,因此包含更復(fù)雜的任務(wù)序列。
現(xiàn)有工作如UFO、Agent-S等,對文本的精細(xì)感知和操作能力不足,并且忽視了子任務(wù)之間的復(fù)雜依賴,因此在復(fù)雜PC任務(wù)上存在局限性。
針對這一問題,阿里通義實驗室的研究人員提出面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent:
(1)設(shè)計主動感知模塊(APM)實現(xiàn)對屏幕內(nèi)容的精細(xì)感知和操作;
(2)提出層次化多智能體協(xié)作結(jié)構(gòu),將復(fù)雜指令分解為指令-子任務(wù)-動作3個層次,并在相應(yīng)層次設(shè)置Manager、Progress、Decision及Reflection智能體,實現(xiàn)對復(fù)雜指令自上而下的難度分解,以及自下而上的精確反饋。
為了更好地評估智能體在復(fù)雜PC任務(wù)上的表現(xiàn),作者還構(gòu)建了一個涉及8個常用PC應(yīng)用的復(fù)雜指令集,實驗評估發(fā)現(xiàn),所提出的PC-Agent框架在復(fù)雜任務(wù)上的表現(xiàn)顯著超越已有方法。
主動感知模塊APM
對于可交互元素,通過提取屏幕的accessibility tree來獲取其位置及功能描述信息。對于文本信息,當(dāng)決策智能體觸發(fā)Select (目標(biāo)文本)動作時,主動感知模塊通過基于MLLM的意圖理解模塊提取目標(biāo)文本的起止范圍,然后利用OCR工具進行精確定位及后續(xù)精細(xì)操作。
△主動感知模塊示意圖
層次化多智能體協(xié)作
PC-Agent將復(fù)雜指令的執(zhí)行分解為3個層次:指令-子任務(wù)-動作。
(1)在指令層次,設(shè)置Manager智能體負(fù)責(zé)將復(fù)雜指令拆分為子任務(wù),以及進行跨子任務(wù)通信。如上圖所示,復(fù)雜指令的子任務(wù)之間往往相互依賴,部分子任務(wù)需要前序子任務(wù)的執(zhí)行結(jié)果才能實例化為一個可獨立執(zhí)行的子任務(wù)。設(shè)置Manager智能體,有助于處理子任務(wù)之間復(fù)雜的依賴關(guān)系,并有效降低單一子任務(wù)的決策難度。
(2)在子任務(wù)層次,設(shè)置Progress智能體,負(fù)責(zé)跟蹤和總結(jié)子任務(wù)的執(zhí)行進度,從而實現(xiàn)更精確的進度感知,并避免冗長模糊的操作歷史干擾決策。
(3)在動作層次,設(shè)置Decision智能體和Reflection智能體。對于當(dāng)前子任務(wù)的每個步驟,Decision智能體通過感知模塊觀察屏幕,并結(jié)合Progress智能體輸出的進度信息和Reflection智能體輸出的反思信息,生成當(dāng)前步驟的操作決策。Reflection智能體則根據(jù)每個步驟操作前后屏幕的變化,判斷該步驟是否達到了預(yù)期的效果,并將可能出現(xiàn)的異常情況反饋給Progress和Decision智能體。
△PC-Agent框架示意圖
PC-Eval指令集
由于現(xiàn)有基于真實PC環(huán)境的動態(tài)評測數(shù)據(jù)集(如WindowsAgentArena)主要由相對基礎(chǔ)的指令構(gòu)成,為了更好地評估智能體在實際場景復(fù)雜指令的表現(xiàn),作者提出了一個新的評測指令集PC-Eval,包含涉及8個常用PC應(yīng)用的25條復(fù)雜用戶指令。
每條指令由若干具有依賴關(guān)系的子任務(wù)構(gòu)成,強調(diào)精細(xì)化操作及長程決策,并與現(xiàn)實場景工作流相對應(yīng)。下表列舉了部分指令的示例。
實驗結(jié)果
現(xiàn)有基于先進MLLM(如GPT-4o、Claude-3.5)的單智能體方法,幾乎無法完成任何復(fù)雜指令,驗證了PC復(fù)雜場景在感知、決策方面極具挑戰(zhàn)性。此外,對比分析現(xiàn)有的開源多智能體方法UFO及Agent-S的測試結(jié)果,可以發(fā)現(xiàn):
(1)現(xiàn)有方法的精細(xì)感知和操作能力較弱,例如UFO在Excel表格場景會將多個信息重復(fù)填入同一單元格,而UFO和Agent-S均無法執(zhí)行Word文檔的編輯操作。
(2)現(xiàn)有方法無法有效處理子任務(wù)間復(fù)雜的依賴,例如對于“打開文檔A,翻譯其內(nèi)容,新建文檔B,將文檔A內(nèi)容的翻譯寫在文檔B中”這樣的指令,Agent-S會在新建的文檔中寫下“The translation of the content”這句話,而非實際的翻譯內(nèi)容。
(3)相比之下,主動感知模塊使得PC-Agent具備精細(xì)感知與操作能力,層次化多智能體協(xié)作也實現(xiàn)了有效的指令拆解、子任務(wù)間通信、進度感知以及錯誤反饋,從而顯著提升了PC-Agent在復(fù)雜任務(wù)上的性能表現(xiàn)。
樣例展示
搜索多項信息并編輯Excel表格的操作序列
Reflection智能體發(fā)現(xiàn)無效操作并反饋給Decision智能體
Word文檔中的居中、添加下劃線等編輯操作
論文鏈接:https://arxiv.org/pdf/2502.14282
代碼鏈接:https://github.com/X-PLUG/MobileAgent/tree/main/PC-Agent