阿里PC-Agent重構(gòu)人機交互，精準(zhǔn)拆解跨應(yīng)用指令，自動化辦公更進一步

作者：量子位 2025-03-04 09:10:00

人工智能新聞

近期，基于多模態(tài)大模型（MLLM）構(gòu)建GUI智能體以實現(xiàn)智能設(shè)備上（如手機、PC）的任務(wù)自動化，受到了廣泛的關(guān)注。

面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent，來自阿里通義實驗室。

從Office到瀏覽器，跨APP工作流都可以交給AI來完成了。

指令1（翻譯）：在記事本應(yīng)用程序中，打開“文檔”中的“備忘錄”文件，查看上午的第二項活動。在時鐘應(yīng)用程序中，在該活動開始前1小時設(shè)置鬧鐘。

指令2（翻譯）：在文件資源管理器中，打開“文檔”中的“旅行計劃”文件，查看旅行計劃的目的地。將旅行目的地添加到時鐘應(yīng)用程序的世界時鐘列表中。在Chrome瀏覽器上搜索從北京到旅行目的地的航班時間。

指令3（翻譯）：在Chrome瀏覽器中分別搜索英偉達（Nvidia）和蘋果（Apple）的當(dāng)前股價。在Excel中打開“stock_prices”文件，將公司名稱寫入A列，相應(yīng)的股價寫入B列。

指令4（翻譯）：在Outlook中讀取發(fā)給豪伊的主題為“旅行”的已讀郵件，記錄行程的出發(fā)地、目的地和出發(fā)日期。在Chrome瀏覽器上的booking.com網(wǎng)站搜索單程機票。

指令5（翻譯）：在文件資源管理器中打開“文檔”文件夾里的“test_doc1”文件，在Word中將標(biāo)題設(shè)為加粗，并將前兩段的行距設(shè)為1.5倍。

近期，基于多模態(tài)大模型（MLLM）構(gòu)建GUI智能體以實現(xiàn)智能設(shè)備上（如手機、PC）的任務(wù)自動化，受到了廣泛的關(guān)注。

如下圖所示，與手機相比，PC場景的復(fù)雜性體現(xiàn)在兩方面：

一是PC的圖形界面包含了更密集多樣的可交互元素，以及不同布局的文本，給細(xì)粒度感知帶來了挑戰(zhàn)；二是PC常用于生產(chǎn)力場景，涉及更多復(fù)雜的App內(nèi)及跨App工作流，因此包含更復(fù)雜的任務(wù)序列。

現(xiàn)有工作如UFO、Agent-S等，對文本的精細(xì)感知和操作能力不足，并且忽視了子任務(wù)之間的復(fù)雜依賴，因此在復(fù)雜PC任務(wù)上存在局限性。

針對這一問題，阿里通義實驗室的研究人員提出面向復(fù)雜PC任務(wù)的多模態(tài)智能體框架PC-Agent：

（1）設(shè)計主動感知模塊（APM）實現(xiàn)對屏幕內(nèi)容的精細(xì)感知和操作；

（2）提出層次化多智能體協(xié)作結(jié)構(gòu)，將復(fù)雜指令分解為指令-子任務(wù)-動作3個層次，并在相應(yīng)層次設(shè)置Manager、Progress、Decision及Reflection智能體，實現(xiàn)對復(fù)雜指令自上而下的難度分解，以及自下而上的精確反饋。

為了更好地評估智能體在復(fù)雜PC任務(wù)上的表現(xiàn)，作者還構(gòu)建了一個涉及8個常用PC應(yīng)用的復(fù)雜指令集，實驗評估發(fā)現(xiàn)，所提出的PC-Agent框架在復(fù)雜任務(wù)上的表現(xiàn)顯著超越已有方法。

主動感知模塊APM

對于可交互元素，通過提取屏幕的accessibility tree來獲取其位置及功能描述信息。對于文本信息，當(dāng)決策智能體觸發(fā)Select (目標(biāo)文本)動作時，主動感知模塊通過基于MLLM的意圖理解模塊提取目標(biāo)文本的起止范圍，然后利用OCR工具進行精確定位及后續(xù)精細(xì)操作。

△主動感知模塊示意圖

層次化多智能體協(xié)作

PC-Agent將復(fù)雜指令的執(zhí)行分解為3個層次：指令-子任務(wù)-動作。

（1）在指令層次，設(shè)置Manager智能體負(fù)責(zé)將復(fù)雜指令拆分為子任務(wù)，以及進行跨子任務(wù)通信。如上圖所示，復(fù)雜指令的子任務(wù)之間往往相互依賴，部分子任務(wù)需要前序子任務(wù)的執(zhí)行結(jié)果才能實例化為一個可獨立執(zhí)行的子任務(wù)。設(shè)置Manager智能體，有助于處理子任務(wù)之間復(fù)雜的依賴關(guān)系，并有效降低單一子任務(wù)的決策難度。

（2）在子任務(wù)層次，設(shè)置Progress智能體，負(fù)責(zé)跟蹤和總結(jié)子任務(wù)的執(zhí)行進度，從而實現(xiàn)更精確的進度感知，并避免冗長模糊的操作歷史干擾決策。

（3）在動作層次，設(shè)置Decision智能體和Reflection智能體。對于當(dāng)前子任務(wù)的每個步驟，Decision智能體通過感知模塊觀察屏幕，并結(jié)合Progress智能體輸出的進度信息和Reflection智能體輸出的反思信息，生成當(dāng)前步驟的操作決策。Reflection智能體則根據(jù)每個步驟操作前后屏幕的變化，判斷該步驟是否達到了預(yù)期的效果，并將可能出現(xiàn)的異常情況反饋給Progress和Decision智能體。

△PC-Agent框架示意圖

PC-Eval指令集

由于現(xiàn)有基于真實PC環(huán)境的動態(tài)評測數(shù)據(jù)集（如WindowsAgentArena）主要由相對基礎(chǔ)的指令構(gòu)成，為了更好地評估智能體在實際場景復(fù)雜指令的表現(xiàn)，作者提出了一個新的評測指令集PC-Eval，包含涉及8個常用PC應(yīng)用的25條復(fù)雜用戶指令。

每條指令由若干具有依賴關(guān)系的子任務(wù)構(gòu)成，強調(diào)精細(xì)化操作及長程決策，并與現(xiàn)實場景工作流相對應(yīng)。下表列舉了部分指令的示例。

實驗結(jié)果

現(xiàn)有基于先進MLLM（如GPT-4o、Claude-3.5）的單智能體方法，幾乎無法完成任何復(fù)雜指令，驗證了PC復(fù)雜場景在感知、決策方面極具挑戰(zhàn)性。此外，對比分析現(xiàn)有的開源多智能體方法UFO及Agent-S的測試結(jié)果，可以發(fā)現(xiàn)：

（1）現(xiàn)有方法的精細(xì)感知和操作能力較弱，例如UFO在Excel表格場景會將多個信息重復(fù)填入同一單元格，而UFO和Agent-S均無法執(zhí)行Word文檔的編輯操作。

（2）現(xiàn)有方法無法有效處理子任務(wù)間復(fù)雜的依賴，例如對于“打開文檔A，翻譯其內(nèi)容，新建文檔B，將文檔A內(nèi)容的翻譯寫在文檔B中”這樣的指令，Agent-S會在新建的文檔中寫下“The translation of the content”這句話，而非實際的翻譯內(nèi)容。

（3）相比之下，主動感知模塊使得PC-Agent具備精細(xì)感知與操作能力，層次化多智能體協(xié)作也實現(xiàn)了有效的指令拆解、子任務(wù)間通信、進度感知以及錯誤反饋，從而顯著提升了PC-Agent在復(fù)雜任務(wù)上的性能表現(xiàn)。