Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率精華

大語言模型論文跟蹤

發布于 2024-6-7 12:17

瀏覽

0收藏

1. Mobile-Agent-V2是什么？

Mobile-Agent-v2是一款通過多Agent合作實現有效導航的移動設備操作助手。它包含三個專業角色：規劃Agent、決策Agent和反思Agent。

? 規劃Agent負責根據歷史操作生成任務進度，并通過設計的記憶單元保存歷史屏幕中的焦點內容。

? 決策Agent在生成操作時會參考記憶單元，并檢查屏幕上的焦點內容，同時更新記憶。

? 反思Agent則觀察決策代理操作前后屏幕的變化，評估操作是否達到預期，并在必要時采取措施重新執行。

三個角色在進度、決策和反思階段各司其職，共同協作，以簡化導航的復雜性。

Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率-AI.x社區圖片

Mobile-Agent-v2 的運作是循環迭代的，其流程上圖。為了提升代理對屏幕的識別力和從歷史記錄中導航焦點內容的能力，特別設計了視覺感知模塊和記憶單元。規劃代理首先更新任務進度，決策代理據此導航當前任務的發展。決策代理隨后根據任務進度、屏幕狀態以及前一次操作的反饋（如果有誤）來執行任務。操作后，反思代理會對比操作前后的屏幕，判斷操作是否達到預期效果。

1.1 視覺感知模塊

即便是最先進的 MLLMs，在端到端處理屏幕識別時也面臨挑戰。為此，集成了視覺感知模塊來強化這一功能。該模塊包含三種工具：文本識別、圖標識別和圖標描述。將截屏輸入模塊，可以提取出屏幕上的文本和圖標信息及其坐標。

1.2 記憶模塊

Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率-AI.x社區圖片

鑒于規劃代理產出的任務進度以文本形式展現，從歷史屏幕中導航焦點內容依舊充滿挑戰。為應對這一難題，構建了一個記憶模塊，用以保存與當前任務相關聯的歷史屏幕焦點內容。此記憶單元作為短期記憶模塊，伴隨任務進展而實時更新。在涉及多個應用的復雜場景中，記憶單元發揮著關鍵作用。例如，在上圖展示的情形中，決策代理所捕捉的天氣信息將在后續步驟中發揮作用，此時，與天氣應用頁面相關的信息會被同步更新至記憶單元。

1.3 規劃Agent

Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率-AI.x社區圖片

為了降低決策過程中對冗長歷史操作的依賴，引入了獨立的規劃代理。盡管每次操作發生在不同的頁面且各有差異，但許多操作的目標往往是一致的。以上圖中的例子為例，前四次操作均旨在查找比賽結果。因此，設計了規劃代理，旨在歸納歷史操作并追蹤任務的進展。

1.4 決策Agent

決策代理在決策階段運行，生成操作動作并在設備上執行它們，同時還負責更新記憶單元中的焦點內容。

操作空間：為了降低操作的復雜性，作者設計了一個操作空間，并限制決策代理僅從此空間中選擇操作。對于自由度較高的操作，如點擊和滑動，引入了一個額外的參數空間來定位或處理特定內容。以下是操作空間的詳細描述：

? 打開應用（應用名稱）。如果當前頁面是主頁，可以使用此操作打開名為“應用名稱”的應用。

? 點擊（x，y）。此操作用于點擊坐標為（x，y）的位置。

? 滑動（x1，y1），（x2，y2）。此操作用于從坐標為（x1，y1）的位置滑動到坐標為（x2，y2）的位置。

? 輸入（文本）。如果當前鍵盤處于激活狀態，可以使用此操作在輸入框中輸入“文本”的內容。

? 主頁。此操作用于從任何頁面返回到主頁。

? 停止。如果決策代理認為所有要求都已滿足，可以使用此操作來終止整個操作過程。

記憶單元更新：由于決策代理所做的每項操作都與任務高度相關，并基于當前頁面的視覺感知結果，因此非常適合在屏幕頁面內觀察與任務相關的焦點內容。因此，賦予了決策代理更新記憶單元的能力。在做出決策時，決策代理會被提示觀察當前屏幕頁面內是否有與任務相關的焦點內容。如果觀察到此類信息，決策代理會將其更新到記憶中，供后續決策參考。

1.5 反思Agent

盡管配備了視覺感知模塊，Mobile-Agent-v2 有時仍會執行出人意料的操作。在某些特定情境下，即便是頂尖的 MLLM 如 GPT-4V，也可能引發嚴重的誤判。為此，作者引入了反思代理，用以監測決策代理操作前后屏幕的變化，判斷操作是否達到預期效果。

參照上面的架構圖，反思代理在執行操作后會得出三種反思結果：錯誤操作、無效操作和正確操作。以下是對這三種結果的具體說明：

? 錯誤操作：指引導設備進入與任務無關頁面的操作。比如，代理本想在通訊應用中與聯系人 A 發消息，卻誤入了聯系人 B 的聊天界面。

? 無效操作：指對當前頁面未產生任何變化的操作。比如，代理意圖點擊某個圖標，卻誤觸了圖標旁邊的空白區域。

? 正確操作：指符合決策代理預期，并向完成用戶指令邁進的操作。

遇到錯誤操作時，頁面將回退至操作前的狀態；遇到無效操作時，頁面保持不變。無論是錯誤還是無效操作，都不會被記錄在操作歷史中，以避免代理重復無效的行為。而當操作正確時，相關信息將被更新至操作歷史，頁面狀態也將同步更新。

2. 效果測評

2.1 任務完成度評估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率-AI.x社區圖片

上面兩個表分別展示了Mobile-Agent-v2在非英語和英語環境下的性能表現。相較于Mobile-Agent，Mobile-Agent-v2在基礎和高級指令的執行上均有顯著提升。得益于多代理架構的支持，即便面對極具挑戰性的高級指令，**Mobile-Agent-v2的成功率也能達到55%**，遠高于Mobile-Agent的20%。在英語環境下，Mobile-Agent-v2同樣實現了顯著的性能提升，其成功率平均提高了27%，即便在Mobile-Agent本就表現較好的英語場景中。

2.2 反思能力評估

即便在知識注入的情況下，**決策準確率可能無法達到100%，但完成率卻能達到100%**。這說明即便有外部知識輔助，Mobile-Agent-v2在決策時仍可能犯錯，正如人類一樣，完全避免決策錯誤是困難的。這突顯了反思代理的重要性。

2.3 應用類型評估

綜合各項指標，可以發現所有方法在系統應用上的性能普遍優于第三方應用。從多應用的評估結果來看，Mobile-Agent-v2在成功率和完成率上相較于Mobile-Agent分別提升了37.5%和44.2%。與單一應用任務相比，跨應用任務更依賴于歷史操作和焦點內容的檢索。這一顯著的性能提升證明了Mobile-Agent-v2的多代理架構和記憶單元在其中扮演了重要角色。

2.3 操作知識注入評估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率-AI.x社區圖片

從上面兩個表的知識注入結果來看，操作知識能顯著提高Mobile-Agent-v2的性能，表明人工注入的操作知識有助于克服代理在操作上的局限。這一發現意味著知識注入能夠擴展Mobile-Agent-v2的應用范圍，因為即便是復雜任務，也可以通過人工編寫的操作教程來指導代理完成。這為移動設備自動化腳本測試提供了新思路，表明通過自動化生成高質量的操作知識，可以進一步提升Mobile-Agent-v2的性能。此外，知識注入的成功也為未來移動應用測試開辟了新的可能性。目前移動應用測試多依賴于手工腳本編寫，這限制了測試的普及性并提高了用戶使用門檻。通過將自然語言測試程序注入Mobile-Agent-v2，可以在移動界面元素大小或顏色發生變化時，保持系統的穩定運行，同時語言描述也省去了腳本編寫中所需的知識庫。

2.4 MLLMs性能評估

Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率-AI.x社區圖片

在上表中，對Mobile-Agent-v2框架下不同MLLMs的性能進行了評估。由于部分模型不擅長處理序列輸入，特別挑選了特定指令，并調整了每一步，使其成為獨立的單步任務。因此，僅評估了成功率（等同于決策準確率）。我們還評估了繞過代理架構，直接使用GPT-4V進行端到端操作的效果。結果顯示，直接使用GPT-4V作為移動設備操作助手幾乎不可行。結合代理架構使用的GPT-4V，仍然是實現操作能力的最優配置。