DeepSeek的最佳用法?西湖大學發布可以自主進化的手機智能體AppAgentX
1. 背景介紹
近年來,大語言模型(LLM) 的快速發展正推動人工智能邁向新的高度。像 DeepSeek-R1 這樣的模型因其強大的理解和生成能力,已經在 對話生成、代碼編寫、知識問答 等任務中展現出了卓越的表現。如今,LLM 的應用范圍正進一步拓展,催生了一類新的智能體 —— 基于 LLM 的 GUI 智能體(GUI Agents),它們能夠像人類一樣,直接通過鼠標、鍵盤與計算機或手機進行交互。
這類智能體不再依賴傳統 RPA(機器人流程自動化) 方式,即基于預定義的規則和腳本執行任務,而是能夠通過自然語言理解用戶指令,自主完成操作。例如,它們可以打開應用、編輯文檔、瀏覽網頁,甚至執行跨軟件的復雜任務,而無需開發者手動編寫繁瑣的自動化腳本。相比 RPA,這類智能體的優勢在于靈活性和泛化能力,能夠適應不同任務場景。
這一趨勢讓人們對 AI 助手的想象逐漸成為現實??苹秒娪爸械?賈維斯(Jarvis),能夠理解自然語言并自主操作計算機,而今天的 LLM 智能體正在向這一方向邁進。企業中也正在推廣 數字員工(Digital Workers),他們可以自動完成數據錄入、報表生成、郵件回復等重復性任務,從而提高生產力。此外,智能體還被應用于 自動化軟件測試、遠程控制、智能辦公助手 等場景,使人們能夠自然地用語言指令控制計算機甚至整個企業 IT 系統。
然而,目前的 LLM 智能體在實際應用中仍然存在效率問題?,F有方法依賴 逐步推理,即每執行一個操作前,模型都要 “思考” 下一步該做什么。例如,在執行簡單的搜索任務時,智能體需要分別推理 “點擊搜索框” → “輸入關鍵詞” → “點擊搜索按鈕”,即便是簡單的步驟,也需要耗費額外的計算資源。這種模式雖然提高了通用性,但在應對大量 重復性任務 時,效率卻遠不如傳統的 RPA。
因此,一個關鍵問題是:是否可以讓智能智能體既保留推理能力,能夠靈活應對新任務,同時又能像 RPA 一樣高效執行常見任務?
為了解決這一問題,西湖大學 AGI 實驗室 提出了一種可進化的 GUI 智能體框架 ——AppAgent X。這是 GUI 智能體先驅工作 AppAgent 的最新版本,它讓 LLM 驅動的智能體能夠從自身的操作經驗中學習,不斷進化更高效的行為模式。簡單來說,AppAgent X 讓智能體能夠在任務執行過程中識別 重復性操作模式,并將一系列低層級的操作自動歸納為更高級的 “一鍵” 操作。例如,智能體可以學習到 “搜索” 這一任務模式,并自動將其抽象為一個高層級操作,而無需每次都推理具體步驟。這意味著,智能體在使用過程中會變得越來越高效,越用越聰明。
- 論文標題:AppAgentX: Evolving GUI Agents as Proficient Smartphone Users
- 項目地址:https://appagentx.github.io/
- Github 地址:https://github.com/Westlake-AGI-Lab/AppAgentX
- Arxiv 地址:https://arxiv.org/abs/2503.02268
論文的第一作者是來自西湖大學的研究人員蔣文嘉,指導老師為西湖大學 AGI 實驗室的負責人張馳助理教授。實驗室的研究方向聚焦于生成式人工智能和多模態機器學習。
AppAgent X的功能示意圖
2. AppAgent 的解決方案
在大語言模型與屏幕進行交互的時候,主流工作例如 AppAgent 定義了一系列模擬人類的動作,例如點擊、滑動、輸入。這些操作共同定義了一個基本的、與應用程序無關的操作空間,用于模擬人類與智能手機界面的典型交互。
在不斷的屏幕感知與動作執行的循環中,直到任務的完成。
3. 挑戰:智能與效率的平衡
在大模型驅動的 GUI 智能體中,一個關鍵問題是如何在智能決策與執行效率之間取得良好平衡?,F有方法雖然能借助大模型的強大推理能力理解界面,并逐步規劃點擊、輸入、滑動等交互操作,但這種逐步推理的方式往往導致較高的計算成本和執行延遲。例如,在完成一個簡單的搜索任務時,智能體可能需要針對 “點擊搜索框、輸入關鍵詞、點擊搜索按鈕” 三個步驟逐一推理,而這種方式雖然保證了決策的準確性,卻犧牲了執行速度。
相較之下,傳統的機器人流程自動化(RPA)工具雖然缺乏靈活性,但基于固定腳本的執行策略允許其在預定義任務上實現極高的執行效率。對比二者,大模型智能體的優勢在于適應性強,能夠在復雜或未知界面中推理最優交互方式,而 RPA 的優勢則在于執行速度快,能夠高效完成固定任務。如何在大模型智能體的智能性與執行效率之間找到最佳結合點,成為推動該技術落地的重要挑戰。
4. 進化機制下的 AppAgentX
AppAgentX 提出了一種可進化的 GUI 智能體框架,使得智能體不僅能像人類一樣自主探索和理解界面,還能通過學習自身的歷史交互模式,逐漸優化執行過程,實現智能與效率的最佳結合。
通過引入鏈式存儲機制和動態匹配執行機制,使得智能體能夠高效記憶、歸納并優化自身的操作軌跡,從而在后續任務中復用高效的執行策略,減少重復推理,提高整體任務完成速度。
4.1 基于鏈式的存儲機制
研究者為智能體設計了一種鏈式知識存儲機制,用于記錄每次任務執行時的完整交互流程。具體來說,智能體的每次操作都會被存儲形成一個 “鏈”,其中包括:
- 頁面節點:記錄界面的詳細描述與可交互組件,幫助智能體回憶不同界面的功能。
- 元素節點:針對界面上的按鈕、輸入框等交互元素,存儲其視覺特征及歷史操作方式。
- 捷徑節點:對過去的操作步驟進行歸納,使智能體能夠復用已有的成功經驗。
在此基礎上,研究者利用大模型從歷史操作路徑中提取任務邏輯,并自動總結出頁面和交互元素的功能描述。例如,智能體可以總結出 “搜索框 + 確認按鈕” 這一模式,并將其作為高層級的語義單元記錄下來。這樣,在未來遇到類似界面時,智能體便無需從零開始推理,而是可以直接調用已學習到的高效解決方案。
4.2 動態匹配的執行機制
基于存儲的交互鏈,AppAgentX 能夠通過進化機制自動提煉出高效的執行方式。當智能體識別到某些操作模式具有固定的執行順序時(例如點擊搜索框 → 輸入內容 → 提交搜索),它將動態創建一個捷徑節點(shortcut node) ,將多個底層操作整合為一個更高級的動作,從而減少不必要的推理和執行時間。
在后續任務中,智能體會優先匹配當前界面與已有的鏈式存儲記錄,并判斷是否可以直接調用高級操作節點。如果匹配成功,智能體便無需逐步推理所有低層操作,而是直接執行已經優化的快捷路徑,提高任務執行效率。此外,對于未匹配到的任務,智能體仍能夠基于基礎動作空間進行動態推理,確保智能性和靈活性不受影響。
這一機制的優勢在于,它使得智能體的推理能力與執行效率可以動態調節:
- 對于復雜任務,智能體依然可以依靠大模型的推理能力逐步探索執行路徑;
- 對于重復性任務,智能體能高效調用歷史優化的快捷操作,提高執行速度;
- 自適應進化,智能體能夠不斷優化自身的決策,使其在長期運行中表現越來越高效。
5. 結論與展望
隨著大語言模型(LLM)的快速發展,智能體正逐步從簡單的文本交互進化到能夠直接操作操作系統和 GUI 界面的自主智能體。然而,現有方法在效率和執行智能化之間存在權衡,導致 LLM 智能體在面對重復性任務時表現低效。AppAgent X 提出了一種可進化的 GUI 智能體框架,使智能體能夠從自身的任務執行經驗中學習,逐步形成更高效的操作策略。通過這一方法,AppAgent X 兼顧了 LLM 智能體的靈活性和 RPA 智能體的執行效率,實現了高效、智能、無需后端訪問的 GUI 操作。
在實驗中,AppAgent X 在多個 GUI 交互任務上展現出了顯著的效率提升,并優于現有 SOTA 方法。它的進化能力使得智能體能夠不斷優化自身的操作流程,為未來的智能化人機交互奠定了新的基礎。
展望未來,GUI 智能體的進化將是 LLM 智能體發展的關鍵方向之一。我們相信,隨著 LLM 在推理能力上的持續進步,智能體可以進一步拓展至更復雜的應用場景。