Manus 爆火,再次證明 Computer Use Agent 的潛力
2025年3月4號晚,Monica.im 發布了一款通用型 AI Agent 產品: Manus(https://manus.im/),從官網透露出的視頻來看,這是一款基于 Computer Use 實現的 AI Agent,特點在于能夠自主操作計算機完成更復雜的任務,例如做 PPT,分析股票市場變化,整理數據等。
本文無意探討 Manus 的具體能力,畢竟咱也沒試用過,沒資格評價。今天我更想聊聊它背后的技術:Computer use,這個概念最早由 Anthropic 在 24年11月提出,雖然國內討論的聲浪并不大,但這種通過 LLM 自行操作計算機系統,進而實現更通用 Agent 能力的技術,卻又非常大的想象空間,國外有不少廠商陸續跟進,做出了許多優秀作品。
我認為,Computer Use 將會成為未來 AI Agent 的一種重要設計模式,因此有必要更深入理解這一概念以及背后的執行原理。
Computer Use 是什么
24年11月,Anthropic官宣了Claude 3.5的同時,也低調官宣了一個Beta版本的能力 Computer Use,目前處于公開測試階段,這項功能允許 Claude 像人類一樣使用計算機,具體表現為:用戶可以指導 Claude 像人類一樣使用計算機 —— 通過查看屏幕、移動光標、單擊按鈕和輸入文本,來完成各類任務。
這項技術旨在教會Claude通用的計算機操作技能,包括理解用戶界面內容和執行界面交互,而無需為每種軟件單獨開發代理程序,這使得 Claude 模型得以實現:
- 跨平臺界面解析:基于計算機視覺實時識別GUI元素(按鈕/輸入框/菜單欄等),準確率達92%
參考:https://www.mittrchina.com/news/detail/13924?locale=zh_CN
- 擬人化操作鏈:構建「屏幕感知→光標定位→點擊/輸入→結果驗證」的完整動作流:
- 自適應學習框架:通過強化學習動態優化操作路徑,處理非結構化界面時響應速度提升40%
- 雙向反饋機制:在執行過程中實時捕獲屏幕變化,動態調整操作策略
- 等等
特別適合替代人類完成一些常規計算機操作任務,如端到端測試(E2E)、自動化重復流程處理,以及將簡單指令轉化為復雜計算機指令等。
Computer Use 解決了什么問題
Computer Use 技術極具想象空間,設想一套 Agent 軟件就能將自然語言精確轉換為復雜的系統操作指令,未來工作中可能不再需要耗費精力學習各類專業軟件(如 excel、word等)的繁瑣操作邏輯,只需以自然語言方式發出指令即可完成各種常見工作任務,AI 輻射范圍將會進一步涵蓋所有依賴計算機的工種。
也因此,多家團隊正在積極探索推動這一技術落地應用:
- OpenAI 發布 Operator,可根據用戶指令操縱瀏覽器:
- Xlang Lab 發起的 Computer Agent Arena;
- 開源 Agent browser-use,可根據用戶指令操作瀏覽器;
- 以及最近剛發布的國產通用 Agent :Manus
- 等等
甚至可以說,Computer Use 的設計算是對當前 AI 系統工具使用范式做了一次根本性重構,過去實現 LLM 與外部通訊手段多是集中在:function call、MCP 等技術,而這類技術都需要 case by case 地針對各類具體場景設計實現,而 computer use 則可以直接讀取、操作電腦,就像一個極高性能又通用的人類一樣,能夠理解各種復雜計算機界面并完成任務,進而降低 agent 的開發成本(理論上)。
方案1:使用 VLM 模型
Computer Use Agent 重點在于理解計算機界面,因此通常強依賴于 VLM(Vision-Language Model)模型作為核心決策單元,通過多模態交互實現自動化的計算機操作。流程上整體遵循感知-決策-執行的控制范式:
大致包含三個步驟:
- 感知:采用動態屏幕捕捉技術獲取RGB像素流,通過GPU加速實現≤100ms的實時幀捕獲,同步記錄界面元數據(窗口層級/控件屬性/焦點等);
- 決策:使用 VLM(Vision-Language Model) 實現界面元素檢測(Faster R-CNN)+語義分割(Mask R-CNN),理解屏幕截圖和用戶輸入,從而制定相應的行為策略,例如鼠標移動到哪里,點擊哪里;在哪里輸入文本等等;
- 執行:最后,通過系統級輸入驅動來執行相應的操作指令;
持續執行上述循環,直到大語言模型(LLM)判斷任務完成、達到預設的最大操作次數,或超出上下文限制為止。
這種模式的優點是清晰簡潔,容易理解上手。但是:對VLM本身的能力要求非常高,需要能夠可靠地識別用戶界面中的可交互圖標,以及理解屏幕截圖中各種元素的語義,并準確地將預期作與屏幕上的相應區域相關聯,想要實現精確點擊和移動,難度很大。
方案2:基于VLM與OCR融合的增強型 CUA
在上述 VLM 技術的基礎上,我們還可以疊加 OCR 技術實現更精確的內容理解與定位操作,實現流程:
- 截圖
- 基于視覺語言大模型(Vision-Language Model, VLM)+ OCR 實現多模態推理
[{{ "reasoning": "cognitive process here", "action_type": "click", "target_text": "target element"}}]
- 結合OCR文本定位與視覺特征,進行坐標映射計算
- 輸入屏幕快照與用戶指令,生成操作指令集
- 當指令類型為指針交互時,模型輸出結構化定位請求:
- 通過系統級輸入驅動執行操作指令
直至LLM認為任務完成,或者達到設定的最大行為次數,或者超出上下文上限。
這個過程中,VLM作為系統的認知中樞,負責跨模態信息融合相關的工作,包括視覺-語言對齊、指令上下文建模與推理、隱含需求推理等;而 OCR 主要負責解析界面文本信息的原子化解析,解決字形干擾、多語言支持、藝術字體解析等問題,進一步提升結果的準確度。
方案3:使用 MicroSoft Omniparser V2 實現 CUA
2025年2月,Microsoft研究院發布Omniparser V2范式轉換技術,可將任意大型語言模型(LLM)轉化為能直接操作計算機的智能代理。它通過實時解析屏幕界面元素(如按鈕、圖標),將其轉化為結構化數據,使AI能理解用戶指令并執行點擊、輸入等操作,無需針對特定界面微調。該技術顯著提升了處理效率(延遲降低60%)和精準度(在復雜界面測試中達先進水平),成為實現跨平臺、跨應用的智能自動化操作的核心工具。
本質上,OmniParser 與上面提到的 VLM 與 ocr 等技術相似,只是實現精度、準確度更高一些,整體邏輯:
- 執行動態屏幕狀態捕獲(ScreenState Capture)
- 通過OmniParser V2進行多模態界面解析,輸出符合W3C ARIA標準的可交互元素元數據:
- 構建VLM推理上下文
- 調用系統級輸入模擬引擎執行操作
總結
或許在未來,Computer Use 這種"所見即所控"的模式將徹底重構人機協作邊界,并且很可能催生新的操作系統范式——AI將作為原生交互層直接駕馭數字世界。
不過就當下而言,各家產品都存在比較嚴重的性能問題,交互效率并不高,可以保持觀望吧。對程序員群體而言,也應該理解 CUA 未來可能會成為一種主流 Agent 架構,值得提前投入精力學習。