成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<table id="byour"><nav id="byour"></nav></table>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Manus 爆火，再次證明 Computer Use Agent 的潛力

作者：范文杰 2025-03-07 09:08:43

今天我更想聊聊它背后的技術：Computer use，這個概念最早由 Anthropic 在 24年11月提出，雖然國內討論的聲浪并不大，但這種通過 LLM 自行操作計算機系統，進而實現更通用 Agent 能力的技術，卻又非常大的想象空間，國外有不少廠商陸續跟進，做出了許多優秀作品。

2025年3月4號晚，Monica.im 發布了一款通用型 AI Agent 產品： Manus(https://manus.im/)，從官網透露出的視頻來看，這是一款基于 Computer Use 實現的 AI Agent，特點在于能夠自主操作計算機完成更復雜的任務，例如做 PPT，分析股票市場變化，整理數據等。

本文無意探討 Manus 的具體能力，畢竟咱也沒試用過，沒資格評價。今天我更想聊聊它背后的技術：Computer use，這個概念最早由 Anthropic 在 24年11月提出，雖然國內討論的聲浪并不大，但這種通過 LLM 自行操作計算機系統，進而實現更通用 Agent 能力的技術，卻又非常大的想象空間，國外有不少廠商陸續跟進，做出了許多優秀作品。

我認為，Computer Use 將會成為未來 AI Agent 的一種重要設計模式，因此有必要更深入理解這一概念以及背后的執行原理。

Computer Use 是什么

24年11月，Anthropic官宣了Claude 3.5的同時，也低調官宣了一個Beta版本的能力 Computer Use，目前處于公開測試階段，這項功能允許 Claude 像人類一樣使用計算機，具體表現為：用戶可以指導 Claude 像人類一樣使用計算機 —— 通過查看屏幕、移動光標、單擊按鈕和輸入文本，來完成各類任務。

https://www.anthropic.com/news/3-5-models-and-computer-use

這項技術旨在教會Claude通用的計算機操作技能，包括理解用戶界面內容和執行界面交互，而無需為每種軟件單獨開發代理程序，這使得 Claude 模型得以實現：

跨平臺界面解析：基于計算機視覺實時識別GUI元素（按鈕/輸入框/菜單欄等），準確率達92%

參考：https://www.mittrchina.com/news/detail/13924?locale=zh_CN

擬人化操作鏈：構建「屏幕感知→光標定位→點擊/輸入→結果驗證」的完整動作流：
自適應學習框架：通過強化學習動態優化操作路徑，處理非結構化界面時響應速度提升40%
雙向反饋機制：在執行過程中實時捕獲屏幕變化，動態調整操作策略
等等

特別適合替代人類完成一些常規計算機操作任務，如端到端測試（E2E）、自動化重復流程處理，以及將簡單指令轉化為復雜計算機指令等。

Computer Use 解決了什么問題

Computer Use 技術極具想象空間，設想一套 Agent 軟件就能將自然語言精確轉換為復雜的系統操作指令，未來工作中可能不再需要耗費精力學習各類專業軟件(如 excel、word等)的繁瑣操作邏輯，只需以自然語言方式發出指令即可完成各種常見工作任務，AI 輻射范圍將會進一步涵蓋所有依賴計算機的工種。

也因此，多家團隊正在積極探索推動這一技術落地應用：

OpenAI 發布 Operator，可根據用戶指令操縱瀏覽器：
Xlang Lab 發起的 Computer Agent Arena；
開源 Agent browser-use，可根據用戶指令操作瀏覽器；
以及最近剛發布的國產通用 Agent ：Manus
等等

甚至可以說，Computer Use 的設計算是對當前 AI 系統工具使用范式做了一次根本性重構，過去實現 LLM 與外部通訊手段多是集中在：function call、MCP 等技術，而這類技術都需要 case by case 地針對各類具體場景設計實現，而 computer use 則可以直接讀取、操作電腦，就像一個極高性能又通用的人類一樣，能夠理解各種復雜計算機界面并完成任務，進而降低 agent 的開發成本(理論上)。

方案1：使用 VLM 模型

Computer Use Agent 重點在于理解計算機界面，因此通常強依賴于 VLM（Vision-Language Model）模型作為核心決策單元，通過多模態交互實現自動化的計算機操作。流程上整體遵循感知-決策-執行的控制范式：

大致包含三個步驟：

感知：采用動態屏幕捕捉技術獲取RGB像素流，通過GPU加速實現≤100ms的實時幀捕獲，同步記錄界面元數據（窗口層級/控件屬性/焦點等）；
決策：使用 VLM（Vision-Language Model）實現界面元素檢測（Faster R-CNN）+語義分割（Mask R-CNN），理解屏幕截圖和用戶輸入，從而制定相應的行為策略，例如鼠標移動到哪里，點擊哪里；在哪里輸入文本等等；
執行：最后，通過系統級輸入驅動來執行相應的操作指令；

持續執行上述循環，直到大語言模型（LLM）判斷任務完成、達到預設的最大操作次數，或超出上下文限制為止。

這種模式的優點是清晰簡潔，容易理解上手。但是：對VLM本身的能力要求非常高，需要能夠可靠地識別用戶界面中的可交互圖標，以及理解屏幕截圖中各種元素的語義，并準確地將預期作與屏幕上的相應區域相關聯，想要實現精確點擊和移動，難度很大。

方案2：基于VLM與OCR融合的增強型 CUA

在上述 VLM 技術的基礎上，我們還可以疊加 OCR 技術實現更精確的內容理解與定位操作，實現流程：

截圖
基于視覺語言大模型（Vision-Language Model, VLM）+ OCR 實現多模態推理

[{{ "reasoning": "cognitive process here", "action_type": "click", "target_text": "target element"}}]

結合OCR文本定位與視覺特征，進行坐標映射計算

輸入屏幕快照與用戶指令，生成操作指令集
當指令類型為指針交互時，模型輸出結構化定位請求：
通過系統級輸入驅動執行操作指令

直至LLM認為任務完成，或者達到設定的最大行為次數，或者超出上下文上限。

這個過程中，VLM作為系統的認知中樞，負責跨模態信息融合相關的工作，包括視覺-語言對齊、指令上下文建模與推理、隱含需求推理等；而 OCR 主要負責解析界面文本信息的原子化解析，解決字形干擾、多語言支持、藝術字體解析等問題，進一步提升結果的準確度。

方案3：使用 MicroSoft Omniparser V2 實現 CUA

2025年2月，Microsoft研究院發布Omniparser V2范式轉換技術，可將任意大型語言模型（LLM）轉化為能直接操作計算機的智能代理。它通過實時解析屏幕界面元素（如按鈕、圖標），將其轉化為結構化數據，使AI能理解用戶指令并執行點擊、輸入等操作，無需針對特定界面微調。該技術顯著提升了處理效率（延遲降低60%）和精準度（在復雜界面測試中達先進水平），成為實現跨平臺、跨應用的智能自動化操作的核心工具。

本質上，OmniParser 與上面提到的 VLM 與 ocr 等技術相似，只是實現精度、準確度更高一些，整體邏輯：

執行動態屏幕狀態捕獲（ScreenState Capture）
通過OmniParser V2進行多模態界面解析，輸出符合W3C ARIA標準的可交互元素元數據：

構建VLM推理上下文
調用系統級輸入模擬引擎執行操作

總結

或許在未來，Computer Use 這種"所見即所控"的模式將徹底重構人機協作邊界，并且很可能催生新的操作系統范式——AI將作為原生交互層直接駕馭數字世界。

不過就當下而言，各家產品都存在比較嚴重的性能問題，交互效率并不高，可以保持觀望吧。對程序員群體而言，也應該理解 CUA 未來可能會成為一種主流 Agent 架構，值得提前投入精力學習。

責任編輯：姜華來源： Tecvan

Manus Claude 人工智能

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产成人精品视频在线观看 | 久久久久国产精品一区 | 欧美精品久久久久 | 国产成人在线一区 | 精品成人av| 欧美黄色一区 | 日韩一区二区三区在线观看 | 91精品国产高清久久久久久久久 | 日本不卡免费新一二三区 | 国产精品久久久久久久久久软件 | 久久精品国产一区二区电影 | 人人九九精 | 午夜性色a√在线视频观看9 | 91精品久久 | 日日操视频 | 国产综合精品一区二区三区 | 青青久视频 | 欧美乱码精品一区二区三区 | 午夜久久久| 免费能直接在线观看黄的视频 | 免费高潮视频95在线观看网站 | 日韩电影一区二区三区 | 精品国产乱码久久久久久88av | www.色.com| 亚洲精品一区二区三区 | 日韩精品国产精品 | 欧美高清性xxxxhd | 视频一区在线 | 一区二区三区在线 | 国产精品亚洲一区二区三区在线观看 | 免费99精品国产自在在线 | 黄一级| 国产精品一区二区久久 | 极品销魂美女一区二区 | 精品久久香蕉国产线看观看亚洲 | 成年人黄色一级片 | 亚洲天堂免费在线 | a在线视频观看 | 二区久久 | 色欧美综合 | 久久精品黄色 |