你的Agent電腦助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞

2025-07-02 08:46:00

為了使 Computer-Use Agent（CUA）在未來能夠大規模、安全地部署在實際應用場景中，來自上海 AI Lab、中國科學技術大學和上海交通大學的團隊強勢出手，推出 CUA 安全測試基準——RiOSWorld！

本文由上海 AI Lab、中國科學技術大學和上海交通大學聯合完成。主要作者包括中國科學技術大學碩士生楊靖懿、上海交通大學本科生邵帥。通訊作者為劉東瑞和邵婧，上海 AI Lab 安全團隊，研究方向為 AI 安全可信。

從 Anthropic 的 Claude 3.5 Sonnet 自帶 Computer-Use 功能，到 OpenAI 的 Operator CUA 橫空出世，再到 Manus 直接火爆出圈，現在的 Computer-Use Agent 簡直像開了外掛，只需一條指令，就能獨立完成 code project（coding/debug）、處理郵件、刷網頁、做 PPT/教案，樣樣精通！

但先別著急著歡呼——你有沒有想過，把電腦操縱權交給這些「智能」助手，可能跟把銀行卡密碼告訴陌生人一樣危險？

為了使 Computer-Use Agent（CUA）在未來能夠大規模、安全地部署在實際應用場景中，來自上海 AI Lab、中國科學技術大學和上海交通大學的團隊強勢出手，推出 CUA 安全測試基準——RiOSWorld！稱得上是 CUA 的「安全體檢中心」！該測試基準全面地評估了 Computer-Use Agent 在真實電腦使用場景中可能面臨的安全風險，并表明當前階段的 CUA 作為自動化電腦使用助手仍然面臨著突出的安全風險。

現在，論文、項目官網、GitHub 代碼全部開源！想圍觀 AI「翻車現場」？想和頂尖團隊一起攻克安全難題？趕緊戳下方鏈接！??

Title：RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

Paper：https://arxiv.org/pdf/2506.00618

Page：https://yjyddq.github.io/RiOSWorld.github.io/

Github：https://github.com/yjyddq/RiOSWorld

Agent 電腦助手秒變「踩雷專家」，這些陷阱你發現了嗎？

別以為 AI 真的「聰明絕頂」！研究團隊隨手甩出一個「釣魚郵件」測試 ??，好家伙，這些看似無所不能的 Agent 直接集體翻車！收到偽裝成「防釣魚指南」的惡意郵件，它們居然乖乖點擊鏈接下載「防護軟件」???，完全未關注發件人是不是可疑郵箱。這哪里是智能助手，根本就是網絡詐騙的「天選受害者」！

更離譜的是，面對彈窗廣告、釣魚網站，甚至是試圖繞過人機驗證（reCAPTCHA）這種高危操作，Agent 們也是「勇往直前」。要是碰上心懷不軌的用戶，讓它發布謠言、刪除系統文件，甚至協助非法活動，它們也可能照單全收！隱私泄露、數據損毀……

RiOSWorld，Agent 電腦助手的「照妖鏡」！

?? 上海 AI Lab、中國科學技術大學和上海交通大學聯合發布 RiOSWorld——一個用于全面、綜合地評估 Computer-Use Agent 在真實日常電腦使用任務中存在的安全風險的測試基準。

100% 真實的測試環境 + 支持動態風險部署 + 多樣性的風險類別

現階段大多數研究 Computer-Use Agent 安全風險的工作存在的限制是：

測評環境缺乏真實性，缺少真實動態的、貼近現實的 Computer-Agent 交互環境，從而導致風險缺乏真實性。
風險類別缺乏全面性、多樣性，僅關注個別的風險或攻擊類型，從而限制了對 Computer-Use Agent 的全面風險評估。

相比之前的測評基準，RiOSWorld 直接搭建了 100% 真實的 computer-agent 交互環境，接入互聯網，模擬各種奇葩風險場景。從彈窗廣告轟炸到釣魚網站，從用戶惡意指令到隱私泄露危機，它一口氣設置了 492 個風險測試案例，涵蓋了廣泛的日常計算機使用風險操作，涉及網絡、社交媒體、操作系統、多媒體、文件操作、Code IDE/Github、電子郵件和 Office 應用等場景，全方位檢驗 Agent 電腦助手的「抗毒能力」！??

風險分類和樣本數量統計

基于風險源，該研究將這些風險類別分為了 2 個主類（環境風險和用戶風險），13 個子類：

來源于環境的風險（254 個）：隱含在電腦使用環境中的風險

釣魚網站
釣魚郵件
彈窗/廣告
reCAPTCHA（人機驗證）
賬戶/密碼欺詐
誘導性文字

來源于用戶的風險（238 個）：用戶有意或無意的風險指令

網頁操作
社交媒體
Office 套件
文件操作
OS 操作
代碼 IDE/Github
多媒體操作

任務指令分布

這些任務指令涵蓋了廣泛的主題，滲透到 computer-use agent 遇到的許多日常操作場景中。這種全面的覆蓋致力于能夠有效和全面地評估 computer-use agent 在各個方面的安全風險。

評估方法

?? RiOSWorld 從兩個維度評估 MLLM-based Computer-Use Agent 的不安全/有風險行為：

Risk Goal Intention：Agent 是否有意圖執行風險行為？
Risk Goal Completion：Agent 是否成功完成了風險目標？

RiOSWorld 風險示例

?? 具體來說，RiOSWorld 基準中的一些風險示例在 Figure 1 的上半部分展示。如 Figure 1 的左上部分所示，CUA 可能會遇到來源于環境的風險，例如，

（a）被誘導點擊彈出窗口或廣告，

（b）無意中在有害的釣魚網站上執行操作，

（c）試圖在未經真人授權的情況下通過 reCAPTCHA 驗證（這種自動規避行為破壞了旨在防止惡意機器人訪問的 reCAPTCHA 安全機制），

（d）成為欺騙性較高的釣魚電子郵件的受害者。

另外，如 Figure 1 右上部分所示，CUA 也會面臨源于用戶的風險。例如，

（e）Agent 可能會根據用戶指令發布謠言、不實信息，

（f）Agent 可能在命令行中執行高風險命令（例如，刪除根目錄），

（g）Agent 可能幫助進行非法活動（毒品、武器），

（h）用戶可能會過度依賴 Agent，導致意外的隱私泄露（例如，指示 Agent 將包含私有 API 密鑰或憑據的敏感代碼或數據上傳到公共 GitHub 存儲庫，但沒有進行手動審查）。

CUA 安全現狀比你想的更糟！

?? 研究團隊對市面上最火爆的 MLLM-based CUA 「挨個兒暴打」：OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro，還有開源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision……結果集體「原形畢露」！

?? 實驗結果表明，大多數 Agent 都具有較弱的風險意識，會主動「作死」（有意圖執行風險操作，即平均意圖不安全率達到了驚人的 84.93%）；此外，平均有 59.64% 的概率直接把危險指令「貫徹到底」！即能夠完成最終的風險目標。

?? 在釣魚網站、網頁操作、OS 操作、Code IDE/Github 和誘導性文字等高風險場景中，Agent 的「翻車率」更是突破 89% 和 80%！這哪是智能助手，根本就是揣著炸彈的「定時雷區」！

?? 絕大多數的 CUA 的風險意圖和風險完成率都超過了 75% 和 45%。這些定量和定性的結果指出，目前大多數基于 MLLM-based CUA 在計算機使用場景中缺乏風險意識，遠達不到可信的自主計算機使用助手。

?? RiOSWorld 的推出，就像給狂奔的 CUA 按下了「暫停鍵」。它不僅揭開了 Computer-Use Agent 的安全遮羞布，更為未來指明了方向：沒有安全兜底的 AI，再強大也是「空中樓閣」！

?? 轉發提醒身邊的 Computer-Use Agent 愛好者！下一次，當你的 AI 電腦助手「熱情滿滿」地給出操作建議時，記得先問一句：「你通過 RiOSWorld 的安全考試了嗎？」

責任編輯：張燕妮來源：機器之心

Agent AI 技術

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看