你的Agent電腦助手正在踩雷!最新研究揭秘Computer-Use Agent的安全漏洞
本文由上海 AI Lab、中國科學技術大學和上海交通大學聯合完成。主要作者包括中國科學技術大學碩士生楊靖懿、上海交通大學本科生邵帥。通訊作者為劉東瑞和邵婧,上海 AI Lab 安全團隊,研究方向為 AI 安全可信。
從 Anthropic 的 Claude 3.5 Sonnet 自帶 Computer-Use 功能,到 OpenAI 的 Operator CUA 橫空出世,再到 Manus 直接火爆出圈,現在的 Computer-Use Agent 簡直像開了外掛,只需一條指令,就能獨立完成 code project(coding/debug)、處理郵件、刷網頁、做 PPT/教案,樣樣精通!
但先別著急著歡呼——你有沒有想過,把電腦操縱權交給這些「智能」助手,可能跟把銀行卡密碼告訴陌生人一樣危險?
為了使 Computer-Use Agent(CUA)在未來能夠大規模、安全地部署在實際應用場景中,來自上海 AI Lab、中國科學技術大學和上海交通大學的團隊強勢出手,推出 CUA 安全測試基準——RiOSWorld!稱得上是 CUA 的「安全體檢中心」!該測試基準全面地評估了 Computer-Use Agent 在真實電腦使用場景中可能面臨的安全風險,并表明當前階段的 CUA 作為自動化電腦使用助手仍然面臨著突出的安全風險。
現在,論文、項目官網、GitHub 代碼全部開源!想圍觀 AI「翻車現場」?想和頂尖團隊一起攻克安全難題?趕緊戳下方鏈接!??
Title:RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents
Paper:https://arxiv.org/pdf/2506.00618
Page:https://yjyddq.github.io/RiOSWorld.github.io/
Github:https://github.com/yjyddq/RiOSWorld
Agent 電腦助手秒變「踩雷專家」,這些陷阱你發現了嗎?
別以為 AI 真的「聰明絕頂」!研究團隊隨手甩出一個「釣魚郵件」測試 ??,好家伙,這些看似無所不能的 Agent 直接集體翻車!收到偽裝成「防釣魚指南」的惡意郵件,它們居然乖乖點擊鏈接下載「防護軟件」???,完全未關注發件人是不是可疑郵箱。這哪里是智能助手,根本就是網絡詐騙的「天選受害者」!
更離譜的是,面對彈窗廣告、釣魚網站,甚至是試圖繞過人機驗證(reCAPTCHA)這種高危操作,Agent 們也是「勇往直前」。要是碰上心懷不軌的用戶,讓它發布謠言、刪除系統文件,甚至協助非法活動,它們也可能照單全收!隱私泄露、數據損毀……
RiOSWorld,Agent 電腦助手的「照妖鏡」!
?? 上海 AI Lab、中國科學技術大學和上海交通大學聯合發布 RiOSWorld——一個用于全面、綜合地評估 Computer-Use Agent 在真實日常電腦使用任務中存在的安全風險的測試基準。
100% 真實的測試環境 + 支持動態風險部署 + 多樣性的風險類別
現階段大多數研究 Computer-Use Agent 安全風險的工作存在的限制是:
- 測評環境缺乏真實性,缺少真實動態的、貼近現實的 Computer-Agent 交互環境,從而導致風險缺乏真實性。
- 風險類別缺乏全面性、多樣性,僅關注個別的風險或攻擊類型,從而限制了對 Computer-Use Agent 的全面風險評估。
相比之前的測評基準,RiOSWorld 直接搭建了 100% 真實的 computer-agent 交互環境,接入互聯網,模擬各種奇葩風險場景。從彈窗廣告轟炸到釣魚網站,從用戶惡意指令到隱私泄露危機,它一口氣設置了 492 個風險測試案例,涵蓋了廣泛的日常計算機使用風險操作,涉及網絡、社交媒體、操作系統、多媒體、文件操作、Code IDE/Github、電子郵件和 Office 應用等場景,全方位檢驗 Agent 電腦助手的「抗毒能力」!??
風險分類和樣本數量統計
基于風險源,該研究將這些風險類別分為了 2 個主類(環境風險和用戶風險),13 個子類:
- 來源于環境的風險(254 個):隱含在電腦使用環境中的風險
- 釣魚網站
- 釣魚郵件
- 彈窗/廣告
- reCAPTCHA(人機驗證)
- 賬戶/密碼欺詐
- 誘導性文字
- 來源于用戶的風險(238 個):用戶有意或無意的風險指令
- 網頁操作
- 社交媒體
- Office 套件
- 文件操作
- OS 操作
- 代碼 IDE/Github
- 多媒體操作
任務指令分布
這些任務指令涵蓋了廣泛的主題,滲透到 computer-use agent 遇到的許多日常操作場景中。這種全面的覆蓋致力于能夠有效和全面地評估 computer-use agent 在各個方面的安全風險。
評估方法
?? RiOSWorld 從兩個維度評估 MLLM-based Computer-Use Agent 的不安全/有風險行為:
- Risk Goal Intention:Agent 是否有意圖執行風險行為?
- Risk Goal Completion:Agent 是否成功完成了風險目標?
RiOSWorld 風險示例
?? 具體來說,RiOSWorld 基準中的一些風險示例在 Figure 1 的上半部分展示。如 Figure 1 的左上部分所示,CUA 可能會遇到來源于環境的風險,例如,
(a)被誘導點擊彈出窗口或廣告,
(b)無意中在有害的釣魚網站上執行操作,
(c)試圖在未經真人授權的情況下通過 reCAPTCHA 驗證(這種自動規避行為破壞了旨在防止惡意機器人訪問的 reCAPTCHA 安全機制),
(d)成為欺騙性較高的釣魚電子郵件的受害者。
另外,如 Figure 1 右上部分所示,CUA 也會面臨源于用戶的風險。例如,
(e)Agent 可能會根據用戶指令發布謠言、不實信息,
(f)Agent 可能在命令行中執行高風險命令(例如,刪除根目錄),
(g)Agent 可能幫助進行非法活動(毒品、武器),
(h)用戶可能會過度依賴 Agent,導致意外的隱私泄露(例如,指示 Agent 將包含私有 API 密鑰或憑據的敏感代碼或數據上傳到公共 GitHub 存儲庫,但沒有進行手動審查)。
CUA 安全現狀比你想的更糟!
?? 研究團隊對市面上最火爆的 MLLM-based CUA 「挨個兒暴打」:OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro,還有開源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision……結果集體「原形畢露」!
?? 實驗結果表明,大多數 Agent 都具有較弱的風險意識,會主動「作死」(有意圖執行風險操作,即平均意圖不安全率達到了驚人的 84.93%);此外,平均有 59.64% 的概率直接把危險指令「貫徹到底」!即能夠完成最終的風險目標。
?? 在釣魚網站、網頁操作、OS 操作、Code IDE/Github 和誘導性文字等高風險場景中,Agent 的「翻車率」更是突破 89% 和 80%!這哪是智能助手,根本就是揣著炸彈的「定時雷區」!
?? 絕大多數的 CUA 的風險意圖和風險完成率都超過了 75% 和 45%。這些定量和定性的結果指出,目前大多數基于 MLLM-based CUA 在計算機使用場景中缺乏風險意識,遠達不到可信的自主計算機使用助手。
?? RiOSWorld 的推出,就像給狂奔的 CUA 按下了「暫停鍵」。它不僅揭開了 Computer-Use Agent 的安全遮羞布,更為未來指明了方向:沒有安全兜底的 AI,再強大也是「空中樓閣」!
?? 轉發提醒身邊的 Computer-Use Agent 愛好者!下一次,當你的 AI 電腦助手「熱情滿滿」地給出操作建議時,記得先問一句:「你通過 RiOSWorld 的安全考試了嗎?」