成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Windows、Office直接上手,大模型智能體操作電腦太6了

人工智能 新聞
近期,吉林大學人工智能學院發(fā)布了一項利用視覺大語言模型直接控制電腦 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它將這一想象映射進了現(xiàn)實。

當我們談到 AI 助手的未來,很難不想起《鋼鐵俠》系列中那個令人炫目的 AI 助手賈維斯。賈維斯不僅是托尼?斯塔克的得力助手,更是他與先進科技的溝通者。如今,大模型的出現(xiàn)顛覆了人類使用工具的方式,我們或許離這樣的科幻場景又近了一步。想象一下,如果一個多模態(tài) Agent,能夠直接像人類一樣通過鍵盤和鼠標直接操控我們身邊的電腦,這將是多么令人振奮的突破。

AI助手賈維斯

近期,吉林大學人工智能學院發(fā)布了一項利用視覺大語言模型直接控制電腦 GUI 的最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》,它將這一想象映射進了現(xiàn)實。該工作提出了 ScreenAgent 模型,首次探索在無需輔助定位標簽的情況下,利用 VLM Agent 直接控制電腦鼠標和鍵盤,實現(xiàn)大模型直接操作電腦的目標。此外,ScreenAgent 通過「計劃-執(zhí)行-反思」的自動化流程首次實現(xiàn)對 GUI 界面的連續(xù)控制。該工作是對人機交互方式的一次探索和革新,同時開源了具備精準定位信息的數(shù)據(jù)集、控制器、訓練代碼等。

圖片

  • 論文地址:https://arxiv.org/abs/2402.07945
  • 項目地址:https://github.com/niuzaisheng/ScreenAgent

ScreenAgent 可以幫助用戶輕松實現(xiàn)在線娛樂活動,購物,旅行,閱讀等也不在話下。它還可以是最了解你的貼心管家,幫助用戶管理個人電腦。甚至無需動手,就幫助用戶實現(xiàn)快速辦公,成為你最得力的辦公助手!話不多說,直接看效果。

帶你網(wǎng)上沖浪,實現(xiàn)娛樂自由

ScreenAgent 根據(jù)用戶文本描述上網(wǎng)查找并播放指定的視頻:

圖片

圖片

系統(tǒng)操作管家,賦予用戶高階技能

讓 ScreenAgent 打開 Windows 的事件查看器:

圖片

掌握辦公技能,輕松玩轉(zhuǎn) office

此外,ScreenAgent 可以使用 office 辦公軟件。例如根據(jù)用戶文本描述,刪除所打開的第二頁 PPT:

圖片

謀定而后動,知止而有得

對于要完成某一任務(wù),在任務(wù)執(zhí)行前必須要做好規(guī)劃活動。ScreenAgent 可以在任務(wù)開始前,根據(jù)觀測到的圖像和用戶需求,進行規(guī)劃,例如:

將視頻播放速度調(diào)至 1.5 倍速:

圖片

在 58 同城網(wǎng)站上搜索二手邁騰車的價格:

圖片

在命令行里安裝 xeyes:

圖片

視覺定位能力遷移,鼠標選定無壓力

ScreenAgent 還保留了對于自然事物的視覺定位能力,可以通過鼠標拖拽的方式繪制出物體的選框:

圖片

圖片

方法

事實上,要教會 Agent 與用戶圖形界面直接交互并不是一件簡單的事情,需要 Agent 同時具備任務(wù)規(guī)劃、圖像理解、視覺定位、工具使用等多種綜合能力。現(xiàn)有的模型或交互方案都存在一定妥協(xié),例如 LLaVA-1.5 等模型缺乏在大尺寸圖像上的精確視覺定位能力;GPT-4V 有非常強的任務(wù)規(guī)劃、圖像理解和 OCR 的能力,但是拒絕給出精確的坐標。現(xiàn)有的方案需要在圖像上人工標注額外的數(shù)字標簽,并讓模型選擇需要點選的 UI 元素,例如 Mobile-Agent、UFO 等項目;此外,CogAgent、Fuyu-8B 等模型可以支持高分辨率圖像輸入并有精確視覺定位能力,但是 CogAgent 缺乏完整函數(shù)調(diào)用能力,F(xiàn)uyu-8B 則語言能力欠缺。

為了解決上述問題,文章提出為視覺語言模型智能體(VLM Agent)構(gòu)建一個與真實計算機屏幕交互的全新環(huán)境。在這個環(huán)境中,智能體可以觀察屏幕截圖,并通過輸出鼠標和鍵盤操作來操縱圖形用戶界面。為了引導 VLM Agent 與計算機屏幕進行持續(xù)的交互,文章構(gòu)建了一個包含「計劃-執(zhí)行-反思」的運行流程。在計劃階段,Agent 被要求將用戶任務(wù)拆解為子任務(wù)。在執(zhí)行階段,Agent 將觀察屏幕截圖,給出執(zhí)行子任務(wù)的具體鼠標和鍵盤動作。控制器將執(zhí)行這些動作,并將執(zhí)行結(jié)果反饋給 Agent。在反思階段,Agent 觀察執(zhí)行結(jié)果,并判定當前的狀態(tài),選擇繼續(xù)執(zhí)行、重試或調(diào)整計劃。這一流程持續(xù)進行,直到任務(wù)完成。值得一提的是,ScreenAgent 無需使用任何文字識別或圖標識別模塊,使用端到端的方式訓練模型所有的能力。

圖片

ScreenAgent 環(huán)境參考了 VNC 遠程桌面連接協(xié)議來設(shè)計 Agent 的動作空間,包含最基礎(chǔ)的鼠標和鍵盤操作,鼠標的點擊操作都需要 Agent 給出精確的屏幕坐標位置。相比起調(diào)用特定的 API 來完成任務(wù),這種方式更加通用,可以適用于各種 Windows、Linux Desktop 等桌面操作系統(tǒng)和應用程序。

圖片

ScreenAgent 數(shù)據(jù)集

為了訓練 ScreenAgent 模型,文章人工標注了具備精準視覺定位信息的 ScreenAgent 數(shù)據(jù)集。這一數(shù)據(jù)集涵蓋了豐富的日常計算機任務(wù),包括了 Windows 和 Linux Desktop 環(huán)境下的文件操作、網(wǎng)頁瀏覽、游戲娛樂等場景。

圖片

數(shù)據(jù)集中每一個樣本都是完成一個任務(wù)的完整流程,包含了動作描述、屏幕截圖和具體執(zhí)行的動作。例如,在亞馬遜網(wǎng)站上「將最便宜的巧克力加入到購物車」的案例,需要先在搜索框中搜索關(guān)鍵詞,再使用過濾器對價格進行排序,最后將最便宜的商品加入購物車。整個數(shù)據(jù)集包含 273 條完整的任務(wù)記錄。

圖片

實驗結(jié)果

在實驗分析部分作者將 ScreenAgent 與多個現(xiàn)有的 VLM 模型從各個角度進行比較,主要包括兩個層面,指令跟隨能力和細粒度動作預測的正確率。指令跟隨能力主要考驗模型能否正確輸出 JSON 格式的動作序列和動作類型的正確率。而動作屬性預測的正確率則比較每一種動作的屬性值是否預測正確,例如鼠標點擊的位置、鍵盤按鍵等。

指令跟隨

在指令跟隨方面,Agent 的首要任務(wù)就是能夠根據(jù)提示詞輸出正確的工具函數(shù)調(diào)用,即輸出正確的 JSON 格式,在這方面 ScreenAgent 與 GPT-4V 都能夠很好的遵循指令,而原版的 CogAgent 由于在視覺微調(diào)訓練時缺乏 API 調(diào)用形式的數(shù)據(jù)的支撐,反而喪失了輸出 JSON 的能力。

圖片

動作屬性預測的正確率

從動作屬性的正確率來看,ScreenAgent 也達到了與 GPT-4V 相當?shù)乃健V档米⒁獾氖牵琒creenAgent 在鼠標點擊的精確度上遠遠超過了現(xiàn)有模型。這表明視覺微調(diào)有效增強了模型的精確定位能力。此外,我們還觀察到 ScreenAgent 在任務(wù)規(guī)劃方面與 GPT-4V 相比存在明顯差距,這凸顯了 GPT-4V 的常識知識和任務(wù)規(guī)劃能力。

圖片

圖片

結(jié)論

吉林大學人工智能學院團隊提出的 ScreenAgent 能夠采用與人類一樣的控制方式控制電腦,不依賴于其他的 API 或 OCR 模型,可以廣泛應用于各種軟件和操作系統(tǒng)。ScreenAgent 在「計劃-執(zhí)行-反思」的流程控制下,可以自主地完成用戶給定的任務(wù)。采用這樣的方式,用戶可以看到任務(wù)完成的每一步,更好地理解 Agent 的行為想法。

文章開源了控制軟件、模型訓練代碼、以及數(shù)據(jù)集。在此基礎(chǔ)上可以探索更多邁向通用人工智能的前沿工作,例如在環(huán)境反饋下的強化學習、Agent 對開放世界的主動探索、構(gòu)建世界模型、Agent 技能庫等等。

此外,AI Agent 驅(qū)動的個人助理具有巨大的社會價值,例如幫助肢體受限的人群使用電腦,減少人類重復的數(shù)字勞動以及普及電腦教育等。在未來,或許不是每個人都能成為像鋼鐵俠那樣的超級英雄,但我們都可能擁有一位專屬的賈維斯,一位可以陪伴、輔助和指導我們的智能伙伴,為我們的生活和工作帶來更多便利與可能。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-24 08:53:46

2023-07-14 13:47:46

谷歌英語語言

2025-01-03 11:02:38

OpenAIAgent大模型

2025-02-28 12:32:42

2021-10-25 09:06:29

模型人工智能計算

2010-06-02 11:50:42

舊電腦

2019-06-25 09:32:16

Redis海量數(shù)據(jù)高并發(fā)

2023-11-03 07:47:12

機器資源大模型:

2024-07-16 13:09:09

2023-09-22 12:27:18

微軟Windows 1

2017-10-25 11:42:32

macOS操作界面

2023-05-31 09:49:00

模型汽車

2021-02-25 18:56:34

Windows 功能系統(tǒng)

2024-11-04 15:54:16

2019-05-29 10:37:05

2022-02-10 19:11:42

微軟壓縮機制Windows 11

2024-12-18 10:22:49

2025-05-28 01:00:00

大模型智能問答AI

2021-09-18 14:57:07

Windows微軟快捷鍵
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91看片网址 | 久久精品91 | 91在线| 夜夜骑综合 | 亚洲精品在线免费观看视频 | 国产视频综合 | 欧美日本在线 | 国产亚洲一区二区三区 | 中文字幕伊人 | 神马久久av | 日韩精品视频在线观看一区二区三区 | 精品不卡 | 日韩有码在线观看 | 国产精品国产成人国产三级 | 国产视频中文字幕 | 久久久综合色 | 99久久免费精品 | 精品少妇一区二区三区日产乱码 | 日日夜夜91 | 在线观看国产h | 免费在线观看黄视频 | www97影院 | 欧美视频在线观看 | 自拍偷拍第一页 | 天堂一区二区三区 | 一二三区视频 | av在线播放一区二区 | 久久久久久久久99精品 | 国产午夜久久久 | 成人区精品 | 久久大香 | 亚洲福利av | 精品国产乱码久久久久久88av | 国产一区精品在线 | 91av在线电影 | 久久激情网 | www.久久久久久久久久久 | 亚洲午夜精品 | 午夜精品视频在线观看 | 草草影院ccyy | 国产最好的av国产大片 |