成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Claude自動玩崩鐵清日常,NUS新論文完整測評AI電腦操控:GUI智能體的黎明

人工智能 新聞
新加坡國立大學團隊在20多個場景下做了全面測試,其中最引人矚目的是:AI可以自動玩手游清日常任務了!

Claude操控電腦,究竟可以做到什么程度?

新加坡國立大學團隊在20多個場景下做了全面測試,其中最引人矚目的是:AI可以自動玩手游清日常任務了!

研究中選用了米哈游《崩壞:星穹鐵道》,可以跟它說”幫我完成今天的模擬宇宙”,然后,Claude就會立即依次打開游戲菜單、找到星穹里的”黃金花萼”、自動設置6次挑戰次數:

圖片

甚至還可以啟動自動戰斗、等待戰斗結束后退出,這一套組合操作簡直行云流水……

圖片

而且注意哦,這不僅是傳統游戲外掛那樣的機械操作,Claude還能智能理解游戲規則和目標,根據界面上不同的任務進行調整。

這下好了,人類只能在一旁干瞪眼了。

除了更多測試場景外,論文還提出了一個開箱即用的自動GUI框架

圖片

有網友看到視頻后評論說:以后我去上學的時候,就可以讓Claude幫我玩每日任務了。

圖片

還可以自動完成很多辦公任務

Claude Computer Use的潛能還遠遠沒有被人類發掘——

研究團隊還測試了很多日常辦公場景下它的性能:

1.網頁搜索

它可以在Amazon和Apple官方網站上成功完成下單購物的任務,選擇顏色配置、填寫地址都輕松拿捏。

圖片
圖片

2.工作流程

模型還成功完成了在Apple Music添加歌曲、編輯Excel數據、在App Store安裝應用等自動任務。

雖然界面設計和跳轉邏輯更加復雜,它還是能智能地理解任務的最終目標,真是一個成熟的好AI(欣慰)!

圖片
圖片
圖片

3..辦公生產力軟件

此外,它還可以在Outook中轉發郵件、調整Word布局、設置PowerPoint背景設置和插入三角形形狀等等,這下真的可以大大增強生產力了(AI無用論 -1)。

圖片

圖片

圖片
圖片

4.還可以玩其他游戲

除了《崩壞:星穹鐵道》,模型也可以自動玩《爐石傳說》,包括創建和重命名牌組、使用英雄技能等等。

圖片

Claude Computer Use API + 自動化GUI框架

你可能會好奇,強如Claude Computer Use,是怎么做到自動完成任務的呢?

下面我們就一起來看看背后的框架設計——

圖片

具體來說,團隊基于Claude Computer Use的API設計了一個自動化GUI框架,主要分為以下6個部分:

1.系統提示

Claude Computer Use的系統提示包括環境概述、可用函數和參數描述。用戶可以通過編寫 塊來調用這些函數,例如計算機交互、Bash Shel命令和文件編輯工具。

圖片
圖片

2.狀態觀察

Claude Computer Use通過實時截圖觀察環境,不依賴元數據或HTML。每個時間步長過后,模型都會保留歷史截圖,幫助生成下一步的動作。

3.推理范式

Claude Computer Use采用了一種推理-行動范式,通過觀察環境來決定下一步的動作。這種范式可以讓模型在高度動態的GUI環境中生成更可靠的動作。

4.工具使用

Claude Computer Use提供了三種工具:計算機工具、文本編輯器工具和Bash工具,它們可以幫助模型與計算機進行交互,執行各種任務。

5.GUI動作空間

GUI動作空間內置了所有原始的鼠標和鍵盤動作,如鼠標移動、點擊、按鍵組合、拖放和截圖等。模型會根據需要自行組合。

6.歷史視覺上下文維護

模型在每個時間步都會保留歷史截圖,以輔助動作生成過程。具體公式如下:

圖片

性能測試

為了更加廣泛地測試Claude Computer Use和GUI框架聯合后的性能效果,團隊還設計了詳盡的測試實驗,包括

1.數據收集:實驗設計包括在Windows和macOS上通過ComputerUse Out-of-the-Box平臺進行評估。評估任務覆蓋了廣泛的應用領域,包括網頁搜索、工作流程、辦公生產力軟件和視頻游戲等。

2.樣本選擇:選擇了20個任務,涵蓋12個軟件或網站,分為以下三個領域:網頁搜索、工作流程、辦公生產力和視頻游戲。具體的任務可以查看下表:

圖片

3.參數配置:系統分辦率設置為Windows的(1366,768)和macOS的(1344,756)。過程中還加入了人類評審和評估用于監控和審查過程,確保任務的順利完成。

雖然Claude Computer Use在之前的例子中表現都非常厲害,但當網頁或軟件的頁面過于復雜時,模型也出現了一些失敗案例:

1.精細網頁操作失敗:在Fox Sports訂閱任務中失敗,錯誤原因主要在于模型沒有正確導航到”Account”選項卡。

圖片

2.辦公軟件失敗:在Word中更新簡歷模板、和在PPT中插入編號符號兩個任務中失敗,錯誤原因在于模型未能準確選擇和定位文本字段。

圖片

圖片

不過整體來說,Claude Computer Use已經很棒了,而且這功能也剛剛發布沒多久,未來可期!

團隊還公開了所有測試用例的具體信息,感興趣的小伙伴可以點GitHub項目鏈接查看更多消息~

Claude老師,以后我的PPT和Steam就拜托你了(bushi)

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-10-25 13:30:00

2022-02-24 13:59:59

AI智能體研究

2024-09-02 14:00:00

2022-03-03 10:15:16

強化學習模型論文

2021-05-21 09:49:56

數字化

2024-08-14 15:00:00

模型數據

2025-05-26 09:21:00

2024-10-28 22:28:21

2025-04-04 00:00:00

AI模型數據

2025-06-13 01:30:00

微調智能體移動設備GUI

2025-01-08 14:43:30

2024-08-23 08:08:00

2020-02-27 16:34:34

人工智能算法數據

2025-03-10 09:15:00

2024-11-26 00:14:08

2023-08-22 13:06:47

AI論文

2020-04-02 14:43:34

Python 程序算法

2024-11-18 19:06:21

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品欧美乱码久久久久久1区2区 | 五月综合久久 | 国产伦精品一区二区三区高清 | 欧美1—12sexvideos| 午夜欧美a级理论片915影院 | 久久久一区二区三区四区 | 午夜av成人 | 国产视频第一页 | 午夜视频网站 | 成人免费看 | 欧美乱大交xxxxx另类电影 | 男女爱爱福利视频 | 国产一区日韩在线 | 国产精品亚洲一区 | 久久久99精品免费观看 | 国产精品福利网站 | 免费精品 | 亚洲日本中文字幕在线 | 亚洲综合在线视频 | 久久精品亚洲成在人线av网址 | 国产精品一区二 | 色视频网站在线观看 | 在线观看国产wwwa级羞羞视频 | 亚洲精品亚洲人成人网 | 国产欧美在线一区二区 | 国产精品免费一区二区三区四区 | 久久精品日产第一区二区三区 | 亚洲色图50p | 91精品国产91久久久久久最新 | 91精品国产91 | 激情毛片| 久久精品国产免费 | 羞羞的视频在线 | 国产精品成人一区二区三区吃奶 | 成人av一区| 久久久国产亚洲精品 | 精品二区视频 | 孰女乱色一区二区三区 | 综合久久久久久久 | 一道本视频 | 欧美中文字幕一区二区三区亚洲 |