成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里北交大實習生論文火了!MobileAgent 可模擬人類玩轉手機,網友:加速剁手、吃土!

原創 精選
人工智能
MobileAgent是由阿里巴巴聯合北京交通大學(一名在阿里實習的童鞋)開發的一個自主多模態AI代理,可以模擬人類操作手機,是一個純視覺解決方案,不需要任何系統代碼,完全通過分析圖像來理解和操作手機。

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

“太酷了,以后就靠AI幫我加速剁手吃土了。”近日一款名為MobileAgent的移動智能代理引起了圈內人的注意。

一個驚艷之處在于,這款Agent為“手機+GPT4”結合,做出了一個很好的應用示范,簡直解鎖了一種手機新形態。

MobileAgent與Siri、智能客服不同的是,規劃和推理方面非常出色,能夠自動完成各種復雜任務,比如——

在Alibaba上幫助用戶找到帽子,并根據條件添加到購物車;

在Amazon Music中搜索歌手Jay Chou或播放關于“代理”的音樂;

在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息;

在Gmail中發送空郵件或具有特定內容的郵件;

在TikTok上為寵物貓視頻點贊或評論等,還可以結合使用多個應用完成復雜任務。

在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息在Chrome中搜索今日湖人隊比賽結果或關于Taylor Swift的信息

在TikTok中滑動一段關于寵物貓的視頻,然后點擊“點贊”觀看該視頻。在TikTok中滑動一段關于寵物貓的視頻,然后點擊“點贊”觀看該視頻。

據悉,MobileAgent是由阿里巴巴聯合北京交通大學(一名在阿里實習的童鞋)開發的一個自主多模態AI代理,可以模擬人類操作手機,是一個純視覺解決方案,不需要任何系統代碼,完全通過分析圖像來理解和操作手機。

圖片圖片

最重要的特性有四點:純可視化解決方案,獨立于XML 和系統元數據;操作范圍不受限制,可進行多應用操作;多種視覺感知工具,用于操作定位;無需探索和培訓,即插即用。

圖片圖片

現在代碼已經放在github上,感興趣的朋友不妨移步去實操一番:

https://github.com/X-PLUG/MobileAgent

1、多模態大模型的威力釋放到手機上

圖片圖片

眾所周知,GPT4的在端側的本地能力是不足的,即便最先進的GPT-4V,仍然缺乏足夠的視覺感知能力來作為有效的媒介,雖然可以產生有效的操作,但它很難在屏幕上準確定位這些操作的位置。這種限制阻礙了僅通過高級多模態大模型在移動設備上進行操作的能力。

為了解決這個問題,此前有人想到一個通過利用用戶界面布局文件來幫助GPT-4V進行本地化的辦法,但效果差強人意。

與以往依賴應用程序的XML文件或移動系統元數據的解決方案不同,Mobile-Agent以視覺為中心,在各種移動操作環境中具有更大的適應性,消除了對特定系統定制的必要性。

MobileAgent利用視覺感知工具準確識別和定位應用程序前端界面的視覺和文字元素,實現了自主規劃和分解復雜操作任務,通過逐步操作導航移動應用程序。

2、如何評估多模態大模型作為手機Agent的能力

阿里團隊為了評估該代理的準確率和性能,還搭建了一套適配不同場景的基準測試集,包括電商購物、音樂、瀏覽器、地圖、應用商店、記事本、系統設置、視頻、短視頻、跨App等。每個場景設計了三個不同難度的指令,以評估 Mobile-Agent 在各種任務下的表現,

圖片圖片

總結來看,MobileAgent有三類使用場景:

(1)自動化移動設備操作:Mobile-Agent可用于自動化執行移動應用程序中的任務,提高效率。

(2)移動設備性能評估:利用Mobile-Agent進行移動設備操作評估,以提高性能。

(3)提高移動應用程序適應性:Mobile-Agent可幫助移動應用程序在不同環境中實現更大的適應性。

該代理的功能特色也可圈可點:

利用多模大語言模型技術;利用視覺感知工具準確識別和定位應用程序前端界面中的視覺和文字元素;自主規劃和分解復雜操作任務;通過逐步操作來導航移動應用程序;具有更大的適應性,消除了對特定系統定制的必要性;引入了Mobile-Eval,用于評估移動設備操作的基準。

3、工作原理一覽

MobileAgent工作原理包括三方面:視覺感知工具,自主任務規劃和執行,自反思和提示格式。MobileAgent使用了視覺感知模塊、文本和圖標定位,自主規劃和自反思方法來實現對手機應用的操作。

圖片圖片

觀察、思考和行動是MobileAgent采用的提示格式,要求代理輸出三個組成部分。

圖片 圖片

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2018-11-13 12:28:34

2011-09-15 09:50:33

2017-11-10 17:30:28

雙11

2012-11-19 13:53:42

職場Google實習生

2021-05-10 11:25:12

計算機互聯網 技術

2021-06-24 17:37:58

機器學習人工智能計算機

2014-01-07 09:23:41

項目管理

2024-12-04 13:30:00

2009-09-17 09:35:17

微軟實習生

2010-10-12 11:06:07

招聘

2013-06-07 09:59:40

Google實習面試

2012-11-14 10:27:08

人類心臟模擬Sequoia

2022-07-01 09:20:00

模型研究論文

2009-03-13 08:58:04

AOL裁員實習

2024-01-09 15:51:56

Rust開發Trait

2020-07-27 08:26:03

數據庫 SQL索引

2015-04-14 15:05:35

Web前端開發騰訊暑期實習生

2021-05-20 19:56:08

泄露密碼數據泄露網絡攻擊

2011-12-07 20:37:42

iOSAndroid谷歌

2021-07-26 09:31:09

自動化測試編程語言手機編程
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人在线免费网站 | 亚洲精品免费观看 | 狠狠久久综合 | 九色porny自拍视频 | 久草热播 | 自拍偷拍亚洲欧美 | 国产精品成人一区二区三区夜夜夜 | 久久最新| 亚洲精品在线视频 | 日韩欧美在线观看 | 一区二区三区四区视频 | 日韩三级精品 | 国产在线观看一区 | 午夜电影网址 | 久久综合伊人一区二区三 | 日一日操一操 | 亚洲97| 在线看片网站 | 日日干天天操 | 久久激情五月丁香伊人 | 美女视频三区 | 美女在线观看av | 国产三区av | 青青久草 | 亚洲国产中文字幕 | 亚洲综合一区二区三区 | 日韩精品成人免费观看视频 | 美女久久视频 | 亚洲欧美一区在线 | 久久国产精品亚洲 | 亚洲精品久久 | 欧美一级精品片在线看 | wwww.xxxx免费 | 成人a在线| 久久精品亚洲精品国产欧美kt∨ | 日韩三级视频 | 免费视频一区 | 亚洲国产精品久久久 | 久久久久久久久久爱 | 欧美日韩精品一区二区三区蜜桃 | 成人性视频免费网站 |