成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI讓手機任務自動“跑”起來!我國高校最新研究,簡化移動設備操作

人工智能 移動開發
移動任務自動化利用AI精準捕捉并解析人類意圖,進而在移動設備(手機、平板電腦、車機終端)上高效執行多樣化任務,為那些因認知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。

AI解放碳基生物雙手,甚至能讓你的手機自己玩自己

你沒聽錯——這其實就是移動任務自動化。

在AI飛速發展下,這逐漸成為一個新興的熱門研究領域。

移動任務自動化利用AI精準捕捉并解析人類意圖,進而在移動設備(手機、平板電腦、車機終端)上高效執行多樣化任務,為那些因認知局限、身體條件限制或身處特殊情境下的用戶提供前所未有的便捷與支持。

  • 幫助視障人群用戶完成導航、閱讀或網上購物
  • 輔助老年人使用手機,跨越數字鴻溝
  • 幫助車主在駕駛過程中完成發送短信或調節車內環境
  • 替用戶完成日常生活中普遍存在的重復性任務
  • ……

媽媽再也不嫌重復設置多個日歷事項會心煩了。

最近,來自西安交通大學智能網絡與網絡安全教育部重點實驗室 (MOE KLINNS Lab)的蔡忠閩教授、宋云鵬副教授團隊(團隊主要研究方向為智能人機交互、混合增強智能、電力系統智能化等),基于團隊最新AI研究成果,創新性提出了基于視覺的移動設備任務自動化方案VisionTasker

這項研究不僅為普通用戶提供了更智能的移動設備使用體驗,也展現出了對特殊需求群體的關懷與賦能。

圖片

基于視覺的移動設備任務自動化方案

團隊提出了VisionTasker,一個結合基于視覺的UI理解和LLM任務規劃的兩階段框架,用于逐步實現移動任務自動化。

該方案有效消除了表示UI對視圖層次結構的依賴,提高了對不同應用界面的適應性。

值得注意的是,利用VisionTasker無需大量數據訓練大模型。

圖片

VisionTasker從用戶以自然語言提出任務需求開始工作, Agent開始理解并執行指令。

具體實現如下:

1、用戶界面理解

VisionTasker通過視覺的方法做UI理解來解析和解釋用戶界面。

首先Agent識別并分析用戶界面上的元素及布局,如按鈕、文本框、文字標簽等。

然后,將這些識別到的視覺信息轉換成自然語言描述,用于解釋界面內容。

2、任務規劃與執行

接下來,Agent利用大語言模型導航,根據用戶的指令和界面描述信息做任務規劃。

將用戶任務拆解為可執行的步驟,如點擊或滑動操作,以自動推進任務的完成。

3、持續迭代以上過程

每一步完成后,Agent都會根據最新界面和歷史動作更新其對話和任務規劃,確保每一步的決策都是基于當前上下文的。

這是個迭代的過程,將持續進行直到判斷任務完成或達到預設的限制。

用戶不僅能從交互中解放雙手,還可以通過可見提示監控任務進度,并隨時中斷任務,保持對整個流程的控制。

圖片

首先是識別界面中的小部件和文本,檢測按鈕、文本框等元素及其位置。

對于沒有文本標簽的按鈕,利用 CLIP 模型基于視覺設計來推斷其可能功能。

隨后,系統根據 UI 布局的視覺信息進行區塊劃分,將界面分割成多個具有不同功能的區塊,并對每個區塊生成自然語言描述。

這個過程還包括文本與小部件的匹配,確保正確理解每個元素的功能。

最終,所有這些信息被轉化為自然語言描述,為大語言模型提供清晰、語義豐富的界面信息,使其能夠有效地進行任務規劃和自動化操作。

實驗評估

實驗評估部分,該項目提供了對三種UI理解的比較分析,分別是:

  • GPT-4V
  • VH(視圖層級)
  • VisionTasker方法
圖片

△三種UI理解方法的比較分析

對比顯示,VisionTasker在多個維度上比其他方法有顯著優勢。

此外,在處理跨語言應用時也表現出了良好的泛化能力。

圖片

△ 實驗1中使用到的常見UI布局

表明VisionTasker的以視覺為基礎的UI理解方法在理解和解釋UI方面具有明顯優勢,尤其是在面對多樣化和復雜的用戶界面時尤為明顯。

圖片

△跨四個數據集的單步預測準確性

文章還進行了單步預測實驗,根據當前的任務狀態和用戶界面,預測接下來應該執行的動作或操作。

結果顯示,VisionTasker在所有數據集上的平均準確率達到了67%,比基線方法提高了15%以上。

真實世界任務:VisionTasker vs 人類

實驗過程中,研究人員設計了147個真實的多步驟任務來測試VisionTasker的表現,這些任務涵蓋了國內常用的42個應用程序。

與此同時,團隊還設置了人類對比測試,由12名人類評估者手動執行這些任務,然后VisionTasker的結果進行比較。

圖片

結果顯示,VisionTasker在大多數任務中能達到與人類相當的完成率,并且在某些不熟悉的任務中表現優于人類。

圖片

△實際任務自動化實驗的結果 “Ours-qwen”是指使用開源Qwen實現VisionTasker框架,”Ours”表示使用文心一言作為LLM

團隊還評估了VisionTasker在不同條件下的表現,包括使用不同的大語言模型(LLM)和編程演示(PBD)機制。

VisionTasker 在大多數直觀任務中達到了與人類相當的完成率,在熟悉任務中略低于人類但在不熟悉任務中優于人類。

圖片△VisionTasker逐步完成任務的展示

結論

作為一個基于視覺和大模型的移動任務自動化框架,VisionTasker克服了現階段移動任務自動化對視圖層級結構的依賴。

通過一系列對比實驗,證明其在用戶界面表現上超越了傳統的編程演示和視圖層級結構方法。

它在4個不同的數據集上都展示了高效的UI表示能力,表現出更廣泛的應用性;并在Android手機上的147個真實世界任務中,特別是在復雜任務的處理上,表現了出超越人類的任務完成能力。

此外,通過集成編程演示(PBD)機制,VisionTasker在任務自動化方面有顯著的性能提升。

目前,該工作已以正式論文的形式發表于2024年10月13-16日在美國匹茲堡舉行的人機交互頂級會議UIST(The ACM Symposium on User Interface Software and Technology)

UIST是人機交互領域專注于人機界面軟件和技術創新的CCF A類頂級學術會議。

圖片

原文鏈接:https://dl.acm.org/doi/10.1145/3654777.3676386
項目鏈接:https://github.com/AkimotoAyako/VisionTasker

責任編輯:張燕妮 來源: 量子位
相關推薦

2009-07-22 14:56:50

ERPVPNVPN加速

2016-06-27 15:55:15

移動

2017-06-05 09:34:30

Rancher Lab容器

2010-02-04 09:35:06

戴爾移動工作站

2015-05-07 10:47:16

安卓市場

2024-07-26 07:54:53

2022-06-07 09:00:32

PythonAI靜態圖片

2012-02-22 16:08:17

UbuntuAndroid

2022-11-25 09:42:53

AI技術

2018-04-26 22:36:05

物聯網物聯網平臺支出

2013-05-27 15:35:18

用友UAP移動應用移動平臺

2015-04-21 15:05:32

海霖

2011-12-06 11:09:22

EPONGPON

2020-11-06 07:51:28

AI

2020-11-16 11:50:21

Python代碼命令

2010-05-04 17:45:49

自動負載平衡

2013-02-04 12:57:32

2021-08-27 13:46:51

自動化移動傳輸網絡

2025-04-30 09:52:42

2013-06-18 10:21:43

云計算云服務公共云服務
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久机热 | 国产精品久久久久久久模特 | 久久av在线播放 | 天堂资源视频 | 欧美一级高清片 | 亚洲福利在线视频 | 天堂久久网 | 中文字幕一区二区三区四区五区 | 自拍偷拍一区二区三区 | www.99久久.com| 免费黄视频网站 | 国产三区精品 | 五月香婷婷 | 一级毛片视频 | 亚洲第一视频网 | 一区二区三区影院 | 国产一区视频在线 | 午夜精品一区二区三区三上悠亚 | 狠狠操狠狠操 | 黄色一级电影免费观看 | 国产色网 | 一级片在线观看 | 久久aⅴ乱码一区二区三区 亚洲国产成人精品久久久国产成人一区 | 国产精品成人一区 | 日本在线一区二区三区 | 91精品国产91久久综合桃花 | 亚洲精品一区二区三区蜜桃久 | 一区二区视频在线 | 国产精品爱久久久久久久 | 久久综合久久久 | 欧美日韩不卡合集视频 | 亚洲精品视频在线播放 | 精品久久久一区 | 久草视频网站 | 欧美 日韩 在线播放 | 久久av一区二区三区 | 麻豆久久久久 | 天天操夜夜操 | 久久免费国产视频 | 国产伦精品一区二区三毛 | 日韩一级 |