成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟亞洲研究院打造最強視覺元素定位模型

發(fā)布于 2025-4-22 07:09
瀏覽
0收藏

為什么需要 GUI 視覺定位技術?

1.1 數(shù)字時代的效率革命

圖形用戶界面(Graphical User Interface, GUI)智能體正在重塑人機交互方式。這類智能體通過模仿人類的視覺感知能力,可以直接"看懂"屏幕內容并執(zhí)行操作指令。微軟亞洲研究院團隊的研究表明,相比依賴 HTML 等 GUI 元數(shù)據(jù)的傳統(tǒng)方法(存在平臺依賴性和實現(xiàn)差異問題),基于視覺的方法具有更廣泛的適用性。例如,在跨平臺操作場景中,視覺智能體可以統(tǒng)一處理 Windows、Web 和移動端界面,而無需針對每個平臺開發(fā)特定解析器。

1.2 現(xiàn)有技術的三大瓶頸

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

研究團隊在分析現(xiàn)有 GUI 視覺定位技術時發(fā)現(xiàn)了三個關鍵挑戰(zhàn):

? 元素屏幕比失衡:現(xiàn)有基準測試中的按鈕等元素尺寸通常占據(jù)屏幕的 1%-5%,而真實桌面環(huán)境(如 1080p/1440p 分辨率)中元素占比往往小于 0.5%。這種差異導致模型在測試環(huán)境表現(xiàn)良好,但在實際應用中定位小元素時準確率驟降。例如,在 1440p 分辨率下,"保存"按鈕可能僅占屏幕面積的 0.2%。

? 元素類型不平衡:現(xiàn)有數(shù)據(jù)集過度集中于文本按鈕(占比超過 60%),而復選框、單選框等長尾元素占比不足 5%。這種不平衡導致模型難以識別功能性圖標,如 Photoshop 工具欄中的"魔棒工具"圖標,盡管這些圖標在專業(yè)軟件中至關重要。

? 隱含指令理解困難:用戶常基于元素功能而非可見文本發(fā)出指令。例如說"保存文檔"而非"點擊左上角第三個圖標",現(xiàn)有模型對此類指令的理解準確率不足 40%。這種認知鴻溝嚴重限制了 GUI 智能體的實際應用價值。

1.3 數(shù)據(jù)標注的成本困局

構建高質量的 GUI 定位數(shù)據(jù)集面臨雙重挑戰(zhàn):

? 標注人員需要同時理解界面元素功能(如區(qū)分"提交"按鈕和"保存"按鈕)

? 用戶操作意圖(如理解"完成注冊"對應的具體操作)。

這種復合型標注任務使得單個樣本標注成本高達 2-3 美元,而訓練一個實用模型通常需要百萬級樣本量。例如,標注一個電商結賬頁面可能需要識別 10-15 個交互元素,并生成 20 種以上的自然語言指令變體。

二、UI-E2I-Synth 技術解析

2.1 三步合成流水線

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

UI-E2I-Synth(User Interface Element-to-Instruction Synthesis,用戶界面元素到指令合成)采用分階段處理策略,將復雜的指令生成任務分解為三個關鍵步驟:

2.1.1. 原始數(shù)據(jù)收集與解析

系統(tǒng)從網頁、Windows 和 Android 平臺采集截圖-元數(shù)據(jù)對,通過啟發(fā)式解析器提取元素的三個核心屬性:類型(如按鈕/輸入框)、內容(如文本標簽)和邊界框坐標。這種結構化處理為后續(xù)步驟提供了可靠的基礎數(shù)據(jù),例如從網頁 DOM(Document Object Model)中解析出的搜索框元素會被標記為"Inputfield"類型。

2.1.2. 指代表達生成

利用 GPT-4o 生成兩種元素描述方式:

? 顯式表達:直接描述可見特征(如"藍色搜索按鈕")

? 隱含表達:通過功能或上下文關系間接描述(如"頁面頂部的返回箭頭")

2.1.3. 指令合成

將用戶操作分解為動作類型(點擊/輸入)、動作內容(輸入文本)和元素對象三個參數(shù)。通過參數(shù)化組合生成自然的第一人稱指令,如"在用戶名輸入框填寫'admin'"。相比直接生成,這種方法使指令準確率顯著提高。

3. 效果評估

3.1 新基準測試 UI-I2E-Bench

研究團隊構建的 UI-I2E-Bench 基準測試包含 1,477 條指令,具有三大創(chuàng)新特性。

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

? 首先,該基準采用更接近真實場景的元素屏幕比(element-to-screen ratio),平均比現(xiàn)有基準小 37%。測試元素在屏幕中的占比更接近實際使用場景,如上圖所示,現(xiàn)有基準中的元素比例明顯大于常見的 1080p 和 1440p 桌面顯示器標準。這種設計能更準確地評估模型在真實環(huán)境中的表現(xiàn)。

? 其次,基準實現(xiàn)了元素類型的平衡分布,非文本元素(如圖標、輸入框等)占比達到 23%。如上圖右側所示,現(xiàn)有基準中文本按鈕占據(jù)主導地位,而 UI-I2E-Bench 通過精心設計的數(shù)據(jù)采樣策略,確保了各類 GUI 元素的均衡覆蓋。例如,對于復選框這類依賴周邊元素定義功能的組件,基準中給予了合理權重。

? 第三項創(chuàng)新是顯式/隱含指令分類標注,其中隱含指令占比達 42%。比如,當用戶說"返回頂部"時,這屬于需要理解功能語義的隱含指令;而"點擊藍色返回按鈕"則是直接描述視覺特征的顯式指令。這種區(qū)分有助于評估模型不同層次的認知能力。

3.2 模型性能對比

在跨平臺測試中,使用合成數(shù)據(jù)訓練的 UI-I2E-VLM-7B 模型展現(xiàn)出顯著優(yōu)勢。UI-I2E-VLM-7B 在所有基準測試中均表現(xiàn)出色,超越了之前的最先進模型 OS-Atlas-7B,平均性能提高了9.7%。

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

模型對隱含指令的理解準確率提升 12.1%,這得益于合成數(shù)據(jù)中對功能語義的強化訓練。

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

模型在資源效率方面表現(xiàn)突出,僅使用 OS-Atlas 72%的訓練數(shù)據(jù)量就取得更好效果。如上表所示,這種優(yōu)勢在長尾元素識別上尤為明顯:圖標識別準確率提升 18.3%,輸入框定位精度提升 14.6%。

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

如上圖,隨著元素屏幕比減小(即元素更小),模型性能優(yōu)勢逐漸擴大,在最小比例區(qū)間(<0.03)仍保持 65%以上的準確率。

3.3 實際應用驗證

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

將模型集成到 OSWorld 實時 GUI 智能體測試環(huán)境后,任務成功率比純 GPT-4o 方案提升 23.4%。

這種提升源于兩方面:

? 一是合成數(shù)據(jù)包含各類專業(yè)軟件的界面樣本

? 二是指令生成時模擬了真實用戶的操作邏輯。

例如在"登錄郵箱"任務中,模型會先定位登錄模塊再尋找輸入框,展現(xiàn)出層級理解能力。

3.4 失敗案例分析

研究團隊對典型錯誤進行了系統(tǒng)歸類(如下圖所示):

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

上圖展示了UI-I2E-VLM在UI-I2E-Bench上的常見錯誤,包括:

? 由于知識有限而未能識別無文本的圖標。

? 行或列內元素的錯誤定位。

? 空間關系的誤解。

? 層級關系的誤解。

? 錯誤分類元素類型,例如將復選框與相鄰文本混淆。

3.5 測評榜單

作者已經公開發(fā)布了測評榜單:https://colmon46.github.io/i2e-bench-leaderboard/

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)圖片

微軟亞洲研究院打造最強視覺元素定位模型-AI.x社區(qū)

本文轉載自???大語言模型論文跟蹤???,作者:HuggingAGI

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 婷婷色国产偷v国产偷v小说 | 色婷婷综合在线观看 | 超碰激情 | 欧美日韩亚洲在线 | 日韩看片 | 免费国产视频 | 久久精品电影 | 中文字幕 国产精品 | 久久久99国产精品免费 | 中文字幕 亚洲一区 | 久久精品国产免费高清 | 久久久精品一区二区三区 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 日韩av在线免费 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 欧美中文字幕在线观看 | 久久国| 国产高清久久久 | 一区二区三区视频在线观看 | 日韩在线观看中文字幕 | 日韩中文一区二区三区 | 成人福利在线视频 | 成人在线精品 | 亚洲欧美视频一区 | 在线免费亚洲视频 | 国产精品久久久久久吹潮 | 日本一区二区电影 | 日韩一区在线观看视频 | 久久新视频 | 在线一区视频 | 成人免费激情视频 | 国产免费一区二区 | 91色综合| 亚洲网址 | 天天草天天干 | 亚洲影音 | 亚洲欧美男人天堂 | 久久9精品 | 做a网站 | a黄毛片| 欧美日韩成人在线 |