成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5

發(fā)布于 2025-4-23 11:55
瀏覽
0收藏

字節(jié)跳動開源了多模態(tài)AI Agent UI-TARS的最新1.5版本。


與上一代相比,1.5版本在計算機(jī)使用、瀏覽器使用和手機(jī)使用等基準(zhǔn)測試中均表現(xiàn)非常出色。


在計算機(jī)使用方面,OSworld測試得分為42.5,高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最高水平38.1(200步);Windows Agent Arena(50步)得分為42.1,遠(yuǎn)超之前的29.8。


瀏覽器使用方面,WebVoyager得分為84.8,接近OpenAI CUA和之前最高水平的87,Online-Mind2web得75.8,優(yōu)于OpenAI CUA的71、Claude 3.7的62.9和之前的71。手機(jī)使用方面,Android World得64.2,高于之前的59.5。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

開源地址:??https://github.com/bytedance/UI-TARS??

笑臉:??https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B??


而在 GUI 定位方面,UI-TARS-1.5 相比之前的最高水平有顯著提升,尤其在具有挑戰(zhàn)性的 ScreenSpotPro 基準(zhǔn)測試中表現(xiàn)突出。


ScreenSpot-V2測試得 94.2,高于 OpenAI CUA 的 87.9、Claude 3.7 的 87.6 和之前的 91.6;ScreenSpotPro 為61.6,遠(yuǎn)超 OpenAI CUA的23.4、Claude 3.7的27.7和之前的43.6。


在推理時間方面,隨著推理時間的延長,UI-TARS-1.5 呈現(xiàn)出良好的擴(kuò)展趨勢。盡管UI-TARS-1.5 并非專為Deep-research任務(wù)設(shè)計,例如,在互聯(lián)網(wǎng)上進(jìn)行多步驟信息搜索研究,但在兩個近期具有挑戰(zhàn)性的網(wǎng)頁瀏覽基準(zhǔn)測試中表現(xiàn)出了強(qiáng)大的通用性。


在 SimpleQA 測試中,UI-TARS-1.5為83.8,優(yōu)于GPT-4.5的60,略低于 帶有搜索功能GPT-4o 90;BrowseComp為2.3,高于GPT4.5的0.6和GPT-4o的1.9。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

游戲領(lǐng)域是評估多模態(tài)智能體復(fù)雜推理、決策和適應(yīng)能力的關(guān)鍵測試環(huán)境,游戲需要直觀的常識推理和戰(zhàn)略遠(yuǎn)見,是測試和展示多模態(tài)智能體高級認(rèn)知能力的理想基準(zhǔn)。


為評估 UI-TARS-1.5 的游戲能力,研究人員從poki選取了 14 款不同的游戲,每個模型在每個游戲中最多允許 1000 個交互步驟來生成執(zhí)行軌跡,并進(jìn)行多次運(yùn)行。


結(jié)果顯示,UI-TARS-1.5 在這些游戲中均取得了100的成績,而 OpenAI CUA 和 Claude 3.7 在部分游戲中得分為 0 或較低。游戲的長視域特性使其成為評估推理時間可擴(kuò)展性的理想選擇,UI-TARS-1.5表現(xiàn)出強(qiáng)大的可擴(kuò)展性和穩(wěn)定性,隨著交互輪次的增加,仍能保持高性能,展現(xiàn)出其穩(wěn)健的設(shè)計和先進(jìn)的推理能力。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

UI-TARS-1.5能獲得如此出色的性能,“統(tǒng)一的動作建?!笔瞧潢P(guān)鍵創(chuàng)新之一,將語義上等效的動作標(biāo)準(zhǔn)化,從而實現(xiàn)跨平臺的無縫操作和知識遷移。


傳統(tǒng)的GUI自動化工具往往依賴于特定平臺的API或系統(tǒng)級權(quán)限來執(zhí)行操作,這限制了它們的通用性和可擴(kuò)展性。而UI-TARS的統(tǒng)一動作建模模塊則摒棄了這種依賴,轉(zhuǎn)而采用一種更為通用和靈活的方法。


研究人員首先對各種GUI操作進(jìn)行了深入分析,識別出它們的共性和差異。他們發(fā)現(xiàn),盡管不同平臺的操作在具體實現(xiàn)上可能有所不同,但在語義上往往是等效的。例如,無論是使用鼠標(biāo)在Windows系統(tǒng)中點(diǎn)擊一個按鈕,還是在移動設(shè)備上輕觸一個圖標(biāo),其核心目的都是觸發(fā)一個特定的功能或事件。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

基于這一觀察,研究人員設(shè)計了一個通用的動作空間,將這些操作抽象為一系列基本動作,如“點(diǎn)擊”、“拖動”、“輸入文本”等。這些基本動作在不同平臺上具有相同的語義含義,但可以根據(jù)具體平臺的特性進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化。


此外,研究人員還引入了一種“動作軌跡增強(qiáng)”技術(shù),進(jìn)一步提升了智能體的多步操作能力。在實際應(yīng)用中,許多任務(wù)需要模型執(zhí)行一系列連續(xù)的操作才能完成。例如,在一個電商平臺上購買商品可能需要用戶瀏覽商品頁面、選擇商品規(guī)格、點(diǎn)擊“加入購物車”按鈕、填寫收貨地址等多個步驟。


為了使智能體能夠更好地理解和執(zhí)行這類多步任務(wù),研究團(tuán)隊在數(shù)據(jù)集中添加了大量包含多個連續(xù)操作的軌跡樣本。這些樣本不僅記錄了每個操作的具體內(nèi)容,還反映了操作之間的邏輯順序和依賴關(guān)系。通過學(xué)習(xí)這些軌跡樣本,模型能夠?qū)W會如何將一系列抽象動作組合起來,以完成復(fù)雜的任務(wù)。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/EAUrcNzx-34vp4dVact2cQ??


標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 日韩欧美日韩在线 | 亚洲成人综合社区 | 欧美成视频在线观看 | 成人精品在线视频 | 久久成人免费视频 | 亚洲成人综合社区 | 国产精品18毛片一区二区 | 九九成人| 美女天天操 | 亚洲综合成人网 | 免费一级欧美在线观看视频 | 91久久国产综合久久 | 一区二区在线不卡 | 东京久久| 一区二区三区四区在线视频 | 欧美极品少妇xxxxⅹ免费视频 | 成人国产在线视频 | 久久精品视频91 | 精品国产欧美一区二区三区成人 | 国产综合视频 | 九九伊人sl水蜜桃色推荐 | 久久久久久国产精品免费 | 99久久久国产精品 | 久久久xx | 亚洲国产中文字幕 | 在线播放国产一区二区三区 | 日韩精品一区二区三区老鸭窝 | 成人美女免费网站视频 | 久久精品一区二区视频 | 99精品视频免费观看 | 欧美国产精品一区二区三区 | 欧美亚洲一区二区三区 | 久久久久久国产 | 国产91久久久久蜜臀青青天草二 | 91av视频在线观看 | 不卡av在线| 91精品国产一区二区三区蜜臀 | 高清av电影 | 国产精品99久久久久久久vr | 欧美精品久久久 | 一区二区三区四区视频 |