成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<u id="ihezm"><option id="ihezm"><code id="ihezm"></code></option></u>

<cite id="ihezm"></cite>

<rp id="ihezm"></rp>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5

發(fā)布于 2025-4-23 11:55

瀏覽

0收藏

字節(jié)跳動開源了多模態(tài)AI Agent UI-TARS的最新1.5版本。

與上一代相比，1.5版本在計算機(jī)使用、瀏覽器使用和手機(jī)使用等基準(zhǔn)測試中均表現(xiàn)非常出色。

在計算機(jī)使用方面，OSworld測試得分為42.5，高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最高水平38.1（200步）；Windows Agent Arena（50步）得分為42.1，遠(yuǎn)超之前的29.8。

瀏覽器使用方面，WebVoyager得分為84.8，接近OpenAI CUA和之前最高水平的87，Online-Mind2web得75.8，優(yōu)于OpenAI CUA的71、Claude 3.7的62.9和之前的71。手機(jī)使用方面，Android World得64.2，高于之前的59.5。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

開源地址：??https://github.com/bytedance/UI-TARS??

笑臉：??https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B??

而在 GUI 定位方面，UI-TARS-1.5 相比之前的最高水平有顯著提升，尤其在具有挑戰(zhàn)性的 ScreenSpotPro 基準(zhǔn)測試中表現(xiàn)突出。

ScreenSpot-V2測試得 94.2，高于 OpenAI CUA 的 87.9、Claude 3.7 的 87.6 和之前的 91.6；ScreenSpotPro 為61.6，遠(yuǎn)超 OpenAI CUA的23.4、Claude 3.7的27.7和之前的43.6。

在推理時間方面，隨著推理時間的延長，UI-TARS-1.5 呈現(xiàn)出良好的擴(kuò)展趨勢。盡管UI-TARS-1.5 并非專為Deep-research任務(wù)設(shè)計，例如，在互聯(lián)網(wǎng)上進(jìn)行多步驟信息搜索研究，但在兩個近期具有挑戰(zhàn)性的網(wǎng)頁瀏覽基準(zhǔn)測試中表現(xiàn)出了強(qiáng)大的通用性。

在 SimpleQA 測試中，UI-TARS-1.5為83.8，優(yōu)于GPT-4.5的60，略低于帶有搜索功能GPT-4o 90；BrowseComp為2.3，高于GPT4.5的0.6和GPT-4o的1.9。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

游戲領(lǐng)域是評估多模態(tài)智能體復(fù)雜推理、決策和適應(yīng)能力的關(guān)鍵測試環(huán)境，游戲需要直觀的常識推理和戰(zhàn)略遠(yuǎn)見，是測試和展示多模態(tài)智能體高級認(rèn)知能力的理想基準(zhǔn)。

為評估 UI-TARS-1.5 的游戲能力，研究人員從poki選取了 14 款不同的游戲，每個模型在每個游戲中最多允許 1000 個交互步驟來生成執(zhí)行軌跡，并進(jìn)行多次運(yùn)行。

結(jié)果顯示，UI-TARS-1.5 在這些游戲中均取得了100的成績，而 OpenAI CUA 和 Claude 3.7 在部分游戲中得分為 0 或較低。游戲的長視域特性使其成為評估推理時間可擴(kuò)展性的理想選擇，UI-TARS-1.5表現(xiàn)出強(qiáng)大的可擴(kuò)展性和穩(wěn)定性，隨著交互輪次的增加，仍能保持高性能，展現(xiàn)出其穩(wěn)健的設(shè)計和先進(jìn)的推理能力。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

UI-TARS-1.5能獲得如此出色的性能，“統(tǒng)一的動作建?！笔瞧潢P(guān)鍵創(chuàng)新之一，將語義上等效的動作標(biāo)準(zhǔn)化，從而實現(xiàn)跨平臺的無縫操作和知識遷移。

傳統(tǒng)的GUI自動化工具往往依賴于特定平臺的API或系統(tǒng)級權(quán)限來執(zhí)行操作，這限制了它們的通用性和可擴(kuò)展性。而UI-TARS的統(tǒng)一動作建模模塊則摒棄了這種依賴，轉(zhuǎn)而采用一種更為通用和靈活的方法。

研究人員首先對各種GUI操作進(jìn)行了深入分析，識別出它們的共性和差異。他們發(fā)現(xiàn)，盡管不同平臺的操作在具體實現(xiàn)上可能有所不同，但在語義上往往是等效的。例如，無論是使用鼠標(biāo)在Windows系統(tǒng)中點(diǎn)擊一個按鈕，還是在移動設(shè)備上輕觸一個圖標(biāo)，其核心目的都是觸發(fā)一個特定的功能或事件。

字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5-AI.x社區(qū)

基于這一觀察，研究人員設(shè)計了一個通用的動作空間，將這些操作抽象為一系列基本動作，如“點(diǎn)擊”、“拖動”、“輸入文本”等。這些基本動作在不同平臺上具有相同的語義含義，但可以根據(jù)具體平臺的特性進(jìn)行適當(dāng)?shù)恼{(diào)整和優(yōu)化。

此外，研究人員還引入了一種“動作軌跡增強(qiáng)”技術(shù)，進(jìn)一步提升了智能體的多步操作能力。在實際應(yīng)用中，許多任務(wù)需要模型執(zhí)行一系列連續(xù)的操作才能完成。例如，在一個電商平臺上購買商品可能需要用戶瀏覽商品頁面、選擇商品規(guī)格、點(diǎn)擊“加入購物車”按鈕、填寫收貨地址等多個步驟。

為了使智能體能夠更好地理解和執(zhí)行這類多步任務(wù)，研究團(tuán)隊在數(shù)據(jù)集中添加了大量包含多個連續(xù)操作的軌跡樣本。這些樣本不僅記錄了每個操作的具體內(nèi)容，還反映了操作之間的邏輯順序和依賴關(guān)系。通過學(xué)習(xí)這些軌跡樣本，模型能夠?qū)W會如何將一系列抽象動作組合起來，以完成復(fù)雜的任務(wù)。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/EAUrcNzx-34vp4dVact2cQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

Grok多模態(tài)大模型Grok-1.5V來了！

AIGC最前線 ? 3346瀏覽 ? 0回復(fù)
Jamba前生今世：1.5開源來襲

魯班模錘1 ? 2744瀏覽 ? 0回復(fù)
字節(jié)跳動發(fā)布統(tǒng)一多模態(tài)大模型 Show-o!

AI論文解讀 ? 4630瀏覽 ? 0回復(fù)
kotaemon核心GraphRAG、Agent、多模態(tài)代碼解讀！

PaperAgent ? 3740瀏覽 ? 0回復(fù)
破解AI多模態(tài)理解難題：浙江大學(xué)與字節(jié)跳動聯(lián)手推出Molecule-Space新方法

AI論文解讀 ? 3033瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 3131瀏覽 ? 0回復(fù)
Seed-Music：字節(jié)跳動的AI音樂大模型，讓每個人都成為音樂家

穿越時空111 ? 5694瀏覽 ? 0回復(fù)
超Gemini-1.5-pro 9.5%！字節(jié)&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 2868瀏覽 ? 0回復(fù)
多模態(tài)大模型在具身智能領(lǐng)域里程碑工作！清華&字節(jié)開源DeeR-VLA：讓算力內(nèi)存雙降

angel ? 2929瀏覽 ? 0回復(fù)
字節(jié)跳動AI研究院發(fā)布FullStack Bench和SandboxFusion：用于評估真實編程場景中LLM的綜合基準(zhǔn)測試工具

Halo咯咯 ? 3418瀏覽 ? 0回復(fù)
字節(jié)跳動首創(chuàng)無需數(shù)據(jù)，1.58位超低量化自監(jiān)督生成

Aceryt ? 2419瀏覽 ? 0回復(fù)
字節(jié)跳動開源

angel ? 2549瀏覽 ? 0回復(fù)
用強(qiáng)化學(xué)習(xí)重塑多模態(tài)AI：解讀Kimi k1.5的突破與創(chuàng)新

Halo咯咯 ? 2924瀏覽 ? 0回復(fù)
【AI洞察】Kimi 1.5技術(shù)報告全解析：長鏈推理、短鏈優(yōu)化與多模態(tài)融合的創(chuàng)新實踐

Halo咯咯 ? 3135瀏覽 ? 0回復(fù)
如果你還沒有 Manus 激活碼，強(qiáng)烈推薦字節(jié)推出的 Agent TARS，免費(fèi)使用！

wsp_ping ? 2249瀏覽 ? 0回復(fù)
Qwen原生多模態(tài)開源，淺析一下！

NLP前沿1 ? 1696瀏覽 ? 0回復(fù)
Seed1.5-VL 問世：字節(jié)跳動的視覺語言新突破，60項測試奪38冠

穿越時空111 ? 1398瀏覽 ? 0回復(fù)
字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin

大模型自然語言處理 ? 974瀏覽 ? 0回復(fù)
字節(jié)跳動炸開AI新邊界！開源多模態(tài)模型BAGEL：這顆“魔法貝果”有多能打？

墨風(fēng)如雪小站 ? 1210瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦 2025-04-24 09:57:36發(fā)布
微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50% 2025-04-18 09:47:15發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50%

下一篇：剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來啦

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：日韩欧美日韩在线 | 亚洲成人综合社区 | 欧美成视频在线观看 | 成人精品在线视频 | 久久成人免费视频 | 亚洲成人综合社区 | 国产精品18毛片一区二区 | 九九成人| 美女天天操 | 亚洲综合成人网 | 免费一级欧美在线观看视频 | 91久久国产综合久久 | 一区二区在线不卡 | 东京久久| 一区二区三区四区在线视频 | 欧美极品少妇xxxxⅹ免费视频 | 成人国产在线视频 | 久久精品视频91 | 精品国产欧美一区二区三区成人 | 国产综合视频 | 九九伊人sl水蜜桃色推荐 | 久久久久久国产精品免费 | 99久久久国产精品 | 久久久xx | 亚洲国产中文字幕 | 在线播放国产一区二区三区 | 日韩精品一区二区三区老鸭窝 | 成人美女免费网站视频 | 久久精品一区二区视频 | 99精品视频免费观看 | 欧美国产精品一区二区三区 | 欧美亚洲一区二区三区 | 久久久久久国产 | 国产91久久久久蜜臀青青天草二 | 91av视频在线观看 | 不卡av在线| 91精品国产一区二区三区蜜臀 | 高清av电影 | 国产精品99久久久久久久vr | 欧美精品久久久 | 一区二区三区四区视频 |

<ol id="ylkmk"><wbr id="ylkmk"><meter id="ylkmk"></meter></wbr></ol>

<output id="ylkmk"><bdo id="ylkmk"></bdo></output>