成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟開源多模態(tài)AI基礎(chǔ)模型!無需額外微調(diào)輕松拿捏網(wǎng)頁、機器人

人工智能 開源
首個能在所處環(huán)境中理解多模態(tài)輸入并將其與實際情況相聯(lián)系的基礎(chǔ)模型。

微軟研究院官宣開源多模態(tài)AI——Magma模型

首個能在所處環(huán)境中理解多模態(tài)輸入并將其與實際情況相聯(lián)系的基礎(chǔ)模型。

圖片

該模型近期已被計算機視覺頂會CVPR接收,只要給定一個目標(biāo)描述,Magma就能制定計劃、執(zhí)行行動,無論是在數(shù)字界面中還是物理世界里,都能展現(xiàn)出靈活而高效的交互能力。

比如在網(wǎng)頁中找到天氣信息并打開飛行模式,或是執(zhí)行分享、發(fā)送消息等多步驟操作。

圖片

再比如在真實機器人任務(wù)中,讓機器人移動桌面上的“熱狗”模型、把蘑菇模型放到鍋里,或者將抹布從左至右推開。

相比其它模型,它在實際滾動演示中更加“絲滑”,出錯率更低。

圖片

或者在多模態(tài)理解和對話任務(wù)中,贏了眼前國際象棋比賽(左),或根據(jù)當(dāng)前環(huán)境提出放松幾個小時的建議(右)。

圖片

甚至還能描述視頻中發(fā)生了什么動作,并預(yù)測接下來會發(fā)生什么。

圖片
圖片

目前該模型以MIT許可證在GitHub上開源。

融合視覺、語言與動作的全新能力

傳統(tǒng)的視覺語言(VL)模型主要關(guān)注圖像與文本信息的理解,而Magma則在此基礎(chǔ)上進一步拓展,加入了空間與時序智能,賦予AI更強的行動決策能力。

微軟研究院團隊指出,Magma在視覺理解和語言理解的基礎(chǔ)上,又讓AI具備了在視覺空間世界進行動作規(guī)劃與執(zhí)行的能力。

這意味著,Magma能夠勝任從UI界面導(dǎo)航到機器人精準(zhǔn)抓取與移動等更多“跨界”任務(wù)。

圖片

Magma的核心創(chuàng)新在于其獨創(chuàng)的兩大標(biāo)注方法

1、Set-of-Mark(SoM)

該方法為任務(wù)中需要關(guān)注的關(guān)鍵對象(如網(wǎng)頁中的可點擊元素或餐桌上的擺放物品)提供了一組高層次的“關(guān)注標(biāo)記”。通過對這些目標(biāo)進行精準(zhǔn)定位,Magma能夠更有效地捕捉任務(wù)的核心要素,從而為后續(xù)動作規(guī)劃奠定基礎(chǔ)。

微軟研究院的研究還顯示,SoM對UI導(dǎo)航、機器人和人類視頻都有統(tǒng)一的操作標(biāo)記作用,讓模型能快速識別并鎖定可交互目標(biāo)。

2、Trace-of-Mark(ToM)

不僅是靜態(tài)標(biāo)記,ToM方法還擴展到動態(tài)視頻場景中,通過對物體運動軌跡的標(biāo)注,捕捉到動作的時序變化。

無論是機器人抓取物體時的手臂軌跡,還是人類在視頻中的動態(tài)操作,ToM都能幫助模型理解任務(wù)的時序邏輯,預(yù)測未來狀態(tài),進而作出更加精準(zhǔn)的決策。

研究團隊表示,相比直接進行下一幀預(yù)測,ToM用更少的token就可捕捉更長時間跨度的動作語義,從而讓Magma更能關(guān)注關(guān)鍵動作細節(jié)。

那么,Magma的實際表現(xiàn)如何呢?

概括而言,它在零樣本智能跨領(lǐng)域應(yīng)用方面擁有強悍表現(xiàn)。

在多項測試中,包括UI導(dǎo)航、機器人操作與視頻理解,Magma無需針對特定領(lǐng)域進行額外微調(diào),就能交出令人滿意的表現(xiàn)。

此外,研究團隊還對多個模型(包括ChatGPT在內(nèi))做了零樣本評估,結(jié)果顯示預(yù)訓(xùn)練好的Magma是唯一能完成所有測試任務(wù)的模型。

而Magma的跨領(lǐng)域優(yōu)勢表現(xiàn)在以下幾個方面:

  • UI導(dǎo)航場景:在Mind2Web、AITW等網(wǎng)頁或移動設(shè)備界面導(dǎo)航任務(wù)中,Magma僅需少量微調(diào)(few-shot)就可以取得非常突出的成績;
  • 機器人任務(wù):在WidowX機械臂真實操作和LIBERO中進行少樣本微調(diào),Magma同樣大幅領(lǐng)先于其它對比模型,尤其在軟物體操作和精確擺放任務(wù)中表現(xiàn)穩(wěn)定。研究者還指出,在預(yù)訓(xùn)練階段去除SoM和ToM標(biāo)注后,Magma的性能顯著下降,這說明這兩大關(guān)鍵標(biāo)注策略對模型的通用性和表現(xiàn)力至關(guān)重要;
  • 跨實體模擬:在Google Robots和Bridge任務(wù)中,Magma也展現(xiàn)了強大的跨實體泛化能力,能勝任不同種類物品的抓取與擺放。

與此同時,其多模態(tài)理解能力體現(xiàn)在:

在視頻理解和對話場景中,Magma所需的視頻指令調(diào)優(yōu)數(shù)據(jù)量并不大,卻在大多數(shù)基準(zhǔn)測試上與Video-Llama2、ShareGPT4Video等先進方法相當(dāng)甚至超越。

它不僅能描述視頻內(nèi)容,還能對下一步動作進行合理的預(yù)測和推斷。

據(jù)介紹,Magma使用大規(guī)模異構(gòu)視覺語言(VL)數(shù)據(jù)集預(yù)訓(xùn)練,包含3900多萬條樣本,覆蓋圖像、視頻以及機器人動作軌跡等多種形式,并采用ConvNeXt-XXL作為視覺骨干網(wǎng)絡(luò)和Llama-3-8B作為語言模型。

目前團隊已經(jīng)將Magma以MIT許可證在GitHub上開源,同時也在Hugging Face上提供了部分模型權(quán)重和示例,方便開發(fā)者快速上手。

團隊大部分為華人

從論文作者名單可以看到,其中大部分為華人。

圖片

論文一作兼項目負責(zé)人楊健偉,是Microsoft Research深度學(xué)習(xí)組的首席研究員,由Jianfeng Gao博士領(lǐng)導(dǎo)。

2020年3月加入微軟前,他在喬治亞理工學(xué)院互動計算學(xué)院獲得計算機科學(xué)博士學(xué)位,研究“結(jié)構(gòu)化視覺理解、生成與推理”,師從Devi Parikh教授,并與Dhruv Batra教授合作。

他的研究專注于通用多模態(tài)智能體,是該領(lǐng)域的先驅(qū)之一,推動了多個重要突破,包括:

  • 多模態(tài)視覺基礎(chǔ)模型:UniCL、RegionCLIP、GLIP、大規(guī)模基礎(chǔ)模型Florence;
  • 通用多模態(tài)模型:X-Decoder、SEEM、Semantic-SAM;
  • 大型多模態(tài)模型:LLaVa變體、GPT-4V的SoM提示工程、Phi-3-Vision。

由他主導(dǎo)的Project Magma項目,于發(fā)布后登上Hacker News熱榜第一,并在學(xué)術(shù)界和工業(yè)界引發(fā)廣泛關(guān)注。

作者之一顧禹,是Microsoft Research資深科學(xué)家,專注于大規(guī)模基礎(chǔ)模型、多模態(tài)學(xué)習(xí)和智能體技術(shù),推動AI在醫(yī)療和企業(yè)級應(yīng)用中的落地。

他主導(dǎo)開發(fā)了PubMedBERT,作為世界首批自適應(yīng)大模型,下載量超過2000萬,ACM年度最佳論文,廣泛應(yīng)用于全球醫(yī)療機構(gòu)。他共同主導(dǎo)BiomedParse(發(fā)表于《自然·方法》),并研發(fā)BiomedJourney,用于模擬疾病進展,提升醫(yī)學(xué)AI在數(shù)據(jù)稀缺場景下的適應(yīng)能力。

在智能體系統(tǒng)方面,他展示了LLM驅(qū)動的multi agent協(xié)作推理,優(yōu)化腫瘤決策,并在世界經(jīng)濟論壇上亮相,其研究成果發(fā)表在《自然》、《細胞》等期刊。

項目主頁:https://microsoft.github.io/Magma/
論文:https://www.arxiv.org/pdf/2502.13130
開源地址:https://github.com/microsoft/Magma

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-30 00:01:00

多模態(tài)大模型Python

2025-03-24 08:06:00

2024-12-13 15:41:46

2024-09-02 10:00:00

機器人開源

2017-04-02 09:30:15

機器人駕校機器人教學(xué)

2024-05-07 13:24:54

2024-11-01 07:30:00

2021-10-31 15:51:30

機器人人工智能監(jiān)控

2023-07-01 19:49:04

機器人

2023-03-29 13:07:34

微軟網(wǎng)絡(luò)安全聊天機器人

2022-07-28 11:26:41

人工智能機器人

2024-11-25 19:04:21

2025-04-30 16:48:07

2024-01-05 19:44:48

谷歌機器人憲法AI

2025-01-02 08:23:51

2021-08-05 10:58:58

Facebook開源Droidlet

2019-08-27 11:15:20

機器人人工智能編程

2017-08-21 13:31:44

AI聊天機器人facebook

2024-03-25 07:00:00

微軟AI機器人
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: av中文在线| 91精品国产综合久久小仙女图片 | 欧美精品综合在线 | 国产成人精品免费 | 亚洲成人福利 | 成人精品国产免费网站 | 黑人成人网 | 一级a性色生活片久久毛片 午夜精品在线观看 | 国产综合欧美 | 久久国产精品久久久久久久久久 | 黄色骚片 | 综合久久亚洲 | 成人在线视频免费播放 | 日本一区二区不卡 | 婷婷久久久久 | 日韩三区 | 天天天天天操 | 亚洲精品日本 | 国内精品视频一区二区三区 | 91在线播 | 国产网站在线免费观看 | 国产aaaaav久久久一区二区 | 久久久91 | 日韩中文字幕久久 | 国产人成精品一区二区三 | 99热都是精品 | 免费久久网站 | 久久久免费电影 | 热99精品视频 | 欧美日韩国产精品一区 | 亚洲精品91 | 久久国产精品免费 | 日韩精品亚洲专区在线观看 | 国产一区二区三区四区五区加勒比 | 综合婷婷| 新超碰97| 女生羞羞视频 | a看片 | 成人综合一区 | 国产精品久久久久无码av | 国产在线精品一区二区 |