成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一次推理,實(shí)現(xiàn)六大3D點(diǎn)云分割任務(wù)!華科發(fā)布大一統(tǒng)算法UniSeg3D,性能新SOTA

人工智能 新聞
華中科技大學(xué)研發(fā)的UniSeg3D算法,能一次性完成三維場(chǎng)景中的六項(xiàng)分割任務(wù),提升了場(chǎng)景理解的全面性和效率。通過(guò)任務(wù)間的信息共享,優(yōu)化了性能,為虛擬現(xiàn)實(shí)和機(jī)器人導(dǎo)航等領(lǐng)域帶來(lái)新的解決方案。

三維場(chǎng)景理解在虛擬現(xiàn)實(shí)和具身智能等技術(shù)中具有廣泛應(yīng)用,吸引了研究者們的極大關(guān)注。

3D點(diǎn)云分割任務(wù)是三維場(chǎng)景理解中的重要組成部分,涵蓋了實(shí)例分割、語(yǔ)義分割和全景分割,以及交互式分割、參考分割和開(kāi)放詞匯分割等子任務(wù)。

盡管針對(duì)相關(guān)任務(wù)的研究已經(jīng)取得引人注目的進(jìn)展,但現(xiàn)有研究往往聚焦于單一任務(wù)領(lǐng)域,從而導(dǎo)致三維場(chǎng)景理解局限于單一任務(wù)視角,忽視了不同任務(wù)之間的內(nèi)在關(guān)聯(lián)性。

這種局限性為實(shí)現(xiàn)全面的三維場(chǎng)景理解帶來(lái)了顯著的挑戰(zhàn)。

為了解決上述問(wèn)題,華中科技大學(xué)的研究人員提出了一種統(tǒng)一的三維場(chǎng)景理解算法UniSeg3D,通過(guò)一次推理完成六項(xiàng)3D點(diǎn)云分割任務(wù),并通過(guò)構(gòu)建任務(wù)間的顯式關(guān)聯(lián)來(lái)促進(jìn)信息共享,從而增強(qiáng)性能表現(xiàn)。

圖片

論文地址:https://arxiv.org/abs/2407.03263

項(xiàng)目地址:https://dk-liang.github.io/UniSeg3D/

代碼地址:https://github.com/dk-liang/UniSeg3D

實(shí)驗(yàn)結(jié)果表明,UniSeg3D在多個(gè)3D點(diǎn)云分割數(shù)據(jù)集上均取得了SOTA結(jié)果。

圖片

圖1:3D點(diǎn)云分割領(lǐng)域的單一任務(wù)方法與統(tǒng)一多任務(wù)方法

其主要包含如下的優(yōu)勢(shì):

1. 多任務(wù)統(tǒng)一:當(dāng)前的3D點(diǎn)云分割方法通常為單一任務(wù)設(shè)計(jì),不同于現(xiàn)有的研究工作,UniSeg3D通過(guò)一次推理能夠支持六種3D點(diǎn)云分割任務(wù);

2. 性能優(yōu)異:通過(guò)建立任務(wù)間的顯式關(guān)聯(lián),UniSeg3D在全景分割、語(yǔ)義分割、實(shí)例分割、交互式分割、參考分割和開(kāi)放詞匯語(yǔ)義分割六個(gè)任務(wù)中均展現(xiàn)出SOTA性能;

3. 可擴(kuò)展性:采用query統(tǒng)一表征多種點(diǎn)云分割任務(wù)的信息與特征,結(jié)構(gòu)簡(jiǎn)潔有效。且通過(guò)輸入新增任務(wù)的query表征,可將UniSeg3D拓展至更多任務(wù),展現(xiàn)了框架的可擴(kuò)展性和靈活性。

動(dòng)機(jī)

三維場(chǎng)景理解已成為機(jī)器人技術(shù)、自主導(dǎo)航和混合現(xiàn)實(shí)等各類現(xiàn)實(shí)應(yīng)用的基礎(chǔ)。近年來(lái),構(gòu)建高效、精確的三維場(chǎng)景理解算法成為熱門研究課題,但現(xiàn)有方法通常專注于單一子任務(wù),并為特定任務(wù)場(chǎng)景進(jìn)行定制化模型設(shè)計(jì)。

然而,由于單一任務(wù)算法只能實(shí)現(xiàn)單一任務(wù)預(yù)測(cè),在應(yīng)用于多任務(wù)場(chǎng)景時(shí),需要運(yùn)行多種單一任務(wù)方法以實(shí)現(xiàn)多任務(wù)預(yù)測(cè),帶來(lái)了較高的算力需求。且單一任務(wù)方法缺乏其他子任務(wù)算法的場(chǎng)景理解知識(shí),阻礙了全面的三維場(chǎng)景理解。為了解決這一問(wèn)題,一些研究者探索構(gòu)建統(tǒng)一三維場(chǎng)景理解算法,并取得了一定的成果。

但當(dāng)前方法不具備對(duì)用戶提示信息的理解能力,不支持交互式分割、參考分割、開(kāi)放詞匯分割任務(wù),限制其人機(jī)交互潛力;且用戶提示信息包含三維場(chǎng)景先驗(yàn)信息,可有效提高三維場(chǎng)景理解算法的可靠性,缺乏對(duì)用戶提示信息的理解能力將限制算法的有效性。

針對(duì)上述問(wèn)題,文章提出了一種統(tǒng)一三維場(chǎng)景理解算法UniSeg3D,用于提高多任務(wù)應(yīng)用場(chǎng)景中的場(chǎng)景理解效率。

方法

UniSeg3D主要由三個(gè)模塊組成:點(diǎn)云Backbone、Prompt編碼器和掩膜解碼器。其中,點(diǎn)云Backbone提取輸入三維場(chǎng)景的點(diǎn)云特征;

Prompt編碼器包含文本提示編碼器與視覺(jué)提示編碼器,文本提示編碼器提取文本特征,而視覺(jué)交互分割中的Prompt特征通過(guò)采樣點(diǎn)云特征獲取,將提取后的特征信息送入掩膜解碼器中獲取不同任務(wù)的分割結(jié)果。

模型整體結(jié)構(gòu)如下圖所示:

圖片

圖2:UniSeg3D整體框架圖

算法采用Query統(tǒng)一表征三維場(chǎng)景信息、視覺(jué)提示信息和文本提示信息。

編碼自不同信息的Query攜帶差異性的場(chǎng)景知識(shí),將其不加區(qū)分地送入掩膜解碼器會(huì)削弱掩膜解碼器對(duì)差異性場(chǎng)景信息的感知能力,因此UniSeg3D根據(jù)信息來(lái)源不同為Query疊加不同的Embedding,從而促進(jìn)掩膜解碼器對(duì)三維場(chǎng)景信息、視覺(jué)提示信息和文本提示信息的信息提取性能。

掩膜生成過(guò)程對(duì)六個(gè)任務(wù)采用統(tǒng)一的掩膜解碼器以及輸出Head,未對(duì)特定任務(wù)進(jìn)行定制化的模塊設(shè)計(jì),整體流程簡(jiǎn)潔有效。

在之前的研究工作中,忽略了各個(gè)任務(wù)間的關(guān)聯(lián),導(dǎo)致每個(gè)任務(wù)只關(guān)注其任務(wù)特定的知識(shí),缺乏對(duì)其他任務(wù)信息的感知能力,限制了全面而深入的三維場(chǎng)景理解。

為克服以上缺陷,本研究采用對(duì)比學(xué)習(xí)和知識(shí)蒸餾建立了不同任務(wù)間的顯式聯(lián)系,促進(jìn)深層次的三維場(chǎng)景理解。

圖片

圖3:任務(wù)間知識(shí)蒸餾方向以及顯式關(guān)聯(lián)關(guān)系

對(duì)比學(xué)習(xí):對(duì)于參考分割任務(wù),當(dāng)多個(gè)形狀相同的物體相鄰排列時(shí),容易出現(xiàn)歧義問(wèn)題,如上圖(a)所示。因此引入基于ranking的對(duì)比學(xué)習(xí)方式,即利用交互式分割的特征與參考分割任務(wù)的特征進(jìn)行對(duì)比學(xué)習(xí)從而建立顯式關(guān)聯(lián),如上圖(b)所示。

知識(shí)蒸餾:鑒于視覺(jué)交互式分割所展現(xiàn)出的優(yōu)異性能,如上圖(c)所示,利用交互式分割任務(wù)的預(yù)測(cè)mask和分類logits分別對(duì)全景分割任務(wù)的預(yù)測(cè)mask和參考分割任務(wù)輸出的類別logits進(jìn)行監(jiān)督約束,從而實(shí)現(xiàn)性能優(yōu)化。

實(shí)驗(yàn)結(jié)果

圖片

表1:多任務(wù)統(tǒng)一的挑戰(zhàn)性

研究人員首先討論在單一模型中統(tǒng)一多任務(wù)所面臨的挑戰(zhàn)。全景分割、語(yǔ)義分割、實(shí)例分割、開(kāi)放詞匯分割、參考分割、交互式分割分別由Pan.、Sem.、Inst.、OV、Ref.、Inter.表示。

如表1所示,依次將交互式分割、參考分割和開(kāi)放詞匯分割簡(jiǎn)單地加入到框架中構(gòu)建統(tǒng)一模型基線時(shí),會(huì)觀察到算法在全景分割、實(shí)例分割任務(wù)上呈現(xiàn)性能下降。這表明平衡多任務(wù)性能具有顯著挑戰(zhàn)性。

盡管如此,研究人員認(rèn)為在單一模型中實(shí)現(xiàn)多任務(wù)具有重要研究?jī)r(jià)值,因?yàn)檫@能夠減少計(jì)算資源消耗,有利于現(xiàn)實(shí)應(yīng)用。

因此,UniSeg3D提出通過(guò)建立任務(wù)間顯示關(guān)聯(lián)來(lái)實(shí)現(xiàn)多任務(wù)聯(lián)合優(yōu)化,緩解多任務(wù)統(tǒng)一帶來(lái)的性能下降,后續(xù)實(shí)驗(yàn)表明這是一個(gè)有價(jià)值的探索方向。

研究人員在ScanNet20、ScanRefer和ScanNet200數(shù)據(jù)集上進(jìn)行評(píng)估測(cè)試,在全景分割、語(yǔ)義分割、實(shí)例分割、開(kāi)放詞匯分割、交互式分割和參考分割任務(wù)中,UniSeg3D均取得SOTA表現(xiàn),這表明UniSeg3D在統(tǒng)一3D點(diǎn)云分割任務(wù)上的有效性:

圖片

表2:3D點(diǎn)云分割任務(wù)上性能對(duì)比

下圖展示了UniSeg3D在六種3D點(diǎn)云分割任務(wù)上的可視化結(jié)果。

圖片

總結(jié)

UniSeg3D作為首個(gè)在三維場(chǎng)景理解中集成六大分割任務(wù)的模型,為三維場(chǎng)景理解提供了一個(gè)靈活而高效的解決方案。以前的特定任務(wù)的方法難以提取跨任務(wù)信息,阻礙了全面的三維場(chǎng)景理解。

相比之下,UniSeg3D充分利用了支持多任務(wù)的結(jié)構(gòu)特點(diǎn),通過(guò)建立任務(wù)間的關(guān)聯(lián)來(lái)提高模型性能,從而在各種基準(zhǔn)任務(wù)中取得優(yōu)異表現(xiàn)。UniSeg3D為高效、精確的三維場(chǎng)景理解提供新的解決方案和可能思路。


責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-09-27 17:58:26

2015-07-30 12:27:30

重郵華為

2024-01-24 09:24:19

自動(dòng)駕駛算法

2025-06-09 09:50:00

Veact庫(kù)React

2017-12-15 17:14:10

云端

2022-05-16 11:06:54

SOTA谷歌預(yù)訓(xùn)練

2015-05-06 13:52:52

微軟外媒

2020-12-13 13:40:22

健康碼移動(dòng)應(yīng)用

2024-10-15 13:07:38

2024-12-10 09:49:53

2014-07-29 13:25:43

WWDC 2014 S

2024-04-23 13:38:00

AI數(shù)據(jù)

2012-02-28 09:54:01

Windows 8微軟賬戶

2020-12-16 16:21:06

谷歌架構(gòu)技術(shù)

2019-12-23 10:22:05

AI 數(shù)據(jù)人工智能

2023-07-17 08:03:03

Shell腳本SQL

2023-09-05 10:36:51

3D視覺(jué)

2023-12-06 13:36:00

模型數(shù)據(jù)

2023-04-25 17:06:38

視覺(jué)任務(wù)

2021-04-18 22:18:39

SQL數(shù)據(jù)分析工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久男人 | 曰韩一二三区 | 美女福利视频一区 | 日日噜噜噜夜夜爽爽狠狠视频97 | 欧美成年网站 | 99精品国产一区二区三区 | 午夜精品久久 | 黄色大片免费观看 | 天堂av免费观看 | 精品福利在线 | 涩涩导航| 欧美久操网| 成人欧美一区二区三区黑人孕妇 | 欧美激情五月 | www.成人.com | 成人一区二区三区 | 日本不卡高清视频 | 中文字幕在线播放不卡 | 91精品国产91久久综合桃花 | 欧美激情久久久 | 日韩av在线免费 | 第四色影音先锋 | 免费在线观看av网址 | 久久夜视频 | 色本道| 人人操日日干 | 中文字幕视频网 | 国产精品日日摸夜夜添夜夜av | www.av在线| 国产一区不卡 | 四虎成人免费电影 | 一区二区三区电影网 | 亚洲图片视频一区 | 全免费a级毛片免费看视频免 | 成人av一区二区三区 | 欧美xxxx黑人又粗又长 | 黄色一级大片在线免费看产 | 亚洲高清一区二区三区 | 看真人视频一级毛片 | 91免费在线视频 | 国产精品综合色区在线观看 |