成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好

新聞 人工智能
Geoffrey Hinton帶領(lǐng)谷歌大腦團隊提出的新框架Pix2Seq,可以完全用語言建模的方法來完成目標(biāo)檢測。

 [[426823]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

長期以來,CNN都是解決目標(biāo)檢測任務(wù)的經(jīng)典方法。

就算是引入了Transformer的DETR,也是結(jié)合CNN來預(yù)測最終的檢測結(jié)果的。

但現(xiàn)在,Geoffrey Hinton帶領(lǐng)谷歌大腦團隊提出的新框架Pix2Seq,可以完全用語言建模的方法來完成目標(biāo)檢測。

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

團隊由圖像像素得到一種對目標(biāo)對象的“描述”,并將其作為語言建模任務(wù)的輸入。然后讓模型去學(xué)習(xí)并掌握這種“語言”,從而得到有用的目標(biāo)表示。

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

最后取得的結(jié)果基本與Faster R-CNNDETR相當(dāng),對于小型物體的檢測優(yōu)于DETR,在大型物體檢測上的表現(xiàn)也比Faster R-CNN更好,。

接下來就來具體看看這一模型的架構(gòu)。

從物體描述中構(gòu)建序列

Pix2Seq的處理流程主要分為四個部分:

  • 圖像增強
  • 序列的構(gòu)建和增強
  • 編碼器-解碼器架構(gòu)
  • 目標(biāo)/損失函數(shù)
語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

首先,Pix2Seq使用圖像增強來豐富一組固定的訓(xùn)練實例。

然后是從物體描述中構(gòu)建序列

一張圖像中常常包含多個對象目標(biāo),每個目標(biāo)可以視作邊界框和類別標(biāo)簽的集合。

將這些對象目標(biāo)的邊界框和類別標(biāo)簽表達(dá)為離散序列,并采用隨機排序策略將多個物體排序,最后就能形成一張?zhí)囟▓D像的單一序列

也就是開頭所提到的對“描述”目標(biāo)對象的特殊語言。

其中,類標(biāo)簽可以自然表達(dá)為離散標(biāo)記。

邊界框則是將左上角和右下角的兩個角點的X,Y坐標(biāo),以及類別索引c進(jìn)行連續(xù)數(shù)字離散化,最終得到五個離散Token序列:

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

研究團隊對所有目標(biāo)采用共享詞表,這時表大小=bins數(shù)+類別數(shù)。

這種量化機制使得一個600×600的圖像僅需600bins即可達(dá)到零量化誤差,遠(yuǎn)小于32K詞表的語言模型。

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

接下來,將生成的序列視為一種語言,然后引入語言建模中的通用框架和目標(biāo)函數(shù)。

這里使用編碼器-解碼器架構(gòu),其中編碼器用于感知像素并將其編碼為隱藏表征的一般圖像,生成則使用Transformer解碼器。

和語言建模類似,Pix2Seq將用于預(yù)測并給定圖像與之前的Token,以及最大化似然損失。

在推理階段,再從模型中進(jìn)行Token采樣。

為了防止模型在沒有預(yù)測到所有物體時就已經(jīng)結(jié)束,同時平衡精確性(AP)與召回率(AR),團隊引入了一種序列增強技術(shù)

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

這種方法能夠?qū)斎胄蛄羞M(jìn)行增廣,同時還對目標(biāo)序列進(jìn)行修改使其能辨別噪聲Token,有效提升了模型的魯棒性。

在小目標(biāo)檢測上優(yōu)于DETR

團隊選用MS-COCO 2017檢測數(shù)據(jù)集進(jìn)行評估,這一數(shù)據(jù)集中含有包含11.8萬訓(xùn)練圖像和5千驗證圖像。

與DETR、Faster R-CNN等知名目標(biāo)檢測框架對比可以看到:

Pix2Seq在小/中目標(biāo)檢測方面與Faster R-CNN性能相當(dāng),但在大目標(biāo)檢測方面更優(yōu)。

而對比DETR,Pix2Seq在大/中目標(biāo)檢測方面相當(dāng)或稍差,但在小目標(biāo)檢測方面更優(yōu)。

語言模型不務(wù)正業(yè)做起目標(biāo)檢測,性能比DETR更好 | Hinton團隊研究

一作華人

這篇論文來自圖靈獎得主Geoffrey Hinton帶領(lǐng)的谷歌大腦團隊。

一作Ting Chen為華人,本科畢業(yè)于北京郵電大學(xué),2019年獲加州大學(xué)洛杉磯分校(UCLA)的計算機科學(xué)博士學(xué)位。

他已在谷歌大腦團隊工作兩年,目前的主要研究方向是自監(jiān)督表征學(xué)習(xí)、有效的離散結(jié)構(gòu)深層神經(jīng)網(wǎng)絡(luò)和生成建模。

[[426825]]

論文:
https://arxiv.org/abs/2109.10852

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2015-10-29 10:31:01

Android開發(fā)微軟

2012-08-08 17:24:33

SCO

2012-03-01 17:40:47

百卓網(wǎng)絡(luò)Smart

2022-07-15 07:57:29

網(wǎng)站csshtml

2021-09-27 09:48:52

神經(jīng)網(wǎng)絡(luò)AI目標(biāo)檢測

2022-11-21 15:18:05

模型檢測

2024-11-27 16:06:12

2021-01-01 20:00:21

Windows 10Windows操作系統(tǒng)

2022-05-14 08:42:53

微信移動開發(fā)

2023-11-20 10:34:09

語言

2012-06-08 10:39:20

智能手機

2025-02-17 12:30:00

2015-10-29 08:59:52

微軟android應(yīng)用

2023-07-31 11:30:27

研究技術(shù)

2020-11-24 17:25:19

模型人工智能深度學(xué)習(xí)

2010-03-10 16:35:23

Python編程語言

2024-04-15 12:50:00

大型語言模型ReFT

2009-05-20 09:41:10

2022-09-05 10:01:19

VueReact

2021-04-22 05:39:33

微軟Edge瀏覽器
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 午夜免费观看网站 | 久久国产精品久久久久久 | 国产乱码精品一区二区三区五月婷 | 懂色av一区二区三区在线播放 | 免费在线成人 | 国产精品久久影院 | 欧美一区二区三区一在线观看 | 亚洲欧洲一区 | 99精品国自产在线 | 一区二区国产精品 | 精品久久久久久久久久久久久久久久久 | 成人在线小视频 | 亚洲国产精品成人久久久 | 午夜精品一区二区三区在线观看 | 午夜男人天堂 | 国产精品99精品久久免费 | 国产精品亚洲一区 | 国产精品一级 | 午夜精品久久 | 久久久久国产精品 | 国产色爽 | 国产精品一区在线观看 | 亚洲精品福利在线 | 一级在线免费观看 | 国产一区二区在线免费观看 | 久久久久久久久中文字幕 | 色播久久 | 日韩在线免费 | 一区二区视频免费观看 | 99国产精品一区二区三区 | 成人综合视频在线观看 | 精品久久久久久亚洲综合网 | 爱爱免费视频 | 国产精品久久久久久久粉嫩 | 在线视频亚洲 | 欧美日韩a| 国产欧美一区二区三区在线看 | 久久精品一级 | 国产成人精品福利 | 精品www| 国产精品美女一区二区 |