成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CV未來(lái)在這68張圖上?Google Brain深扒ImageNet:頂級(jí)模型全都預(yù)測(cè)失敗

人工智能 新聞
ImageNet的標(biāo)簽問(wèn)題一直為人詬病,最近Google Brain全面分析了基準(zhǔn)內(nèi)遺留的歷史問(wèn)題,并找出了所有頂級(jí)模型全都預(yù)測(cè)失敗的68張圖片,或許未來(lái)CV想取得突破,先得攻破這68關(guān)!

過(guò)去的十年里,ImageNet基本就是計(jì)算機(jī)視覺(jué)領(lǐng)域的「晴雨表」,看準(zhǔn)確率有沒(méi)有提升,就知道有沒(méi)有新技術(shù)問(wèn)世。

「刷榜」一直是模型創(chuàng)新的原動(dòng)力,把模型Top-1準(zhǔn)確率推動(dòng)到90%+,比人類(lèi)還高。

圖片

但I(xiàn)mageNet數(shù)據(jù)集是否真的像我們想象中的那么有用?

很多論文都曾對(duì)ImageNet發(fā)出質(zhì)疑,比如數(shù)據(jù)的覆蓋度、偏見(jiàn)問(wèn)題、標(biāo)簽是否完善等等。

其中最重要的是,模型90%的準(zhǔn)確率是否真的準(zhǔn)確?

最近Google Brain團(tuán)隊(duì)和加州大學(xué)伯克利分校的研究人員重新審視了幾個(gè)sota模型的預(yù)測(cè)結(jié)果,發(fā)現(xiàn)模型真正的準(zhǔn)確率還可能被低估了!

論文鏈接:https://arxiv.org/pdf/2205.04596.pdf

研究人員通過(guò)對(duì)一些頂級(jí)模型所犯的每一個(gè)錯(cuò)誤進(jìn)行人工審查和分類(lèi),以便深入了解基準(zhǔn)數(shù)據(jù)集的長(zhǎng)尾錯(cuò)誤。

其中主要關(guān)注ImageNet的多標(biāo)簽子集評(píng)估,最好的模型已經(jīng)能達(dá)到97%的Top-1的準(zhǔn)確率。

圖片


這項(xiàng)研究的分析結(jié)果顯示,將近一半的所謂的預(yù)測(cè)錯(cuò)誤根本就不是錯(cuò)誤,并且還在圖片中發(fā)現(xiàn)了新的多標(biāo)簽,也就是說(shuō),如果沒(méi)有人工審查過(guò)預(yù)測(cè)結(jié)果,這些模型的性能可能都是被「低估」的!

不熟練的眾包數(shù)據(jù)標(biāo)注員往往會(huì)把數(shù)據(jù)標(biāo)注錯(cuò)誤,在很大程度上也影響了模型準(zhǔn)確率的真實(shí)性。

為了校準(zhǔn)ImageNet數(shù)據(jù)集,促進(jìn)未來(lái)的良性進(jìn)展,研究人員在文中提供了一個(gè)更新版的多標(biāo)簽評(píng)估集,并把sota模型預(yù)測(cè)存在明顯錯(cuò)誤的68個(gè)例子組合為一個(gè)新數(shù)據(jù)集ImageNet-Major,以方便未來(lái)CV研究者攻克這些bad case

還上「技術(shù)債」

從文章的標(biāo)題「什么時(shí)候面團(tuán)成了百吉餅?」就可以看出作者主要關(guān)注ImageNet里的標(biāo)簽問(wèn)題,這也屬于是歷史遺留問(wèn)題了。

下圖是一個(gè)非常典型的標(biāo)簽歧義例子,圖片里的標(biāo)簽為「面團(tuán)」,模型的預(yù)測(cè)結(jié)果為「百吉餅」,錯(cuò)了嗎?

圖片

這個(gè)模型理論上來(lái)說(shuō)并沒(méi)有預(yù)測(cè)錯(cuò)誤,因?yàn)槊鎴F(tuán)正在烤,馬上就要成百吉餅了,所以既是面團(tuán)又是百吉餅。

可以見(jiàn)得模型實(shí)際上已經(jīng)能夠預(yù)測(cè)到這個(gè)面團(tuán)「即將成為」百吉餅,但在準(zhǔn)確率上卻沒(méi)有拿到這一分。

實(shí)際上,以標(biāo)準(zhǔn)ImageNet數(shù)據(jù)集的分類(lèi)任務(wù)作為評(píng)價(jià)標(biāo)準(zhǔn),缺乏多標(biāo)簽、標(biāo)簽噪聲、未指定的類(lèi)別等問(wèn)題都在所難免。

圖片

 從負(fù)責(zé)識(shí)別此類(lèi)對(duì)象的眾包標(biāo)注員的角度來(lái)看,這是一個(gè)語(yǔ)義甚至是哲學(xué)上的難題,只能通過(guò)多標(biāo)簽來(lái)解決,所以在ImageNet的衍生數(shù)據(jù)集中主要改善的就是標(biāo)簽問(wèn)題。

距ImageNet成立已經(jīng)過(guò)了16年,當(dāng)時(shí)的標(biāo)注人員、模型開(kāi)發(fā)者對(duì)數(shù)據(jù)的理解肯定不如今天豐富,而ImageNet又是早期的大容量、標(biāo)注相對(duì)良好的數(shù)據(jù)集,所以ImageNet很自然而然地成了CV刷榜的標(biāo)準(zhǔn)。

但標(biāo)注數(shù)據(jù)的預(yù)算顯然不如開(kāi)發(fā)模型來(lái)的多,所以標(biāo)簽問(wèn)題的改善也成了一種技術(shù)債。

為了找出ImageNet中剩下的錯(cuò)誤,研究人員使用了一個(gè)具有 30 億參數(shù)的標(biāo)準(zhǔn)ViT-3B模型(能夠達(dá)到 89.5% 的準(zhǔn)確度),其中JFT-3B作為預(yù)訓(xùn)練模型,并在ImageNet-1K上進(jìn)行了微調(diào)。

使用ImageNet2012_multilabel的數(shù)據(jù)集作為測(cè)試集的情況下,ViT-3B初步達(dá)到的準(zhǔn)確率為96.3%,其中模型明顯錯(cuò)誤預(yù)測(cè)了676個(gè)圖像,然后對(duì)這些例子進(jìn)行深入研究。

在重新標(biāo)注數(shù)據(jù)時(shí),作者沒(méi)有選擇眾包,而是組建了一個(gè)5名專(zhuān)家評(píng)審組成的小組進(jìn)行標(biāo)注,因?yàn)檫@類(lèi)標(biāo)注錯(cuò)誤對(duì)于非專(zhuān)業(yè)人員來(lái)說(shuō)很難識(shí)別出來(lái)。

比如圖(a),普通的標(biāo)注人員可能寫(xiě)一個(gè)「桌子」就過(guò)了,但實(shí)際上圖片里還有很多其他物體,比如屏幕、顯示器、馬克杯等等。

圖片

 圖(b)的主體為兩個(gè)人,但標(biāo)簽為picket fence(柵欄),顯然也是不完善的,可能的標(biāo)簽還有領(lǐng)結(jié)、制服等等。

圖(c)也是一個(gè)明顯的例子,如果只標(biāo)出來(lái)「非洲象」,那象牙可能就被忽視掉了。

圖(d)的標(biāo)簽為lakeshore(湖岸),但標(biāo)注成seashore(海濱)實(shí)際上也沒(méi)毛病。

為了增加標(biāo)注效率,研究者還開(kāi)發(fā)了一個(gè)專(zhuān)用的工具,能夠同時(shí)顯示模型預(yù)測(cè)的類(lèi)別、預(yù)測(cè)分?jǐn)?shù)、標(biāo)簽和圖像。

圖片

 在某些情況下,專(zhuān)家組之間可能還存在標(biāo)簽的爭(zhēng)議,這時(shí)候就把圖片放到谷歌搜索里來(lái)輔助標(biāo)注。

比如說(shuō)有一個(gè)例子里,模型的預(yù)測(cè)結(jié)果里包含出租車(chē),但圖片里面除了「一點(diǎn)黃色」之外根本沒(méi)有出租車(chē)的牌子。

這張圖片的標(biāo)注主要是通過(guò)谷歌圖片搜索發(fā)現(xiàn)圖像的背景是一個(gè)標(biāo)志性的橋梁,然后研究人員定位到了圖片所在的城市,對(duì)該城市中的出租車(chē)圖像進(jìn)行檢索后,認(rèn)可了這張圖片里確實(shí)包含出租車(chē)而非一輛普通的汽車(chē)。并且從車(chē)牌的設(shè)計(jì)上進(jìn)行對(duì)比,也驗(yàn)證了模型的預(yù)測(cè)是正確的。

在對(duì)研究的幾個(gè)階段發(fā)現(xiàn)的錯(cuò)誤進(jìn)行初步審查后,作者首先根據(jù)錯(cuò)誤的嚴(yán)重程度將其分為兩類(lèi):

1. 主要錯(cuò)誤(Major):人類(lèi)能夠理解標(biāo)簽的含義,并且模型的預(yù)測(cè)和標(biāo)簽完全不沾邊;

2. 次要錯(cuò)誤(Minor):標(biāo)簽的可能是錯(cuò)誤的或者不完善導(dǎo)致的預(yù)測(cè)錯(cuò)誤。需要專(zhuān)家審查數(shù)據(jù)后進(jìn)行糾正。

圖片

 對(duì)于ViT-3B模型犯的155個(gè)主要錯(cuò)誤,研究人員又找了其他三個(gè)模型共同預(yù)測(cè)來(lái)提高預(yù)測(cè)結(jié)果的多樣性。

四個(gè)模型全都預(yù)測(cè)失敗的主要錯(cuò)誤有68個(gè),然后分析了所有模型對(duì)這些例子的預(yù)測(cè),并驗(yàn)證了它們沒(méi)有一個(gè)是正確的新的多標(biāo)簽,即每個(gè)模型的預(yù)測(cè)結(jié)果確實(shí)都是主要錯(cuò)誤。

這68個(gè)例子有幾個(gè)共同特點(diǎn),首先就是不同方式訓(xùn)練的sota模型都在這個(gè)子集上犯了錯(cuò)誤、并且專(zhuān)家評(píng)審也認(rèn)為預(yù)測(cè)結(jié)果完全和正確不沾邊。

68張圖像的數(shù)據(jù)集也足夠小,方便后續(xù)研究者進(jìn)行人工評(píng)估,如果未來(lái)攻克了這68個(gè)例子,那CV模型也許會(huì)取得新突破。

通過(guò)分析數(shù)據(jù),研究者又將預(yù)測(cè)錯(cuò)誤劃分為四種類(lèi)型:

1. 細(xì)粒度錯(cuò)誤,其中預(yù)測(cè)的類(lèi)別跟真實(shí)標(biāo)簽相似,但不完全相同;

2. 具有詞表外(OOV)的細(xì)粒度,其中模型識(shí)別其類(lèi)別正確但在 ImageNet 中不存在該對(duì)象的類(lèi)別;

3. 虛假相關(guān)性,其中預(yù)測(cè)的標(biāo)簽是從圖像的上下文中讀取的;

4. 非原型,其中標(biāo)簽中的對(duì)象與預(yù)測(cè)標(biāo)簽相似、但并非完全一致。

圖片

 在審查了原始 676 個(gè)錯(cuò)誤后,研究人員發(fā)現(xiàn)其中298 個(gè)應(yīng)該是正確的,或者可以確定原始標(biāo)簽是錯(cuò)誤或有問(wèn)題的。

圖片

 總的來(lái)說(shuō),通過(guò)文章的研究結(jié)果可以得出四個(gè)結(jié)論:

1. 當(dāng)一個(gè)大型、高精度模型做出其他模型沒(méi)有的新預(yù)測(cè)時(shí),大概其中50%都是正確的新多標(biāo)簽;

2. 更高精度的模型在類(lèi)別和錯(cuò)誤嚴(yán)重性之間沒(méi)有表現(xiàn)出明顯的相關(guān)性;

3. 如今SOTA模型在人工評(píng)估的多標(biāo)簽子集上的表現(xiàn)在很大程度上匹配或超過(guò)了最佳專(zhuān)家人類(lèi)的表現(xiàn);

4. 有噪音的訓(xùn)練數(shù)據(jù)和未指定的類(lèi)別可能是限制有效衡量圖像分類(lèi)改進(jìn)的一個(gè)因素。

或許圖像標(biāo)簽問(wèn)題還得等待自然語(yǔ)言處理技術(shù)來(lái)解決?

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2020-01-16 15:13:40

AI預(yù)測(cè)天氣預(yù)報(bào)

2021-03-16 15:41:08

人臉識(shí)別人工智能數(shù)據(jù)

2014-07-21 09:18:26

谷歌Google Brai

2021-05-13 16:45:10

人工智能自然語(yǔ)言技術(shù)

2019-01-30 10:40:46

Google Brai人工智能機(jī)器學(xué)習(xí)

2023-04-21 15:49:13

谷歌DeepMind

2015-05-05 14:07:53

GMGC

2021-12-08 08:37:38

SQLIBM計(jì)算機(jī)

2017-11-03 13:30:41

深度學(xué)習(xí)TensorFlowGoogle Brai

2015-07-15 09:42:20

GoogleFacebook蘋(píng)果

2017-04-26 13:10:50

CNNImageNet深度學(xué)習(xí)

2025-06-30 09:37:39

2020-06-02 07:00:00

會(huì)話安全黑客攻擊

2013-01-29 09:43:33

JavaJVMJava社區(qū)

2013-01-18 17:20:45

2010-01-22 11:11:35

FirefoxGoogle

2013-02-22 10:07:30

GoogleGoogle GlasGoogle眼鏡

2024-12-02 08:20:00

2015-08-17 16:04:45

騰訊云熱門(mén)手游

2020-07-02 08:33:43

X86JVM項(xiàng)目
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: h视频在线免费 | 国产精品视频一区二区三区 | 九九久视频| 中文字幕亚洲一区二区三区 | 免费观看av网站 | avhd101在线成人播放 | 在线欧美一区二区 | 成人激情视频免费在线观看 | 99re视频| 国产激情视频 | 黄色视频a级毛片 | wwwxxx国产| 欧美区在线 | 欧美极品在线视频 | 91佛爷在线观看 | 91麻豆产精品久久久久久夏晴子 | 亚洲男女激情 | 黄页网址在线观看 | 久久综合九九 | 久久久成人免费一区二区 | 噜啊噜在线 | 婷婷综合久久 | 亚洲精品乱码久久久久久久久久 | 国产精品乱码一区二区三区 | 青青草一区 | 日本免费一区二区三区四区 | 亚洲精品99999| 国产精品欧美日韩 | 精品一区二区久久 | 国家一级黄色片 | 欧美激情一区二区三区 | 亚洲黄色成人网 | 九九综合 | 成人性生交大片免费看中文带字幕 | 精品videossex高潮汇编 | 日韩影音 | 综合国产第二页 | 久久精品在线播放 | 一区二区亚洲 | 欧美日韩国产不卡 | 国产精品美女在线观看 |