移除ImageNet標(biāo)簽錯(cuò)誤,模型排名發(fā)生大變化
此前,ImageNet 因?yàn)榇嬖跇?biāo)簽錯(cuò)誤的問題而成為熱門話題,這個(gè)數(shù)字說出來你可能會(huì)大吃一驚,至少有十萬個(gè)標(biāo)簽是存在問題的。那些基于錯(cuò)誤標(biāo)簽做的研究,很可能要推翻重來一遍。
由此看來管理數(shù)據(jù)集質(zhì)量還是很重要的。
很多人會(huì)使用 ImageNet 數(shù)據(jù)集作為 benchmark,不過基于 ImageNet 預(yù)訓(xùn)練的模型,最終結(jié)果可能會(huì)因?yàn)閿?shù)據(jù)質(zhì)量而變化。
本文中,來自 Adansons 公司的工程師 Kenichi Higuchi 對(duì)《 Are we done with ImageNet? 》一文中的 ImageNet 數(shù)據(jù)集進(jìn)行重新研究,在去除錯(cuò)誤標(biāo)簽數(shù)據(jù)后,重新評(píng)估 torchvision 上發(fā)布的模型。
從 ImageNet 中刪除錯(cuò)誤數(shù)據(jù)并重新評(píng)估模型
本文將 ImageNet 中的標(biāo)簽錯(cuò)誤分為三類,如下所示。
(1) 標(biāo)注錯(cuò)誤的數(shù)據(jù)
(2) 對(duì)應(yīng)多個(gè)標(biāo)簽的數(shù)據(jù)
(3) 不屬于任何標(biāo)簽的數(shù)據(jù)
總結(jié)來看,錯(cuò)誤數(shù)據(jù)大約有 14000 多個(gè),考慮評(píng)估數(shù)據(jù)的數(shù)量為 50000,可以看出錯(cuò)誤數(shù)據(jù)占比極高。下圖是一些有代表性的錯(cuò)誤數(shù)據(jù)。
方法
在不重新訓(xùn)練模型的情況下,該研究通過只排除標(biāo)注錯(cuò)誤的數(shù)據(jù),也就是上述(1)類錯(cuò)誤數(shù)據(jù),以及從評(píng)估數(shù)據(jù)中排除所有錯(cuò)誤數(shù)據(jù),也就是 (1)-(3) 錯(cuò)誤數(shù)據(jù),來重新檢查模型的準(zhǔn)確率。
為了刪除錯(cuò)誤數(shù)據(jù),需要使用一個(gè)描述標(biāo)簽錯(cuò)誤信息的元數(shù)據(jù)文件。在這個(gè)元數(shù)據(jù)文件中,如果包含 (1)-(3) 類錯(cuò)誤,信息將在「correction」屬性中描述。
該研究使用一款名為 Adansons Base 的工具,Adansons Base 通過將數(shù)據(jù)集鏈接到元數(shù)據(jù)來過濾數(shù)據(jù)。這里測試了 10 個(gè)模型,如下所示。
10 個(gè)用于測試的圖像分類模型
結(jié)果
結(jié)果如下表所示(數(shù)值是以 % 為單位的精度,括號(hào)中的數(shù)字是排名)
10 個(gè)分類模型的結(jié)果
以 All Eval 數(shù)據(jù)為基線,排除錯(cuò)誤數(shù)據(jù)類型(1),準(zhǔn)確率平均提高 3.122 分;排除所有錯(cuò)誤數(shù)據(jù) (1)~(3) ,準(zhǔn)確率平均提高 11.743 分。
和預(yù)想的一樣,排除錯(cuò)誤數(shù)據(jù),準(zhǔn)確率全面提高,這一點(diǎn)毫無疑問,因?yàn)榕c干凈數(shù)據(jù)相比,存在錯(cuò)誤數(shù)據(jù)很容易出錯(cuò)。
當(dāng)在不排除錯(cuò)誤數(shù)據(jù)的情況下進(jìn)行評(píng)估,以及錯(cuò)誤數(shù)據(jù)(1)~(3) 都被排除時(shí),模型的準(zhǔn)確率排名發(fā)生了變化。
本文中,錯(cuò)誤數(shù)據(jù) (1) 有 3670 個(gè),占全部 50000 條數(shù)據(jù)的 7.34%,移除后準(zhǔn)確率平均提高了 3.22 點(diǎn)左右。當(dāng)移除錯(cuò)誤數(shù)據(jù)后,數(shù)據(jù)規(guī)模發(fā)生了變化,單純的比較準(zhǔn)確率可能存在偏差。
結(jié)論
盡管并未特別強(qiáng)調(diào),但是在做評(píng)估訓(xùn)練時(shí),使用準(zhǔn)確標(biāo)記的數(shù)據(jù)很重要。
在比較模型之間的準(zhǔn)確率時(shí),以前的研究可能得出錯(cuò)誤的結(jié)論。所以應(yīng)該先對(duì)數(shù)據(jù)進(jìn)行評(píng)估,但這真的可以用來評(píng)估模型的性能嗎?
許多使用深度學(xué)習(xí)的模型往往不屑于對(duì)數(shù)據(jù)進(jìn)行反思,而是渴望通過模型的表現(xiàn)性能來提高準(zhǔn)確性和其他評(píng)估指標(biāo),即使是評(píng)價(jià)數(shù)據(jù)中包含錯(cuò)誤數(shù)據(jù),也沒進(jìn)行準(zhǔn)確的處理。
當(dāng)創(chuàng)建自有的數(shù)據(jù)集時(shí),比如在業(yè)務(wù)中應(yīng)用 AI 時(shí),創(chuàng)建高質(zhì)量的數(shù)據(jù)集直接關(guān)系到提高 AI 的準(zhǔn)確率和可靠性。本文的實(shí)驗(yàn)結(jié)果表明,僅僅提高數(shù)據(jù)質(zhì)量就可以將準(zhǔn)確率提高約 10 個(gè)百分點(diǎn),這表明在開發(fā) AI 系統(tǒng)時(shí)不僅要改進(jìn)模型,還要改善數(shù)據(jù)集。
然而,保證數(shù)據(jù)集的質(zhì)量并不容易。雖然增加元數(shù)據(jù)的數(shù)量以正確評(píng)估 AI 模型和數(shù)據(jù)的質(zhì)量很重要,但管理起來可能很麻煩,尤其是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)。