字節(jié)提出新一代數(shù)據(jù)集COCONut,比COCO粒度分割更密集
隨著人工智能的發(fā)展,語(yǔ)言模型和生成模型獲得了大量的成功并且在設(shè)計(jì)模型的過(guò)程中,模型的參數(shù)量也越來(lái)越大。對(duì)于細(xì)粒度理解任務(wù),模型參數(shù)量也同樣在增加。然而目前現(xiàn)有的數(shù)據(jù)集存在規(guī)模和精度的矛盾,例如 SA-1B 數(shù)據(jù)集中 99.1% 的 mask 都是機(jī)器生成的,但沒(méi)有賦予語(yǔ)義的標(biāo)簽,而其他一些公開(kāi)數(shù)據(jù)集也同樣存在精度問(wèn)題并且這些數(shù)據(jù)集的規(guī)模一般都比較小。
近期,字節(jié)跳動(dòng)提出了新一代細(xì)粒度理解的數(shù)據(jù)集,針對(duì)當(dāng)代深度學(xué)習(xí)模型的設(shè)計(jì)需求,給總量為 383K 的圖片進(jìn)行了全景分割的人工標(biāo)注,最后達(dá)到了 5.18M 張 mask,是至今最大規(guī)模的帶人工標(biāo)簽的全景分割理解數(shù)據(jù)集,命名為 COCONut。該成果已入選 CVPR2024。
- 論文鏈接:https://arxiv.org/abs/2404.08639
- 代碼和數(shù)據(jù)集鏈接: https://xdeng7.github.io/coconut.github.io/ ?
視頻展示了 COCONut 的單張圖片的 mask 密度以及語(yǔ)義類別的統(tǒng)計(jì),可以看出,數(shù)據(jù)集的語(yǔ)義豐富以及 mask 分割粒度精細(xì)。該數(shù)據(jù)集還支持多種理解任務(wù),例如全景分割,實(shí)例分割,語(yǔ)義分割,目標(biāo)檢測(cè),語(yǔ)義控制生成和開(kāi)放詞匯分割,在多項(xiàng)任務(wù)上,僅通過(guò)替換數(shù)據(jù)集就達(dá)到了明顯的性能提升。
標(biāo)注方法
通常只采用人工標(biāo)注是非常昂貴的,這也是目前現(xiàn)存的大多數(shù)公開(kāi)數(shù)據(jù)集規(guī)模上不去的一個(gè)重要原因。還有一些數(shù)據(jù)集直接使用模型生成的標(biāo)簽,但往往這種生成的標(biāo)簽對(duì)模型的訓(xùn)練不會(huì)有太大的提高,本文也驗(yàn)證了這一點(diǎn)。所以本文提出了一種新穎的標(biāo)注方式,結(jié)合人工的半自動(dòng)標(biāo)簽生成。既能保證數(shù)據(jù)標(biāo)注的精度又能實(shí)現(xiàn)人工勞動(dòng)力的節(jié)省成本,同時(shí)還能加速標(biāo)注過(guò)程。
標(biāo)注精度對(duì)比
研究者把 COCONut 和 COCO 在同一張圖上的標(biāo)注進(jìn)行對(duì)比。從下圖的對(duì)比可以看到本文提出的標(biāo)注方法達(dá)到了和純?nèi)斯び?Photoshop 標(biāo)注幾乎一致的精度,但是在標(biāo)注速度上提高了 10 倍以上。
COCONut 數(shù)據(jù)集詳情
和已有的 COCO 數(shù)據(jù)集相比,數(shù)據(jù)集各個(gè)類別的分布比較相近,但是在每張圖的 mask 總量上是超過(guò) COCO 數(shù)據(jù)集的,尤其是有大量單張圖片有超過(guò) 100 張 mask 的情況,由此說(shuō)明了 COCONut 的標(biāo)注更為精細(xì),粒度分割更密集。
實(shí)驗(yàn)驗(yàn)證
除了提出一個(gè)更好的訓(xùn)練集,研究者還發(fā)現(xiàn)現(xiàn)有的驗(yàn)證集不能很好的體現(xiàn)模型性能的提升,因此本文還提出了一個(gè)更加富有挑戰(zhàn)性的、可以反映模型的提升的測(cè)試集,命名為 COCONut-val. 從下表可以看到,僅替換數(shù)據(jù)集,更高精度的訓(xùn)練集可以帶來(lái)模型很大的提升,例如在全景分割上達(dá)到超過(guò) 4 個(gè)點(diǎn)的 PQ。然而當(dāng)訓(xùn)練集的規(guī)模增加了之后,可以發(fā)現(xiàn),用現(xiàn)有的測(cè)試集做測(cè)試并不能反映出模型的提升,而 COCONut-val 則能反映出模型在增加了訓(xùn)練集數(shù)據(jù)量之后仍然有明顯的提升。
下圖為驗(yàn)證集語(yǔ)義類別和 mask 密度的對(duì)比,可以看出新提出的驗(yàn)證集更具有挑戰(zhàn)性,更能反映模型的提升。
了解更多實(shí)驗(yàn)結(jié)果可參考原論文,團(tuán)隊(duì)后續(xù)將在 GitHub 主頁(yè)提供數(shù)據(jù)集和相應(yīng)的模型公開(kāi)下載。
字節(jié)跳動(dòng)智能創(chuàng)作團(tuán)隊(duì)
智能創(chuàng)作團(tuán)隊(duì)是字節(jié)跳動(dòng) AI & 多媒體技術(shù)團(tuán)隊(duì),覆蓋了計(jì)算機(jī)視覺(jué)、音視頻編輯、特效處理等技術(shù)領(lǐng)域,借助公司豐富的業(yè)務(wù)場(chǎng)景、基礎(chǔ)設(shè)施資源和技術(shù)協(xié)作氛圍,實(shí)現(xiàn)了前沿算法 - 工程系統(tǒng) - 產(chǎn)品全鏈路的閉環(huán),旨在以多種形式為公司內(nèi)部各業(yè)務(wù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動(dòng)體驗(yàn)與消費(fèi)的能力和行業(yè)解決方案。
目前,智能創(chuàng)作團(tuán)隊(duì)已通過(guò)字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái)火山引擎向企業(yè)開(kāi)放技術(shù)能力和服務(wù)。更多大模型算法相關(guān)崗位開(kāi)放中。
本文轉(zhuǎn)自機(jī)器之心 ,作者:機(jī)器之心
