1億組圖文對,填補中文開源多模態數據集空白
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
華為諾亞方舟實驗室開源了第一個億級中文多模態數據集:悟空。
這個新發布的數據集不僅規模大——包含1億組圖文對,而且質量也很高。
所有圖像都是篩選過的,長寬都在200個像素以上,比例從1/3-3不等。
而和圖像對應的文本也根據其語言、長度和頻率進行了過濾,隱私和敏感詞也都考慮在內。
例如這一組數據集中的例子,內容還相當新,像進門掃碼登記,社區疫苗接種的防疫內容都有。
這一波可以說是填上了大規模中文多模態數據集的缺口。
悟空數據集
自一年前OpenAI的CLIP+Dall·E組合開啟新一輪多模態學習浪潮以來,算上后續的ALIGN和FILIP,都在視覺語言預訓練(VLP)領域表現優異。
世界范圍內的成功離不開大規模數據集的支持,但中文開源數據方面,有是有,規模大的不多。
有了“悟空”數據集之后,就可以支持更多預訓練模型用于下游任務。
數據集之外,團隊還附贈了一款基本模型,參考了流行的文本圖像雙編碼器架構:
其中視覺標記和文本標記作為輸入。然后,將兩種模式的輸入標記連接起來,并用位置嵌入來顯示標記位置。
有意思的一點是,這里的圖像編碼器是從英文數據集上訓練的,上面預加載并鎖定了從外部模型中訓練的英文數據集中的權重。
但是仍然可以中文文本進行跨模態預訓練,在下游任務中也表現得很好。
除此之外,華為諾亞還提供了不同下游任務的基準測試。
例如零樣本圖像分類,下圖中除了WukongViT-500M,其他的悟空模型變體都是在這個一億的數據庫上訓練的:
再比如在圖像檢索文本和文本檢索圖像這兩個任務上,在五個不同的數據集上的測試結果如下:
而這也證明了將在英語數據集上預訓練的圖像編碼器應用于中文多模態預訓練的良好效果。未來也可能會探索更多的解決方案,利用悟空數據集訓練多語言跨模態模型。
目前悟空數據集在官網即可下載(鏈接在文末),趕快用起來吧~
數據集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html
論文地址:
https://arxiv.org/abs/2202.06767