計算機視覺項目:10個高質量開源數據集發布
計算機視覺正在加速行業中幾乎每個領域的發展。 在計算機視覺技術的幫助下,組織正在徹底改變機器以前的工作方式。 現在,全球各地的大型技術都在利用計算機視覺技術領域,例如醫療保健和自動駕駛等。 為了建立強大的計算機視覺深度學習模型,必須在訓練階段應用高質量的數據集。

在本文中,我們將列出10個可用于Computer Vision項目的高質量數據集。
1 | CIFAR-10

CIFAR-10是Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集的一種流行的計算機視覺數據集。 該數據集用于對象識別,由10類60,000張32×32彩色圖像組成,每類6,000張圖像。 它分為五個訓練批次和一個測試批次,每個批次具有10,000張圖像,這意味著有50,000個訓練圖像和10,000個測試圖像。
2 | Cityscapes

Cityscapes是Computer Vision項目的開源大規模數據集,其中包含來自50個不同城市的街道場景中記錄的各種立體視頻序列。它包括5,000個幀的高質量像素級注釋,以及20,000個弱注釋幀的較大集合。 該數據集主要用于訓練深度神經網絡和評估視覺算法對語義城市場景理解的主要任務的性能。
3 | Fashion MNIST

Fashion-MNIST是用于Computer Vision的圖像數據集,包含60,000個示例的訓練集和10,000個示例的測試集。 在此數據集中,每個示例都是一個28×28灰度圖像,與來自10個類別的標簽關聯。 有一個基于Scikit-learn的自動基準測試系統,該系統涵蓋129個具有不同參數的分類器。
4 | ImageNet

ImageNet是計算機視覺項目最受歡迎的數據集之一,它提供了一個可訪問的圖像數據庫,該數據庫根據WordNet層次結構進行組織。WordNet中有超過100,000個同義詞集,其中ImageNet提供平均1,000個圖像來說明WordNet中的每個同義詞集。 它為WordNet層次結構中的大多數概念提供了數千萬個干凈排序的圖像。
5| IMDB-Wiki Dataset

IMDB-Wiki數據集是使用性別和年齡標簽進行訓練的最大的開放式人臉圖像數據集之一。此數據集中總共有523,051張面部圖像,其中從IMDB的20,284名名人和維基百科的62,328名名人獲得了460,723張面部圖像。
6 | Kinetics-700

Kinetics-700是YouTube視頻URL的大規模高質量數據集,其中包括各種以人為中心的動作。 數據集包括大約650,000個視頻剪輯,涵蓋700個人類動作類,每個動作類至少包含600個視頻剪輯。 在這里,每個剪輯持續約10秒鐘,并標有一個類別。
7 | MS Coco

COntext中的COCO或Common Objects是大規模的對象檢測,分割和字幕數據集。 數據集包含91個對象類型的照片,這些照片易于識別,并且在328k圖像中總共有250萬個帶標簽的實例。
8| MPII Human Pose Dataset

MPII Human Pose數據集用于評估關節式人體姿勢估計。 該數據集包含約25K圖像,其中包含超過4萬名帶注釋的人體關節的人。 在這里,每張圖片都是從YouTube視頻中提取的,并帶有未標注幀之前的an和an。 總體而言,數據集涵蓋410種人類活動,并且每個圖像都帶有活動標簽。
9| Open Images
此Open Images數據集是現有的最大的帶有對象位置注釋的數據集之一。 它由大約900萬幅圖像組成,這些圖像帶有圖像級標簽,對象邊界框,對象分割蒙版和視覺關系。 數據集包含190萬幅圖像上600個對象類別的1600萬個邊界框。
10| The 20BN-something-something Dataset V2

20BN-Something-Something數據集是大量帶有密集標簽的視頻剪輯的集合,這些視頻剪輯向人們展示了人類對日常對象執行的預定義基本動作。 它是由大量的人群工作人員創建的,它允許ML模型對物理世界中發生的基本動作有更細致的了解。 視頻總數包括220,847,其中168,913是訓練集,24,777是驗證集,27,157是測試集。
Model Play是面向全球開發者的AI模型資源平臺,內置多樣化AI模型,與鈦靈AIX(一款集計算機視覺與智能語音交互兩大核心功能為一體的人工智能硬件)結合,基于Google開源神經網絡架構及算法,構建自主遷移學習功能,無需寫代碼,通過選擇圖片、定義模型和類別名稱即可完成AI模型訓練。
