成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

適用于計(jì)算機(jī)視覺的九大開源數(shù)據(jù)集

譯文
人工智能
計(jì)算機(jī)視覺(CV)是人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域中最令人興奮的子領(lǐng)域之一。它是許多人工智能和機(jī)器學(xué)習(xí)管道的主要組成部分,它正在改變各行業(yè)領(lǐng)域,使組織能夠徹底改變機(jī)器和業(yè)務(wù)系統(tǒng)的工作方式。

[[420140]]

【51CTO.com快譯】使用開源數(shù)據(jù)集訓(xùn)練的計(jì)算機(jī)視覺模型

計(jì)算機(jī)視覺(CV)是人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域中最令人興奮的子領(lǐng)域之一。它是許多人工智能和機(jī)器學(xué)習(xí)管道的主要組成部分,它正在改變各行業(yè)領(lǐng)域,使組織能夠徹底改變機(jī)器和業(yè)務(wù)系統(tǒng)的工作方式。

從學(xué)術(shù)上來說,計(jì)算機(jī)視覺幾十年來一直是計(jì)算機(jī)科學(xué)的一個(gè)成熟領(lǐng)域,多年來,許多研究工作已經(jīng)進(jìn)入該領(lǐng)域以使其變得更加完善。然而,深度神經(jīng)網(wǎng)絡(luò)的使用最近徹底改變了該領(lǐng)域,并為其加速增長提供了新的動力。

計(jì)算機(jī)視覺有多種應(yīng)用領(lǐng)域,例如:

  • 自動駕駛。
  • 醫(yī)學(xué)影像分析和診斷。
  • 場景檢測和理解。
  • 自動生成圖像標(biāo)題。
  • 社交媒體上的照片/人臉標(biāo)簽。
  • 家庭安全。
  • 制造業(yè)和質(zhì)量控制中的缺陷識別。

本文將討論深度學(xué)習(xí)領(lǐng)域中使用的一些最流行和最有效的數(shù)據(jù)集,以訓(xùn)練先進(jìn)的機(jī)器學(xué)習(xí)系統(tǒng)以執(zhí)行計(jì)算機(jī)視覺任務(wù)。

如何選擇正確的開源數(shù)據(jù)集

對機(jī)器進(jìn)行圖像和視頻文件訓(xùn)練是一項(xiàng)非常復(fù)雜的數(shù)據(jù)密集型操作。單一圖像文件是一個(gè)多維、多兆字節(jié)的數(shù)字實(shí)體,而在整個(gè)“智能圖像分析”任務(wù)的場景中僅包含一小部分“洞察力”。

相比之下,一個(gè)大小相似的零售銷售數(shù)據(jù)表可以在計(jì)算硬件相同的情況下,對機(jī)器學(xué)習(xí)算法有更多的了解。在談?wù)摤F(xiàn)代計(jì)算機(jī)視覺管道所需的數(shù)據(jù)和計(jì)算規(guī)模時(shí),需要記住這一事實(shí)。

因此,在幾乎所有情況下,數(shù)百張甚至數(shù)千張圖像并不能為計(jì)算機(jī)視覺任務(wù)訓(xùn)練高質(zhì)量的機(jī)器學(xué)習(xí)模型。幾乎所有現(xiàn)代計(jì)算機(jī)視覺系統(tǒng)都使用復(fù)雜的深度學(xué)習(xí)模型架構(gòu),如果沒有提供足夠數(shù)量的精心挑選的訓(xùn)練示例(即標(biāo)記圖像),將出現(xiàn)欠擬合的現(xiàn)象。因此,健壯的、可推廣的、高生產(chǎn)質(zhì)量的深度學(xué)習(xí)系統(tǒng)通常需要數(shù)百萬張精心挑選的圖像進(jìn)行訓(xùn)練,這正在成為一種普遍的趨勢。

此外,對于視頻分析,考慮到從大量視頻流中獲得的視頻文件或幀的動態(tài)特性,選擇和編譯訓(xùn)練數(shù)據(jù)集的任務(wù)可能會更加復(fù)雜。

本文列出了一些最流行的圖片(由靜態(tài)圖像和視頻剪輯組成)。

計(jì)算機(jī)視覺模型的流行開源數(shù)據(jù)集

并非所有數(shù)據(jù)集都同樣適用于各種計(jì)算機(jī)視覺任務(wù)。這些常見的任務(wù)包括:

  • 圖像分類。
  • 對象檢測。
  • 對象分割。
  • 多對象注釋。
  • 圖像字幕。
  • 人體姿勢估計(jì)。
  • 視頻幀分析。

以下將介紹流行的開源數(shù)據(jù)集,其中涵蓋了大多數(shù)類別。

1.ImageNet(最著名)

ImageNet是一項(xiàng)持續(xù)進(jìn)行的研究工作,旨在為世界各地的研究人員提供易于訪問的圖像數(shù)據(jù)庫。它可能是全球最著名的圖像數(shù)據(jù)集,并被研究人員和學(xué)習(xí)者引用為黃金標(biāo)準(zhǔn)。

該項(xiàng)目的靈感來自圖像和視覺研究領(lǐng)域不斷增長的需求——對更多數(shù)據(jù)的需求。它是根據(jù)WordNet層次結(jié)構(gòu)組織的。WordNet中每個(gè)有意義的概念,可能由多個(gè)詞或短語描述,其名稱為“同義詞集”。WordNet中有10萬個(gè)以上同義詞集。同樣,ImageNet旨在提供平均1000張圖像來對每個(gè)同義詞集進(jìn)行說明。

ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)是一項(xiàng)全球年度競賽,旨在評估算法(由大學(xué)或企業(yè)研究小組的團(tuán)隊(duì)提交)以進(jìn)行大規(guī)模的對象檢測和圖像分類。其中一個(gè)主要的動機(jī)是允許研究人員比較更廣泛對象的檢測進(jìn)展——利用相當(dāng)昂貴的標(biāo)記工作。另一個(gè)動機(jī)是衡量計(jì)算機(jī)視覺在用于檢索和注釋的大規(guī)模圖像索引方面的進(jìn)展。這是機(jī)器學(xué)習(xí)領(lǐng)域最受關(guān)注的年度競賽之一。

2.CIFAR-10(初學(xué)者)

這是計(jì)算機(jī)視覺領(lǐng)域初學(xué)者常用于訓(xùn)練機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺算法的圖像集合。它也是機(jī)器學(xué)習(xí)研究中最受歡迎的數(shù)據(jù)集之一,用于快速比較算法,因?yàn)樗梢圆蹲教囟軜?gòu)的弱點(diǎn)和優(yōu)勢,而不會給訓(xùn)練和超參數(shù)調(diào)整過程帶來不合理的計(jì)算負(fù)擔(dān)。

它包含10個(gè)不同類別的6萬張32×32像素彩色圖像。這些類代表飛機(jī)、汽車、鳥類、貓、鹿、狗、青蛙、馬、輪船和卡車。

3.MegaFace和LFW(人臉識別)

野外標(biāo)記人臉(LFW)是一個(gè)人臉照片數(shù)據(jù)庫,旨在研究無約束人臉識別問題。它包含5,749位人物的13,233張圖像,是從網(wǎng)絡(luò)上抓取和檢測到的。作為額外的挑戰(zhàn),機(jī)器學(xué)習(xí)研究人員可以使用1,680位人物的圖片,這些人物在數(shù)據(jù)集中有兩張或更多不同的照片。因此,它是人臉驗(yàn)證的公共基準(zhǔn),也稱為配對匹配(至少需要同一個(gè)人的兩張圖像)。

MegaFace是一個(gè)大規(guī)模開源的人臉識別訓(xùn)練數(shù)據(jù)集,是商業(yè)人臉識別問題最重要的基準(zhǔn)之一。它包括672,057名人物的4,753,320張面孔,非常適合大型深度學(xué)習(xí)架構(gòu)訓(xùn)練。所有圖像均從Flickr(雅虎的數(shù)據(jù)集)獲得并獲得共享許可。

4.IMDB-Wiki(性別和年齡識別)

它是規(guī)模最大的開源人臉圖像數(shù)據(jù)集之一,帶有用于訓(xùn)練的性別和年齡標(biāo)簽。該數(shù)據(jù)集中共有523,051張人臉圖像,其中460,723張人臉圖像來自IMDB的20,284位名人和維基百科的62,328位名人。

5.MSCoco(對象檢測和分割)

Common Objectsin CONtext(COCO)是大規(guī)模對象檢測、分割和字幕數(shù)據(jù)集。該數(shù)據(jù)集包含91種易于識別的對象類型的照片,在32. 8萬張圖像中共有250萬個(gè)標(biāo)記實(shí)例。此外,它還為更復(fù)雜的計(jì)算機(jī)視覺任務(wù)提供資源,例如多對象標(biāo)記、分割掩碼注釋、圖像字幕和關(guān)鍵點(diǎn)檢測。它得到了直觀的API的良好支持,該API有助于在COCO中加載、解析和可視化注釋。API支持多種注釋格式。

6.MPII人體姿勢(姿勢估計(jì))

該數(shù)據(jù)集用于評估人體關(guān)節(jié)姿勢估計(jì)。它包括大約25,000張圖像,其中包含超過4萬名身體關(guān)節(jié)帶有注釋的人物。在這里,每張圖像都是從YouTube視頻中提取的,并提供前后未注釋的幀??偟膩碚f,數(shù)據(jù)集涵蓋了410項(xiàng)人類活動,每個(gè)圖像都提供了一個(gè)活動標(biāo)簽。

7.Flickr-30k(圖像字幕)

它是一個(gè)圖像字幕語料庫,由158,915個(gè)眾包字幕組成,描述了31,783張圖像。這是之前的Flickr 8k數(shù)據(jù)集的擴(kuò)展。新的圖像和字幕側(cè)重于參與日?;顒雍褪录娜宋铩?/p>

8.20BN-SOMETHING-SOMETHING(人類行為的視頻剪輯)

該數(shù)據(jù)集是大量密集標(biāo)記的視頻剪輯,顯示人類對日常物品執(zhí)行預(yù)定義的基本操作。它是由大量群組工作者創(chuàng)建的,它允許機(jī)器學(xué)習(xí)模型對物理世界中發(fā)生的基本動作進(jìn)行細(xì)粒度的理解。

以下是這一數(shù)據(jù)集中捕獲的常見人類活動的子集:

9.Barkley DeepDrive(用于自動駕駛汽車訓(xùn)練)

加州大學(xué)伯克利分校的伯克利DeepDrive數(shù)據(jù)集包含超過10萬個(gè)視頻序列,其中提供各種注釋,包括對象邊界框、可駕駛區(qū)域、圖像級標(biāo)記、車道標(biāo)記和全幀實(shí)例分割。此外,該數(shù)據(jù)集在表示各種地理、環(huán)境和天氣條件方面具有廣泛的多樣性。

這對于為自動駕駛汽車訓(xùn)練強(qiáng)大的模型非常有用,這樣自動駕駛系統(tǒng)就不會對不斷變化的道路和駕駛條件感到困惑。

數(shù)據(jù)集的正確硬件和基準(zhǔn)測試

毋庸置疑,只是擁有這些數(shù)據(jù)集不足以構(gòu)建高質(zhì)量的機(jī)器學(xué)習(xí)系統(tǒng)或業(yè)務(wù)解決方案。需要正確選擇數(shù)據(jù)集、訓(xùn)練硬件以及巧妙的調(diào)優(yōu)和基準(zhǔn)測試策略,才能為任何學(xué)術(shù)或商業(yè)問題獲得最佳解決方案。

這就是為什么高性能GPU幾乎總是與這些數(shù)據(jù)集配對以提供所需性能的原因。

GPU的開發(fā)(主要迎合視頻游戲行業(yè))使用數(shù)千個(gè)微型處理器進(jìn)行大規(guī)模并行計(jì)算。它們還具有大內(nèi)存帶寬來處理快速數(shù)據(jù)流(處理單元緩存到較慢的主內(nèi)存并返回),當(dāng)神經(jīng)網(wǎng)絡(luò)進(jìn)行大量訓(xùn)練時(shí),處理數(shù)據(jù)流需要進(jìn)行更多的計(jì)算。這使它們成為處理計(jì)算機(jī)視覺任務(wù)計(jì)算負(fù)載的理想硬件。

然而,市場上有很多GPU可供選擇,并且市場上已經(jīng)提供了一些很好的基準(zhǔn)策略,以在這方面指導(dǎo)潛在用戶。一個(gè)良好的基準(zhǔn)測試必須考慮多種類型,例如深度神經(jīng)網(wǎng)絡(luò)(DNN)架構(gòu)、GPU和廣泛使用的數(shù)據(jù)集。

例如,一篇優(yōu)秀文章考慮了以下內(nèi)容:

  • 架構(gòu):ResNet-152、ResNet-101、ResNet-50和ResNet-18。
  • GPU:EVGA RTX2080ti、技嘉RTX2080ti和NVIDIA TITAN RTX。
  • 數(shù)據(jù)集:ImageNet、CIFAR-100和CIFAR-10。

此外,必須考慮性能的多個(gè)維度才能獲得良好的基準(zhǔn)。

要考慮的GPU性能維度有三個(gè)主要指標(biāo):

(1)第二批時(shí)間:完成第二批訓(xùn)練的時(shí)間。這個(gè)數(shù)字衡量的是GPU運(yùn)行足夠長的時(shí)間來加強(qiáng)之前的性能。沒有考慮GPU的熱節(jié)流。

(2)平均批處理時(shí)間:ImageNet中1個(gè)歷元(epoch)或CIFAR中15個(gè)歷元(epoch)后的平均批處理時(shí)間??紤]了GPU的熱節(jié)流。

(3)同步平均批處理時(shí)間:ImageNet中1個(gè)epoch或CIFAR中15個(gè)epoch后的平均批處理時(shí)間,所有GPU同時(shí)運(yùn)行。這測量了所有GPU發(fā)出的熱量而導(dǎo)致系統(tǒng)中的熱節(jié)流效應(yīng)。

哪些開源數(shù)據(jù)集最適合計(jì)算機(jī)視覺模型?

本文討論了獲得高質(zhì)量、無噪聲、大規(guī)模數(shù)據(jù)集以訓(xùn)練復(fù)雜深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的必要性,這些模型在計(jì)算機(jī)視覺應(yīng)用中逐漸普及。

還給出了多個(gè)開源數(shù)據(jù)集的示例,這些數(shù)據(jù)集廣泛用于各種類型的計(jì)算機(jī)視覺任務(wù)——圖像分類、姿態(tài)估計(jì)、圖像字幕、自動駕駛、對象分割等。

最后,還討論了將這些數(shù)據(jù)集與適當(dāng)?shù)挠布突鶞?zhǔn)策略配對的必要性,以確保它們在商業(yè)和研發(fā)領(lǐng)域的最佳使用。

原文標(biāo)題:Open Source Datasets for Computer Vision,作者:Kevin Vu

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2022-03-21 09:25:50

Kubernetes開源DevSecOps

2020-03-23 08:00:00

開源數(shù)據(jù)集文本分類

2021-01-14 21:40:40

機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺圖像數(shù)據(jù)集

2018-06-13 09:00:00

2020-01-09 11:30:40

AI 數(shù)據(jù)人工智能

2019-10-22 11:11:16

大數(shù)據(jù)工具容器

2018-07-30 13:36:13

MacO開源應(yīng)用程序

2023-08-09 13:46:39

2022-05-17 08:00:00

人工智能社交媒體工具

2020-12-15 14:05:15

云計(jì)算

2018-11-12 11:50:10

開源發(fā)票工具Web

2020-11-05 09:39:32

Java技術(shù)開發(fā)

2020-10-28 11:26:58

計(jì)算機(jī)數(shù)據(jù) 視覺

2023-12-14 17:21:29

2020-05-13 09:22:51

Linux開源緩存工具

2024-10-17 10:51:33

2025-01-02 14:56:42

開源.NET開發(fā)

2025-01-03 00:28:37

2019-03-25 22:03:40

開源自然語言NLP

2019-09-10 15:06:04

大數(shù)據(jù)機(jī)器學(xué)習(xí)云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩在线免费视频 | 在线黄色网 | 欧美中文字幕一区 | 亚洲国产成人精品女人 | 日韩视频一区在线观看 | 国产2区| 成人一区二区三区在线 | 亚洲另类自拍 | 日韩欧美一二三区 | 天堂影院av | 四虎成人精品永久免费av九九 | 日韩欧美精品 | 日朝毛片 | 国产欧美精品一区二区三区 | 日韩欧美精品 | 黄色一级毛片免费看 | 国产乱码精品一区二区三区忘忧草 | 日韩欧美在线观看一区 | 久久久久久久99 | 久久久青草婷婷精品综合日韩 | 国产福利精品一区 | 伊伊综合网 | 日韩在线看片 | 韩国成人在线视频 | 91视频在线| 欧美在线小视频 | 欧美在线a| 一级免费毛片 | 欧产日产国产精品视频 | 日韩欧美二区 | 国产精品久久久久久久免费观看 | 国内精品视频在线 | 青青草在线播放 | 美女三区 | 99久久久久久 | 亚洲视频在线播放 | 国产精品久久久久久久久污网站 | 在线免费黄色小视频 | 国产精品一区二 | 99国产精品久久久 | 国产精品久久国产精品久久 |