成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據管理已成為人工智能發展的第一大瓶頸

人工智能
基礎設施只有在缺失、不足或損壞時才需要我們的關注。而在計算機視覺領域,基礎設施——或者更確切地說,它所缺少的東西——是目前許多人所關心的。

對于基礎設施而言,真正偉大的標志是被它飛行容易被忽視。其表現得越好,我們考慮的就越少。例如,移動基礎設施只有在我們發現自己難以連接時,它的重要性才會浮現在我們的腦海中。正如當我們在一條嶄新的、剛剛鋪好路面的高速公路上行駛時,我們很少考慮路面,因為它靜靜地從我們的車輪下駛過。另一方面,一條養護不善的高速公路,我們遇到的每一個坑洼、草皮和崎嶇不平的路面,都會讓我們想起它的存在。

基礎設施只有在缺失、不足或損壞時才需要我們的關注。而在計算機視覺領域,基礎設施——或者更確切地說,它所缺少的東西——是目前許多人所關心的。

計算設定了基礎設施的標準

支撐每個AI/ML項目(包括計算機視覺)的是三個基本的開發支柱——數據、算法/模型和計算。在這三大支柱中,計算是迄今為止擁有最強大和最牢固基礎設施的一個。 憑借數十年的專注企業投資和開發,云計算已成為整個企業 IT 環境中 IT 基礎設施的黃金標準——計算機視覺也不例外。

在“基礎設施即服務”模式下,近 20 年來,開發人員一直享受按需、即付即用的方式訪問不斷擴大的計算能力管道。 在此期間, 它通過顯著提高敏捷性、成本效率、可擴展性等,徹底改變了企業 IT。隨著專用機器學習 GPU 的出現,可以肯定地說,計算機視覺基礎設施堆棧的這一部分是生機勃勃的。如果我們希望看到計算機視覺和 AI 充分發揮其潛力,明智的做法是使用計算作為 CV 基礎設施堆棧其余部分所基于的模型。

模型驅動開發的沿襲和局限性

直到最近,算法和模型開發一直是計算機視覺和人工智能發展的驅動力。在研究和商業開發方面,團隊辛勤工作多年,測試、修補和逐步改進 AI/ML 模型,并在Kaggle等開源社區分享他們的進步。通過集中精力在算法開發和建模上,計算機視覺和人工智能領域在新千年的前二十年取得了長足的進步。

然而,近年來,這種進展已經放緩,因為以模型為中心的優化違背了收益遞減規律。此外,以模型為中心的方法有幾個限制。例如,你不能使用相同的數據進行訓練,然后再對模型進行訓練。在數據清理、模型驗證和訓練方面,以模型為中心的方法還需要更多的體力勞動,這可能會占用寶貴的時間和資源來完成更具創新性的創收任務。

如今,通過Hugging Face等社區,CV 團隊可以免費和開放地訪問大量復雜的大型算法、模型和架構,每個都支持不同的核心 CV 能力——從對象識別和面部地標識別到姿勢估計和特征匹配。這些資產已經變得與人們想象的一樣接近“現成”的解決方案——為計算機視覺和人工智能團隊提供現成的白板,以針對任何數量的專業任務和用例進行訓練。

就像手眼協調這樣的基本人類能力可以應用于各種不同的技能并進行訓練——從打乒乓球到投球——這些現代 ML 算法也可以被訓練來執行一個范圍的具體應用。然而,雖然人類通過多年的實踐和汗水變得專業化,但機器通過數據訓練做到了這一點。

以數據為中心的人工智能和大數據瓶頸

這促使許多人工智能領域的領軍人物呼吁進入深度學習發展的新時代——在這個時代,進步的主要引擎是數據。就在幾年前,吳恩達(Andrew Ng)等人宣布以數據為中心是AI發展的方向。在這短暫的時間里,該行業蓬勃發展。在短短幾年時間里,涌現了大量計算機視覺的新穎商業應用和用例,涵蓋了廣泛的行業——從機器人和AR/VR,到汽車制造和家庭安全。

最近,我們使用以數據為中心的方法對汽車上的手握方向盤檢測進行了研究。我們的實驗表明,通過使用這種方法和合成數據,我們能夠識別并生成訓練數據集中缺乏的特定邊緣情況。

數據管理已成為人工智能發展的第一大瓶頸 | 觀點

Datagen 為手握方向盤測試生成合成的圖像(圖片由來源:Datagen 提供)

雖然計算機視覺行業對數據議論紛紛,但并不是所有的議論都是狂熱的。盡管該領域已經確定了數據是前進的道路,但在前進的道路上還有許多障礙和陷阱,其中許多已經讓CV團隊步履蹣跚。最近一項針對美國計算機視覺專業人士的調查顯示,這一領域飽受長時間項目延誤、非標準化流程和資源短缺的困擾——所有這些都源于數據。在同一項調查中, 99% 的受訪者 表示,至少有一個CV項目因為訓練數據不足而被無限期取消。

即使是迄今為止避免了項目被取消的1%的幸運兒,也無法避免項目延遲。在調查中,每個受訪者都報告說,由于訓練數據不充分或不足,他們經歷了重大的項目延誤,其中80%的人報告延誤持續了3個月或更長時間。最終,基礎設施的目的是一種效用——促進、加速或傳達。在一個嚴重延誤只是做生意的一部分的世界里,很明顯缺少一些重要的基礎設施。

傳統訓練數據挑戰基礎設施

然而,與計算和算法不同,AI/ML 開發的第三個支柱并不適合基礎設施化——尤其是在計算機視覺領域,在該領域,數據量大、雜亂無章,而且收集和管理時間和資源都非常密集。雖然有許多標記的、可在線免費獲得的視覺訓練數據數據庫(例如現在著名的 ImageNet 數據庫),但事實證明,它們本身不足以作為商業 CV 開發中訓練數據的來源。

這是因為,與通過設計概括的模型不同,訓練數據就其本質而言是特定于應用的。數據是將給定模型的一個應用與另一個應用區分開來的東西,因此不僅對于特定任務,而且對于執行該任務的環境或上下文必須是唯一的。與可以以光速生成和訪問的計算能力不同,傳統的視覺數據必須由人類創建或收集(通過在現場拍攝照片或在互聯網上搜索合適的圖像),然后經過精心清理和由人工標記(這是一個容易出現人為錯誤、不一致和偏見的過程)。

這就提出了一個問題,“我們如何才能制作既適用于特定應用易于商品化(即快速、廉價和多功能)的可視化數據?” 盡管這兩種品質似乎相互矛盾,但潛在的解決方案已經出現;作為調和這兩種基本但看似不相容的品質的一種方式,它顯示出巨大的希望。

合成數據和完整 CV 堆棧的路徑

數據管理已成為人工智能發展的第一大瓶頸 | 觀點

計算機視覺(CV)是現代人工智能的領先領域之一

制作具有特定應用且大規模節省時間和資源的可視化訓練數據的唯一方法是使用合成數據。對于那些不熟悉這個概念的人來說,合成數據是人為生成的信息,旨在忠實地代表一些現實世界的對等物。就視覺合成數據而言,這意味著以靜態圖像或視頻形式的逼真的計算機生成的3D圖像(CGI)。

為了應對數據中心時代出現的許多問題,一個新興的行業已經開始圍繞合成數據生成形成——一個不斷壯大的生態系統,由中小型初創公司提供各種解決方案,利用合成數據來解決上面列出的一系列痛點。

這些解決方案中最有前途的解決方案使用 AI/ML 算法生成逼真的 3D 圖像,并為每個數據點自動生成相關的地面實況(即元數據)。因此,合成數據消除了通常長達數月的手動標記和注釋過程,同時也消除了人為錯誤和偏見的可能性。

在我們的論文(在 NeurIPS 2021 上發表)中,使用合成數據發現面部地標檢測中的群體偏差,我們發現要分析經過訓練的模型性能并確定其弱點,必須留出一部分數據進行測試。測試集必須足夠大,以檢測關于目標人群中所有相關子組的統計顯著偏差。這一要求可能難以滿足,尤其是在數據密集型應用中。

我們建議通過生成合成測試集來克服這一困難。我們使用人臉標志檢測任務來驗證我們的提議,方法是顯示在真實數據集上觀察到的所有偏差也可以在精心設計的合成數據集上看到。這表明合成測試集可以有效地檢測模型的弱點并克服真實測試集在數量或多樣性方面的限制。

如今,初創公司正在向企業 CV 團隊提供成熟的自助合成數據生成平臺,以減輕偏見并允許擴展數據采集。這些平臺允許企業 CV 團隊在計量、按需的基礎上生成特定于用例的訓練數據——彌合使傳統數據不適用于基礎設施化的特異性和規模之間的差距。

計算機視覺所謂的“數據管理員”的新希望

不可否認,這對于計算機視覺領域來說是一個激動人心的時刻。但是,就像任何其他不斷變化的領域一樣,這也是一個充滿挑戰的時代。杰出的人才和才華橫溢的頭腦涌入充滿想法和熱情的領域,卻發現自己因缺乏足夠的數據管道而受阻。該領域深陷低效率的泥潭,以至于今天的數據科學家被稱為三分之一的組織已經在與技能差距作斗爭的領域,我們不能浪費寶貴的人力資源。

合成數據為真正的訓練數據基礎設施打開了大門——有一天,它可能只需要打開水龍頭喝一杯水或提供計算就可以了。對于世界上的數據管理員來說,這肯定是一種受歡迎的茶點。

責任編輯:姜華 來源: 千家網
相關推薦

2023-08-28 14:07:44

人工智能AI

2012-05-21 15:28:01

Chrome瀏覽器

2011-03-08 08:47:30

AndroidiOS黑莓

2020-10-09 10:05:00

智能

2013-04-27 10:40:11

大數據全球技術峰會大數據CIO

2012-08-09 09:30:50

瀏覽器Chrome

2012-06-05 09:55:29

Chrome發展史

2023-06-01 16:47:59

2024-08-06 13:56:39

2023-09-28 11:32:58

2022-07-08 17:08:55

人工智能外賣深度學習

2020-12-23 06:07:54

人工智能AI深度學習

2014-03-31 15:08:23

機器學習大數據

2023-06-07 07:02:17

2024-05-10 12:52:01

2023-03-14 10:19:14

AIML數據管理

2024-02-28 14:45:39

人工智能數據管理AI

2022-06-13 18:55:45

人工智能數據管理數據科學家

2018-02-07 12:13:13

云通信

2018-05-29 15:31:31

JavaPython編程語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄免费观看视频 | 亚洲精久 | 奇米av | 日韩欧美亚洲一区 | 久久久久国产精品www | 国产精品一区二区三 | 一区二区三区在线 | 日韩欧美专区 | 午夜99 | 亚洲精品中文字幕在线观看 | 成人在线观| 中文字幕日韩一区二区 | 亚洲欧洲中文 | 欧美一区在线视频 | 黄色一级毛片 | 久久国产精品免费一区二区三区 | 天天操网| 亚洲欧美在线一区 | 成人免费视频观看视频 | 国产精品一区二区无线 | 激情一区二区三区 | 毛片视频观看 | 国产999精品久久久久久 | 日韩视频在线免费观看 | 人妖一区| 免费毛片网站 | 日日噜噜噜夜夜爽爽狠狠视频97 | 国产成人99久久亚洲综合精品 | 日本网站免费观看 | 国产69久久精品成人看动漫 | 黄网站涩免费蜜桃网站 | 一级午夜aaa免费看三区 | 日韩精品成人免费观看视频 | 亚洲精品3 | 狠狠亚洲 | 日韩在线欧美 | 五月婷亚洲 | 国产精品国产馆在线真实露脸 | 免费一区 | av高清| 色播久久|