成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

采訪吳恩達:接下來的十年,人工智能會轉向哪?

人工智能
吳恩達大佬又發(fā)言了,作為人工智能(AI)和機器學習領域國際最權威的學者之一,最近一年里,他一直在提“以數據為中心的AI”,希望將大家的目光從以模型為中心轉向以數據為中心。

在接受IEEE Spectrum的采訪中,他談到了對基礎模型、大數據、小數據以及數據工程的一些感悟,并給出了發(fā)起“以數據為中心的AI”運動的原因。

“過去十年,代碼—神經網絡的架構已經非常成熟。保持神經網絡架構固定,尋找改進數據的方法,才會更有效率。”

吳恩達表示,他這種以數據為中心的思想受到了很多的批評,就和當年他發(fā)起Google brain項目,支持構建大型神經網絡行動,時候受到的批評時一樣:想法不新鮮,方向錯誤。據吳教授介紹,批評者中不乏行業(yè)資深人士。

關于小數據,吳教授認為,它同樣能夠有威力:“只要擁有50個好數據(examples),就足以向神經網絡解釋你想讓它學習什么。”

以下是采訪原文,AI科技評論做了不改變原意的編譯。

IEEE:過去十年,深度學習的成功來源于大數據和大模型,但有人認為這是一條不可持續(xù)的路徑,您同意這個觀點么?

吳恩達: 好問題。

我們已經在自然語言處理(NLP)領域看到了基礎模型(foundation models)的威力。說實話,我對更大的NLP模型,以及在計算機視覺(CV)中構建基礎模型感到興奮。視頻數據中有很多信息可以利用,但由于計算性能以及視頻數據處理成本的限制,還無法建立相關的基礎模型。

大數據與大模型作為深度學習引擎已經成功運行了15年,它仍然具有活力。話雖如此,但在某些場景下,我們也看到,大數據并不適用,“小數據”才是更好的解決方案。

IEEE:您提到的CV基礎模型是什么意思?

吳恩達: 是指規(guī)模非常大,并在大數據上訓練的模型,使用的時候可以為特定的應用進行微調。是我和斯坦福的朋友創(chuàng)建的術語,例如GPT-3就是NLP領域的基礎模型。基礎模型為開發(fā)機器學習應用提供了新的范式,有很大的前景,但同時也面臨挑戰(zhàn):如何確保合理、公平、無偏?這些挑戰(zhàn)隨著越來越多的人在基礎模型上構建應用,會越來越明顯。

IEEE:為CV創(chuàng)建基礎模型的契機在哪?

吳恩達:目前還是存在可擴展性難題。相比NLP,CV需要的計算能力更強大。如果能生產出比現在高10倍性能的處理器,就能夠非常輕松建立包含10倍視頻數據的基礎視覺模型。目前,已經出現了在CV中開發(fā)基礎模型的跡象。

說到這,我提一嘴:過去十年,深度學習的成功更多的發(fā)生在面向消費的公司,這些公司特點是擁有龐大的用戶數據。因此,在其他行業(yè),深度學習的“規(guī)模范式”并不適用。

IEEE:您這么一說我想起來了,您早期是在一家面向消費者的公司,擁有數百萬用戶。

吳恩達:十年前,當我發(fā)起 Google Brain 項目,并使用 Google的計算基礎設施構建“大”神經網絡的時候,引起了很多爭議。當時有位行業(yè)資深人士,“悄悄”告訴我:啟動Google Brain 項目不利于我的職業(yè)生涯,我不應該只關注大規(guī)模,而應該專注于架構創(chuàng)新。

到現在我還記著,我和我的學生發(fā)表的第一篇NeurIPS  workshop論文,提倡使用CUDA。但另一位行業(yè)資深人勸我:CUDA 編程太復雜了,將它作為一種編程范式,工作量太大了。我想辦法說服他,但我失敗了。

IEEE:我想現在他們都被說服了。

吳恩達:我想是的。

在過去一年,我一直在討論以數據為中心的AI,我遇到了和10年前一樣的評價:“沒有新意”,“這是個錯誤的方向”。

IEEE:您如何定義“以數據為中心的AI”,為什么會稱它為一場運動?

吳恩達:“以數據為中心的AI”是一個系統的學科,旨在將關注點放在構建AI系統所需的數據上。對于AI系統,用代碼實現算法,然后在數據集上訓練是非常必要的。過去十年,人們一直在遵循“下載數據集,改進代碼”這一范式,多虧了這種范式,深度學習獲得了巨大的成功。

但對許多應用程序來說,代碼—神經網絡架構,已經基本解決,不會成為大的難點。因此保持神經網絡架構固定,尋找改進數據的方法,才會更有效率。

當我最開始提這件事的時候,也有許多人舉手贊成:我們已經按照“套路”做了20年,一直在憑直覺做事情,是時候把它變成一門系統的工程學科了。

“以數據為中心的AI”遠比一家公司或一群研究人員要大得多。當我和朋友在NeurIPS上組織了一個“以數據為中心的AI”研討會時候,我對出席的作者和演講者的數量感到非常高興。

IEEE:大多數公司只要少量數據,那么“以數據為中心的AI”如何幫助他們?

吳恩達:我曾用3.5億張圖像構建了一個人臉識別系統,你或許也經常聽到用數百萬張圖像構建視覺系統的故事。但這些規(guī)模產物下的架構,是無法只用50張圖片構建系統的。

事實證明。如果你只有50張高質量的圖片,仍然可以產生非常有價值的東西,例如缺陷系統檢測。在許多行業(yè),大數據集并不存在,因此,我認為目前必須將重點“從大數據轉移到高質量數據”。其實,只要擁有50個好數據(examples),就足以向神經網絡解釋你想讓它學習什么。

吳恩達:使用50張圖片訓練什么樣的模型?是微調大模型,還是全新的模型?

吳恩達:讓我講一下Landing AI的工作。在為制造商做視覺檢查時,我們經常使用訓練模型,RetinaNet,而預訓練只是其中的一小部分。其中更難的問題是提供工具,使制造商能夠挑選并以相同的方式標記出正確的用于微調的圖像集。這是一個非常實際的問題,無論是在視覺、NLP,還是語音領域,甚至連標記人員也不愿意手動標記。

在使用大數據時,如果數據參差不齊,常見的處理方式是獲取大量的數據,然后用算法進行平均處理。但是,如果能夠開發(fā)出一些工具標記數據的不同之處,并提供非常具有針對性的方法改善數據的一致性,這將是一個獲得高性能系統的更有效的方法。

例如,如果你有10,000張圖片,其中每30張圖片一組,這30張圖片的標記是不一致的。我們所要做的事情之一就是建立工具,能夠讓你關注到這些不一致的地方。然后,你就可以非常迅速地重新標記這些圖像,使其更加一致,這樣就可以使性能得到提高。

IEEE:您認為如果能夠在訓練前更好地設計數據,那這種對高質量數據的關注是否能幫助解決數據集的偏差問題?

吳恩達:很有可能。有很多研究人員已經指出,有偏差的數據是導致系統出現偏差的眾多因素之一。其實,在設計數據方面也已經有了很多努力。NeurIPS研討會上,Olga Russakovsky就這個問題做了一個很棒的演講。

我也非常喜歡Mary Gray在會上的演講,其中提到了“以數據為中心的AI”是解決方案的一部分,但并不是解決方案的全部。像Datasheets for Datasets這樣的新工具似乎也是其中的重要部分。

“以數據為中心的AI”賦予我們的強大工具之一是:對數據的單個子集進行工程化的能力。想象一下,一個經過訓練的機器學習系統在大部分數據集上的表現還不錯,卻只在數據的一個子集上產生了偏差。這時候,如果要為了提高該子集的性能,而改變整個神經網絡架構,這是相當困難的。但是,如果能僅對數據的一個子集進行設計,那么就可以更有針對性的解決這個問題。

IEEE:您說的數據工程具體來講是什么意思?

吳恩達:在人工智能領域,數據清洗很重要,但數據清洗的方式往往需要人工手動解決。在計算機視覺中,有人可能會通過Jupyter notebook將圖像可視化,來發(fā)現并修復問題。

但我對那些可以處理很大數據集的工具感興趣。即使在標記很嘈雜的情況下,這些工具也能快速有效地將你的注意力吸引到數據的單個子集上,或者快速將你的注意力引向100個分組中的一個組中,在那里收集更多數據會更有幫助。收集更多的數據往往是有幫助的,但如果所有工作都要收集大量數據,可能會非常昂貴。

例如,我有次發(fā)現,當背景中有汽車噪音時,有一個語音識別系統的表現會很差。了解了這一點,我就可以在汽車噪音的背景下收集更多的數據。而不是所有的工作都要收集更多的數據,那樣處理起來會非常昂貴且費時。

IEEE:那使用合成數據會是一個好的解決方案嗎?

吳恩達:我認為合成數據是“以數據為中心的AI”工具箱中的一個重要工具。在NeurIPS研討會上,Anima Anandkumar做了一個關于合成數據的精彩演講。我認為合成數據的重要用途,不僅僅表現在預處理中增加學習算法數據集。我希望看到更多的工具,讓開發(fā)者使用合成數據生成成為機器學習迭代開發(fā)閉環(huán)中的一部分。

IEEE:您的意思是合成數據可以讓你在更多的數據集上嘗試模型嗎?

吳恩達:并非如此。比方說,智能手機上有許多不同類型的缺陷,如果要檢測智能手機外殼的缺陷,那可能會是劃痕、凹痕、坑痕、材料變色或者其它類型的瑕疵。若你訓練了模型,然后通過誤差分析發(fā)現總體上它的表現很好,但在坑痕上表現得很差,那么合成數據的生成就可以讓你以更有針對性地解決這個問題。你可以只為坑痕類別生成更多的數據。

IEEE:您可以舉例具體說明嗎?若一家公司找到Landing AI,并說他們在視覺檢查方面有問題時,您將如何說服他們?您又將給出怎樣的解決方案呢?

吳恩達:合成數據生成是一個非常強大的工具,但我通常會先嘗試許多更簡單的工具。比如說用數據增強來改善標簽的一致性,或者只是要求廠家收集更多的數據。

當客戶找到我們時,我們通常會先就他們的檢測問題進行交談,并查看一些圖像,以驗證該問題在計算機視覺方面是否可行。假若可行,我們會要求他們將數據上傳到LandingLens平臺。我們通常根據“以數據為中心的AI”方法向他們提供建議,并幫助他們對數據進行標記。

Landing AI關注的重點之一是讓制造企業(yè)自己做機器學習的工作。我們的很多工作都是為了軟件的便捷使用。通過對機器學習的開發(fā)迭代,我們?yōu)榭蛻籼峁┝巳绾卧谄脚_上訓練模型,以及如何改進數據標記問題來提高模型的性能等很多建議。我們的訓練和軟件在此過程中會一直發(fā)揮作用,直到將訓練好的模型部署到工廠的邊緣設備上。

IEEE:那您如何應對不斷變化的需求?如果產品發(fā)生變化或是工廠的照明條件發(fā)生變化,在這樣的情況下,模型能適應嗎?

吳恩達:這要因制造商而異。在很多情況下都有數據偏移,但也有一些制造商已經在同一生產線上運行了20年,幾乎沒有什么變化,所以在未來5年內他們也不期望發(fā)生變化,環(huán)境穩(wěn)定事情就變得更容易了。對于其他制造商,在出現很大的數據偏移問題時我們也會提供工具進行標記。我發(fā)現使制造業(yè)的客戶能夠自主糾正數據、重新訓練和更新模型真的很重要。比如現在是美國的凌晨3點,一旦出現變化,我希望他們能夠自行立即調整學習算法,以維持運營。

在消費類軟件互聯網中,我們可以訓練少數機器學習模型來為10億用戶服務。而在制造業(yè),你可能有10,000 制造商定制10,000 個人工智能模型。所面臨的挑戰(zhàn)是,Landing AI 在不雇用10,000名機器學習專家的情況下,如何做到這一點?

IEEE:所以為了提高質量,必須授權用戶自己進行模型訓練?

吳恩達:是的,完全正確!這是一個全行業(yè)的AI問題,不僅僅是在制造業(yè)。例如在醫(yī)療領域,每家醫(yī)院電子病歷的格式略有不同,如何訓練定制自己的AI模型?期望每家醫(yī)院的IT人員重新發(fā)明神經網絡架構是不現實的。因此,必須構建工具,通過為用戶提供工具來設計數據和表達他們的領域知識,從而使他們能夠構建自己的模型。

IEEE:您還有什么需要讀者了解的么?

吳恩達:過去十年,人工智能最大的轉變是深度學習,而接下來的十年,我認為會轉向以數據為中心。隨著神經網絡架構的成熟,對于許多實際應用來說,瓶頸將會存在于“如何獲取、開發(fā)所需要的數據”。以數據為中心的AI在社區(qū)擁有巨大的能量和潛力,我希望能有更多的研究人員加入!

責任編輯:龐桂玉 來源: Python開發(fā)者
相關推薦

2022-02-13 17:27:59

吳恩達AI小數據

2013-08-30 14:57:31

2024-01-02 13:17:00

模型訓練

2020-02-20 09:37:55

人工智AI經濟

2022-03-28 10:50:04

AI趨勢數據

2020-02-07 09:49:23

職場企業(yè)疫情

2023-03-27 23:40:01

人工智能web開發(fā)一

2017-03-22 13:34:42

離職百度吳恩達

2019-01-28 20:30:38

人工智能機器人無人駕駛

2020-08-25 10:41:02

TikTok程序禁令

2014-08-06 14:09:43

2023-06-19 19:32:18

AI人工智能

2020-03-29 08:03:06

人工智能AI自動化

2024-09-05 10:09:04

2018-02-02 12:56:58

2025-01-08 13:30:00

2014-08-06 11:03:48

編程語言

2021-12-30 14:37:23

人工智能AI

2021-01-26 14:07:25

比特幣加密貨幣區(qū)塊鏈

2017-10-19 19:23:27

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区欧美 | 日本中文字幕在线观看 | 亚洲视频欧美视频 | 午夜视频免费在线 | 国产精品18久久久 | 亚洲国产精品一区 | 在线成人免费视频 | 91精品国产综合久久久久久 | 玖玖视频免费 | 精品久久久久久久久久久久 | 一级网站 | 自拍偷拍在线视频 | 久久精品99| 成人午夜在线 | 91在线精品视频 | 久久亚洲国产 | 亚洲精品亚洲人成人网 | 在线黄av | 久久久久国产 | 亚州毛片| 成人久久18免费网站图片 | 久草成人| 亚洲精品一区二区三区蜜桃久 | 做a视频在线观看 | 亚洲黄色在线免费观看 | 久久精品中文 | 国产日韩欧美综合 | 久久在视频 | 欧美日韩91 | 天堂网中文字幕在线观看 | 色橹橹欧美在线观看视频高清 | 久久精品视频播放 | 日本在线看片 | 美女黄色在线观看 | 在线一级片 | 精品一区av| 偷拍自拍在线观看 | 免费成人高清 | 久久99精品久久久久久噜噜 | 国产一区二区三区www | 精品国产视频 |