成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

吳恩達:AI是時候從大數據轉向「小數據」了

人工智能
最近,吳恩達在接受IEEE Spectrum的一段專訪中,討論了人工智能領域下一個十年的風向,表達了“是時候從大數據轉向小數據、優質數據”的觀點。

AI大牛吳恩達不久前剛被檢測出新冠陽性,許多網友都向他表達了早日康復的祝愿。

如今,他的工作重心放在了他的Landing AI公司上。

這是一家專門面向制造業廠商數字化轉型的初創公司,創立目標就是幫助制造業公司更快速、輕松地構建和部署人工智能系統。

對于傳統企業來說,預訓練好的模型都是基于公開數據,實際上派不上用場。

但畢竟是傳統企業,上哪兒收集海量的特定數據來支撐訓練?

那Landing AI是如何克服的這個困難?

最近,吳恩達在接受IEEE Spectrum的一段專訪中,討論了人工智能領域下一個十年的風向,表達了“是時候從大數據轉向小數據、優質數據”的觀點。

或許我們能從中找到這個問題的答案。

以下整理自采訪原文,略有刪減。

IEEE Spectrum:得益于越來越大的模型和數據集,深度學習在過去十年間取得了巨大的進步。一些人認為這是一個不可持續發展的軌跡。你同意嗎?

吳:這確實是一個值得思考的問題。NLP領域已經有了基礎模型(foundation model),并正在繼續擴大規模。計算機視覺領域也有構建基礎模型的潛力,就是在視頻領域由于計算帶寬(算力)和處理成本的限制還有待開發。雖然擴展深度學習算法的引擎已經運行了大約15年,但它還有足夠的動力。不過,它只適用于某些問題,還有一系列場景需要小數據解決方案。

注:基礎模型是Percy Liang和吳在斯坦福大學的一些朋友創造的一個術語,指的是在非常大的數據集上訓練的巨大模型,這種模型可以針對特定的應用進行調整,例如GPT-3。

過去十年里,面向消費者的企業由于擁有大量用戶群(有時甚至高達數十億),因此獲得了非常大的數據集得以開展深度學習。這給它們帶來了不少經濟價值,但我發現這種法則不適用于其他行業。

IEEE Spectrum:有意思,你以前就是在這種公司工作。

吳:確實,不過十多年前,當我提議啟動谷歌大腦項目、利用谷歌的計算基礎設施建設大規模網絡時就引起了爭議。一位非常資深的人把我拉到一邊,警告我說,這會對我的職業生涯不利。我想他的意思是這個項目不能只注重擴大規模,應該把重點放在架構創新上。

我還記得當我和我的學生,發表第一篇倡導使用CUDA進行深度學習的論文時,另一位AI資深人士坐下來對我說:“CUDA編程非常復雜。作為一種編程范例,如果這么做的話工作量太大了。”

IEEE Spectrum:我想他們后來肯定都被說服了。

吳:是的。

現在當我與大家討論以數據為中心的人工智能(Data-centric AI)運動時,也會想到15年前與大家討論深度學習時的場景。這一年,許多人和我說“方向錯了”、“兩者之間似乎沒有什么新東西”。

IEEE Spectrum:你是如何定義以數據為中心的人工智能,為什么你認為它是一種運動(movement)?

吳:以數據為中心的AI是為構建成功AI系統所需數據的系統準則。對于AI系統來說,你必須用代碼實現一些算法,然后在你的數據集上進行訓練。過去十年里,主要的應用范例就是我們下載數據集,同時專注于改進代碼。這種模式給深度學習網絡帶來了顯著的改進,但其架構基本上表達的就是一個已解決的問題。因此,對于許多實際應用來說,現在更有效的方法是固定神經網絡結構,找到改進數據的方法。

而當我提出這個觀點時,有從業者說:“這事兒我們已經做了20年了。” 我想說的是,現在是時候把這件少數人憑直覺做的事情變成一門系統的事。

IEEE Spectrum:你前面提到,一些公司或機構只有少量數據可供使用。以數據為中心的人工智能如何幫助他們?

吳:像很多視覺模型都是用數百萬張圖像構建的,我也曾經花3.5億張圖像搭建了一個人臉識別系統。但這種模型在只有50張圖像的數據集上卻沒法運行。不過事實證明,如果你有50個非常好的數據,你也可以做出有價值的東西,比如缺陷檢查系統。在許多根本不存在巨型數據集的行業,我認為重點必須從大數據轉向優質數據。有50個經過深思熟慮的實例就足以向神經網絡解釋你想要它學會什么。

IEEE Spectrum:用50張圖像訓練一個模型的意思是在一個用大數據集訓練好的現有模型上對其進行微調嗎?還是說這是一個全新的模式,就從這個小數據集上學習?

吳:我來講一下Landing AI是做什么的吧。在給制造商提供瑕疵檢查服務時,我們一般就用帶有我們自己風格的RetinaNet。它是一個預訓練模型。話說過來,預訓練只是難題的一小部分,更大的難題是提供一個工具讓制造商能夠選擇正確的圖像集(用于微調),并用一致的方式對圖集進行標記。面對大數據集的應用時,我們的通常反應都是如果數據有噪音也沒關系,所有數據照單全收,算法會對其進行平均(average over)。但是,如果我們能夠開發出用來標記出數據不一致的地方的工具,為制造商提供一種非常有針對性的方法來提高數據質量,那這將是獲得高性能系統的更有效方法。

就比如你現在你有10000張圖像,其中30張屬于一個類別,但這30張的標簽不一致。我們要做的一件事就是構建工具來吸引你注意到這個特殊的數據子集,使你能夠快速重新對它們進行標記,從而提高模型性能。

IEEE Spectrum:像這樣生成高質量的數據集是否有助于消除數據偏見?

吳:非常有幫助。有偏見的數據是導致最終模型產生偏見的眾多因素之一。在NeurIPS會議上,Mary Gray的演講談到了以數據為中心的AI是這個問題的解決方案之一(并非全部)。

以數據為中心的AI給我們帶來的強大能力之一是構建(engineer)數據子集。想象一下,你訓練了一個機器學習模型,它的性能對于大多數數據集都還可以,但只有一個子集有偏差。要是僅僅為了提高該子集的性能就更改整個神經網絡架構,那是相當困難的。

但如果你能針對這個子集構建(engineer)出合適的數據,解決方式也就更有針對性。

IEEE Spectrum:構建(engineer)數據的確切意思是?

吳:在AI領域,數據清洗很重要,但目前都是靠很機械的方式。面對一個非常大的數據集時,這個工具可以快速地將你的注意力吸引到有噪音的數據子集上,針對該子集進行集中收集。

就像我曾經發現語音識別系統的性能很差,主要是背景中有汽車噪音。知道了這一點,我就可以再收集更多帶這種噪音背景的數據,而不是對所有內容都采取行動,省錢又省時。

IEEE Spectrum:使用合成數據怎么樣?這也是個好的解決方式嗎?

吳:合成數據也是Data-centric AI工具集中的一個重要工具。在NeurIPS研討會上,Anima Anandkumar做了一次涉及合成數據的精彩演講。我認為它僅僅只是一個為模型增加數據的預處理步驟。我希望能看到開發人員將生成合成數據作為迭代機器學習模型閉環的一部分。

IEEE Spectrum:你的意思是合成數據可以讓你在更多不同數據集上嘗試模型嗎?

吳:不止如此。假設你要檢測智能手機外殼上的瑕疵,包括劃痕、凹痕、材料變色等。如果你的訓練模型在這個檢測任務上總體表現良好,但就是在識別凹痕上表現不佳,那么就可以用合成數據生成更有針對性的數據來解決問題。

IEEE Spectrum:能和我們詳細說一下當一家公司找到Landing AI,比如要做視覺檢驗,你們會提供何種幫助?

吳:我們會要求他們將數據上傳到我們的平臺,用以數據為中心的人工智能方法向他們提供建議,并幫助他們標記數據。

Landing AI的重點是授權制造商自己做機器學習工作,我們的很多工作是確保軟件快速且好上手。在機器學習的迭代過程中,我們會為客戶提供建議,比如如何在平臺上訓練模型,如何以及何時改進數據標記來提高模型性能。

IEEE Spectrum:如果產品或照明條件什么的發生變化,這種模型能跟上嗎?

吳:所以說授權制造業客戶自己更正數據、重新訓練和更新模型非常重要。

在消費互聯網中,我們只需訓練少數機器學習模型就能服務10億用戶。在制造業中,有10000家制造商就要搭建10000個定制模型。挑戰是,你如何做到這點還不用雇傭10000名機器學習專家?

這個問題在其他行業比如醫療健康領域也存在。

擺脫這一困境的唯一辦法是開發出能夠讓客戶自己設計數據、表達專業領域知識的工具,讓他們自己構建模型。這也是Landing AI在計算機視覺領域中正在做的事兒。

IEEE Spectrum:最后還有什么想說的?

吳:在過去十年中,人工智能的最大轉變是向深度學習的轉變。我認為在這十年中,最大的轉變很可能是轉向以數據為中心的人工智能。隨著當今神經網絡架構的成熟,我認為對于許多實際應用而言,瓶頸將是我們能否有效地獲取讓模型運行良好所需的數據。

而以數據為中心的人工智能運動在整個社區擁有巨大的能量和動力。我希望更多的研究人員和開發人員能夠加入并致力于它。

責任編輯:未麗燕 來源: 量子位
相關推薦

2022-03-28 10:50:04

AI趨勢數據

2013-06-05 13:49:41

EclipseIntelliJ

2013-06-07 10:18:00

EclipseIntelliJ ID

2022-04-24 10:23:27

人工智能機器學習神經網絡

2024-01-17 16:25:02

生產數據數據孤島大數據分析

2017-09-25 15:54:11

AI應用和價值趨勢及算法

2023-12-13 16:28:02

2023-06-03 13:28:35

ChatGPTAItoken

2018-12-14 10:35:54

AI數據科技

2020-12-25 15:34:35

AI 數據人工智能

2013-11-29 14:39:05

2020-04-25 21:04:09

NoSQL數據庫大數據

2024-01-22 12:31:18

模型訓練

2018-02-02 12:56:58

2021-10-29 22:45:47

大數據算法技術

2022-02-17 14:41:45

AI資源模型

2013-03-20 10:31:14

大數據數據云服務

2022-02-25 14:22:46

攻擊安全網絡

2024-01-02 13:17:00

模型訓練

2016-08-12 00:20:22

大數據小數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美精品福利视频 | 国产网站在线免费观看 | 精品国产一区二区三区久久久蜜月 | 国产精品一区二区不卡 | 精品一区二区三区视频在线观看 | 成人精品国产 | 国产美女黄色片 | 国产欧美日韩一区 | 日本小电影在线 | 中文字幕在线一区 | 三级免费网 | 国产午夜精品一区二区三区在线观看 | 少妇午夜一级艳片欧美精品 | av在线一区二区三区 | 一级毛片在线视频 | 久久精品视频一区二区三区 | 69xxx免费| 国产欧美一区二区三区久久人妖 | 一区二区精品 | 国产一区二区三区视频 | 久久久精品一区二区 | 成人性生交大片免费看中文带字幕 | 看片网站在线 | 涩涩视频在线看 | 国产精品一区二区av | wwwxxx国产| 91视频网址 | 一区二区三区不卡视频 | 91中文字幕在线观看 | 狠狠的日 | 成人啊啊啊| 黄色一级毛片免费看 | 一区二区三区久久久 | 亚洲欧美在线一区 | 国产99久久精品一区二区永久免费 | 日韩欧美中文在线 | 欧美a区 | 91天堂网| 二区在线观看 | 在线观看三级av | 国产精品欧美精品 |