采訪吳恩達：接下來的十年，人工智能會轉向哪？

2022-04-24 10:23:27

人工智能

吳恩達大佬又發(fā)言了，作為人工智能（AI）和機器學習領域國際最權威的學者之一，最近一年里，他一直在提“以數據為中心的AI”，希望將大家的目光從以模型為中心轉向以數據為中心。

在接受IEEE Spectrum的采訪中，他談到了對基礎模型、大數據、小數據以及數據工程的一些感悟，并給出了發(fā)起“以數據為中心的AI”運動的原因。

“過去十年，代碼—神經網絡的架構已經非常成熟。保持神經網絡架構固定，尋找改進數據的方法，才會更有效率。”

吳恩達表示，他這種以數據為中心的思想受到了很多的批評，就和當年他發(fā)起Google brain項目，支持構建大型神經網絡行動，時候受到的批評時一樣：想法不新鮮，方向錯誤。據吳教授介紹，批評者中不乏行業(yè)資深人士。

關于小數據，吳教授認為，它同樣能夠有威力：“只要擁有50個好數據（examples），就足以向神經網絡解釋你想讓它學習什么。”

以下是采訪原文，AI科技評論做了不改變原意的編譯。

IEEE：過去十年，深度學習的成功來源于大數據和大模型，但有人認為這是一條不可持續(xù)的路徑，您同意這個觀點么？

吳恩達: 好問題。

我們已經在自然語言處理（NLP）領域看到了基礎模型（foundation models）的威力。說實話，我對更大的NLP模型，以及在計算機視覺（CV）中構建基礎模型感到興奮。視頻數據中有很多信息可以利用，但由于計算性能以及視頻數據處理成本的限制，還無法建立相關的基礎模型。

大數據與大模型作為深度學習引擎已經成功運行了15年，它仍然具有活力。話雖如此，但在某些場景下，我們也看到，大數據并不適用，“小數據”才是更好的解決方案。

IEEE：您提到的CV基礎模型是什么意思？

吳恩達: 是指規(guī)模非常大，并在大數據上訓練的模型，使用的時候可以為特定的應用進行微調。是我和斯坦福的朋友創(chuàng)建的術語，例如GPT-3就是NLP領域的基礎模型。基礎模型為開發(fā)機器學習應用提供了新的范式，有很大的前景，但同時也面臨挑戰(zhàn)：如何確保合理、公平、無偏？這些挑戰(zhàn)隨著越來越多的人在基礎模型上構建應用，會越來越明顯。

IEEE：為CV創(chuàng)建基礎模型的契機在哪？

吳恩達：目前還是存在可擴展性難題。相比NLP，CV需要的計算能力更強大。如果能生產出比現在高10倍性能的處理器，就能夠非常輕松建立包含10倍視頻數據的基礎視覺模型。目前，已經出現了在CV中開發(fā)基礎模型的跡象。

說到這，我提一嘴：過去十年，深度學習的成功更多的發(fā)生在面向消費的公司，這些公司特點是擁有龐大的用戶數據。因此，在其他行業(yè)，深度學習的“規(guī)模范式”并不適用。

IEEE：您這么一說我想起來了，您早期是在一家面向消費者的公司，擁有數百萬用戶。

吳恩達：十年前，當我發(fā)起 Google Brain 項目，并使用 Google的計算基礎設施構建“大”神經網絡的時候，引起了很多爭議。當時有位行業(yè)資深人士，“悄悄”告訴我：啟動Google Brain 項目不利于我的職業(yè)生涯，我不應該只關注大規(guī)模，而應該專注于架構創(chuàng)新。

到現在我還記著，我和我的學生發(fā)表的第一篇NeurIPS workshop論文，提倡使用CUDA。但另一位行業(yè)資深人勸我：CUDA 編程太復雜了，將它作為一種編程范式，工作量太大了。我想辦法說服他，但我失敗了。

IEEE：我想現在他們都被說服了。

吳恩達：我想是的。

在過去一年，我一直在討論以數據為中心的AI，我遇到了和10年前一樣的評價：“沒有新意”，“這是個錯誤的方向”。

IEEE：您如何定義“以數據為中心的AI”，為什么會稱它為一場運動？

吳恩達：“以數據為中心的AI”是一個系統的學科，旨在將關注點放在構建AI系統所需的數據上。對于AI系統，用代碼實現算法，然后在數據集上訓練是非常必要的。過去十年，人們一直在遵循“下載數據集，改進代碼”這一范式，多虧了這種范式，深度學習獲得了巨大的成功。

但對許多應用程序來說，代碼—神經網絡架構，已經基本解決，不會成為大的難點。因此保持神經網絡架構固定，尋找改進數據的方法，才會更有效率。

當我最開始提這件事的時候，也有許多人舉手贊成：我們已經按照“套路”做了20年，一直在憑直覺做事情，是時候把它變成一門系統的工程學科了。

“以數據為中心的AI”遠比一家公司或一群研究人員要大得多。當我和朋友在NeurIPS上組織了一個“以數據為中心的AI”研討會時候，我對出席的作者和演講者的數量感到非常高興。

IEEE：大多數公司只要少量數據，那么“以數據為中心的AI”如何幫助他們？

吳恩達：我曾用3.5億張圖像構建了一個人臉識別系統，你或許也經常聽到用數百萬張圖像構建視覺系統的故事。但這些規(guī)模產物下的架構，是無法只用50張圖片構建系統的。

事實證明。如果你只有50張高質量的圖片，仍然可以產生非常有價值的東西，例如缺陷系統檢測。在許多行業(yè)，大數據集并不存在，因此，我認為目前必須將重點“從大數據轉移到高質量數據”。其實，只要擁有50個好數據（examples），就足以向神經網絡解釋你想讓它學習什么。

吳恩達：使用50張圖片訓練什么樣的模型？是微調大模型，還是全新的模型？

吳恩達：讓我講一下Landing AI的工作。在為制造商做視覺檢查時，我們經常使用訓練模型，RetinaNet，而預訓練只是其中的一小部分。其中更難的問題是提供工具，使制造商能夠挑選并以相同的方式標記出正確的用于微調的圖像集。這是一個非常實際的問題，無論是在視覺、NLP，還是語音領域，甚至連標記人員也不愿意手動標記。

在使用大數據時，如果數據參差不齊，常見的處理方式是獲取大量的數據，然后用算法進行平均處理。但是，如果能夠開發(fā)出一些工具標記數據的不同之處，并提供非常具有針對性的方法改善數據的一致性，這將是一個獲得高性能系統的更有效的方法。

例如，如果你有10,000張圖片，其中每30張圖片一組，這30張圖片的標記是不一致的。我們所要做的事情之一就是建立工具，能夠讓你關注到這些不一致的地方。然后，你就可以非常迅速地重新標記這些圖像，使其更加一致，這樣就可以使性能得到提高。

IEEE：您認為如果能夠在訓練前更好地設計數據，那這種對高質量數據的關注是否能幫助解決數據集的偏差問題？

吳恩達：很有可能。有很多研究人員已經指出，有偏差的數據是導致系統出現偏差的眾多因素之一。其實，在設計數據方面也已經有了很多努力。NeurIPS研討會上，Olga Russakovsky就這個問題做了一個很棒的演講。

我也非常喜歡Mary Gray在會上的演講，其中提到了“以數據為中心的AI”是解決方案的一部分，但并不是解決方案的全部。像Datasheets for Datasets這樣的新工具似乎也是其中的重要部分。

“以數據為中心的AI”賦予我們的強大工具之一是：對數據的單個子集進行工程化的能力。想象一下，一個經過訓練的機器學習系統在大部分數據集上的表現還不錯，卻只在數據的一個子集上產生了偏差。這時候，如果要為了提高該子集的性能，而改變整個神經網絡架構，這是相當困難的。但是，如果能僅對數據的一個子集進行設計，那么就可以更有針對性的解決這個問題。

IEEE：您說的數據工程具體來講是什么意思？

吳恩達：在人工智能領域，數據清洗很重要，但數據清洗的方式往往需要人工手動解決。在計算機視覺中，有人可能會通過Jupyter notebook將圖像可視化，來發(fā)現并修復問題。

但我對那些可以處理很大數據集的工具感興趣。即使在標記很嘈雜的情況下，這些工具也能快速有效地將你的注意力吸引到數據的單個子集上，或者快速將你的注意力引向100個分組中的一個組中，在那里收集更多數據會更有幫助。收集更多的數據往往是有幫助的，但如果所有工作都要收集大量數據，可能會非常昂貴。

例如，我有次發(fā)現，當背景中有汽車噪音時，有一個語音識別系統的表現會很差。了解了這一點，我就可以在汽車噪音的背景下收集更多的數據。而不是所有的工作都要收集更多的數據，那樣處理起來會非常昂貴且費時。

IEEE：那使用合成數據會是一個好的解決方案嗎？

吳恩達：我認為合成數據是“以數據為中心的AI”工具箱中的一個重要工具。在NeurIPS研討會上，Anima Anandkumar做了一個關于合成數據的精彩演講。我認為合成數據的重要用途，不僅僅表現在預處理中增加學習算法數據集。我希望看到更多的工具，讓開發(fā)者使用合成數據生成成為機器學習迭代開發(fā)閉環(huán)中的一部分。

IEEE：您的意思是合成數據可以讓你在更多的數據集上嘗試模型嗎？

吳恩達：并非如此。比方說，智能手機上有許多不同類型的缺陷，如果要檢測智能手機外殼的缺陷，那可能會是劃痕、凹痕、坑痕、材料變色或者其它類型的瑕疵。若你訓練了模型，然后通過誤差分析發(fā)現總體上它的表現很好，但在坑痕上表現得很差，那么合成數據的生成就可以讓你以更有針對性地解決這個問題。你可以只為坑痕類別生成更多的數據。

IEEE：您可以舉例具體說明嗎？若一家公司找到Landing AI，并說他們在視覺檢查方面有問題時，您將如何說服他們？您又將給出怎樣的解決方案呢？

吳恩達：合成數據生成是一個非常強大的工具，但我通常會先嘗試許多更簡單的工具。比如說用數據增強來改善標簽的一致性，或者只是要求廠家收集更多的數據。

當客戶找到我們時，我們通常會先就他們的檢測問題進行交談，并查看一些圖像，以驗證該問題在計算機視覺方面是否可行。假若可行，我們會要求他們將數據上傳到LandingLens平臺。我們通常根據“以數據為中心的AI”方法向他們提供建議，并幫助他們對數據進行標記。

Landing AI關注的重點之一是讓制造企業(yè)自己做機器學習的工作。我們的很多工作都是為了軟件的便捷使用。通過對機器學習的開發(fā)迭代，我們?yōu)榭蛻籼峁┝巳绾卧谄脚_上訓練模型，以及如何改進數據標記問題來提高模型的性能等很多建議。我們的訓練和軟件在此過程中會一直發(fā)揮作用，直到將訓練好的模型部署到工廠的邊緣設備上。

IEEE：那您如何應對不斷變化的需求？如果產品發(fā)生變化或是工廠的照明條件發(fā)生變化，在這樣的情況下，模型能適應嗎？

吳恩達：這要因制造商而異。在很多情況下都有數據偏移，但也有一些制造商已經在同一生產線上運行了20年，幾乎沒有什么變化，所以在未來5年內他們也不期望發(fā)生變化，環(huán)境穩(wěn)定事情就變得更容易了。對于其他制造商，在出現很大的數據偏移問題時我們也會提供工具進行標記。我發(fā)現使制造業(yè)的客戶能夠自主糾正數據、重新訓練和更新模型真的很重要。比如現在是美國的凌晨3點，一旦出現變化，我希望他們能夠自行立即調整學習算法，以維持運營。

在消費類軟件互聯網中，我們可以訓練少數機器學習模型來為10億用戶服務。而在制造業(yè)，你可能有10,000 制造商定制10,000 個人工智能模型。所面臨的挑戰(zhàn)是，Landing AI 在不雇用10,000名機器學習專家的情況下，如何做到這一點？

IEEE：所以為了提高質量，必須授權用戶自己進行模型訓練？

吳恩達：是的，完全正確！這是一個全行業(yè)的AI問題，不僅僅是在制造業(yè)。例如在醫(yī)療領域，每家醫(yī)院電子病歷的格式略有不同，如何訓練定制自己的AI模型？期望每家醫(yī)院的IT人員重新發(fā)明神經網絡架構是不現實的。因此，必須構建工具，通過為用戶提供工具來設計數據和表達他們的領域知識，從而使他們能夠構建自己的模型。

IEEE：您還有什么需要讀者了解的么？

吳恩達：過去十年，人工智能最大的轉變是深度學習，而接下來的十年，我認為會轉向以數據為中心。隨著神經網絡架構的成熟，對于許多實際應用來說，瓶頸將會存在于“如何獲取、開發(fā)所需要的數據”。以數據為中心的AI在社區(qū)擁有巨大的能量和潛力，我希望能有更多的研究人員加入！

責任編輯：龐桂玉來源： Python開發(fā)者

人工智能機器學習神經網絡

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看