年終收藏!吳恩達(dá)盤點2020年度AI熱門事件
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。
昨日,吳恩達(dá)在圣誕節(jié)之際回顧了2020年AI的一些重大發(fā)展,包括AI應(yīng)對新冠疫情、數(shù)據(jù)集存在種族偏見、對抗虛假信息算法、AlphaFold預(yù)測蛋白質(zhì)三維結(jié)構(gòu)、1750億參數(shù)的GPT-3出現(xiàn)等等。
吳恩達(dá)寄語:
親愛的朋友們,在過去的十年中,每年我都會飛往新加坡或香港,與我的母親一起慶祝她的12月22日的生日。今年,我們則是通過Zoom線上慶生。 盡管距離遙遠(yuǎn),但我仍然感到很高興,我的家人們可以從美國,新加坡,香港,香港和新西蘭一起線上聚會,并演唱同步性很差的“Happy Birthday To You”。
我希望我也可以和大家一起在Zoom通話,以祝大家節(jié)日快樂,新年快樂!
節(jié)假日期間,我經(jīng)常想一想重要的人,回顧他們?yōu)槲一蛩怂龅氖拢⒛乇硎疚覍λ麄兊母兄x。 這使我感到與他們的聯(lián)系更加緊密。
我覺得在我們遠(yuǎn)離社交的假期中思考這一點非常有價值:誰是您生活中最重要的人,您可能出于什么原因要感謝他們?
無論是面對面的還是在線的,我都希望您能找到屬于自己的方式——在這個假期里培養(yǎng)于最重要的人之間的關(guān)系。
Keep learning!
2020年回顧
凡是過往 皆為序章
在過去一年,突如其來的傳染性冠狀病毒破壞了人們的正常生活,它所導(dǎo)致的社會裂痕也威脅到了我們的共同利益。
在這一年期間,有大量的機(jī)器學(xué)習(xí)工程師參與其中,設(shè)計了用于新冠肺炎(Covid-19)診斷和治療的工具、建立了識別仇恨言論和虛假信息的模型,并指出和強(qiáng)調(diào)了整個AI社區(qū)偏見的存在。
但是事情也有輕松的一面:這一年里可以將睡衣一鍵轉(zhuǎn)換成西裝的在家辦公工具、GPT-3語言模型、在AI輔助藝術(shù)和表演方面的引人入勝的實驗。
接下來請就讓我們一起探討過去一年我們的艱辛和輝煌。
應(yīng)對新冠疫情
AI加快了科學(xué)家對冠狀病毒疫苗的搜尋,全球的機(jī)器學(xué)習(xí)研究人員爭先恐后地利用AI技術(shù)來對抗冠狀病毒。例如:
1、巴黎和戛納市在公交車站、公共汽車和市場中使用計算機(jī)視覺評估法規(guī)的遵守情況。
2、多哥政府訓(xùn)練AI模型以識別衛(wèi)星圖像中的貧困地區(qū),并精準(zhǔn)分配救濟(jì)金給最需要的人。
3、聊天機(jī)器人提供了合成的虛擬朋友,供被疫情封鎖的人們聊天和調(diào)情。
4、視頻會議公司為在線辦公提供AI模型,以過濾背景噪音,并將睡衣變成虛擬的商務(wù)正裝。
5、中國研究機(jī)構(gòu)合作開發(fā)了可在CT掃描中檢測Covid-19的AI模型,其準(zhǔn)確度超過90%。 該模型已在七個國家/地區(qū)部署,代碼下載量超過300萬次。
6、美國生物技術(shù)公司Moderna,其疫苗于12月份獲得美國食品藥品監(jiān)督管理局的批準(zhǔn),它使用機(jī)器學(xué)習(xí)來優(yōu)化mRNA序列以轉(zhuǎn)化為可以測試的分子。
此外,AI在治療Covid-19過程中也發(fā)揮了重要作用。例如,某非營利組織使用半監(jiān)督深度學(xué)習(xí)平臺篩選了14000種候選抗病毒藥物,該系統(tǒng)驗證了有望用于動物試驗的四種化合物。
我的立場:AI不是萬能藥,但這種新型、高傳染性冠狀病毒的問世已經(jīng)成為人類利用AI對抗傳染病能力的有力試驗。
Deepfake偽造“一切”
當(dāng)生成對抗網(wǎng)絡(luò)滲透到文化、社會和科學(xué)領(lǐng)域時,它們正悄悄地在網(wǎng)絡(luò)中充斥著無底洞的合成圖像。
如我們所見,Deepfake出現(xiàn)在了主流娛樂活動、商業(yè)廣告、政治活動,甚至出現(xiàn)在紀(jì)錄片中,它被用來替換當(dāng)事人的真實面貌以提供隱私保護(hù)。
起初,圖像生成器在線前端的大肆使用并沒有引起人們的注意,直到2019年,一張“ This Person Does Not Exis”的逼真合成人像在網(wǎng)上盛傳,具有幽默感的程序員們受到啟發(fā)開始利用生成式對抗網(wǎng)絡(luò)(GAN)模仿現(xiàn)實世界的細(xì)節(jié),如下:
1、經(jīng)過訓(xùn)練的Google Earth 可以使“This City Does Not Exist”產(chǎn)生大大小小定居點的鳥瞰圖。
2、“This Horse Does Not Exist” 可以生成各種各樣的姿勢、品種和形態(tài)的馬。
3、 “This Pizza Does Not Exist”,與真實的披薩相比,可能會缺少一些奶酪和醬汁的光澤感。
4、生成的不存在的中國山水畫,欺騙了眾多藝術(shù)愛好者。
論文鏈接:https://arxiv.org/pdf/2011.05552.pdf
更多信息:GAN特刊包括Deepfake檢測,吳恩達(dá)對GAN發(fā)明人Lan Goodfellow的獨家訪談等。
https://blog.deeplearning.ai/blog/the-batch-gan-special-issue-ian-goodfellow-for-real-detecting-fakes-including-minorities-synthesizing-training-data-applying-virtual-make-up
數(shù)據(jù)集存在種族偏見
深度學(xué)習(xí)的基本數(shù)據(jù)集開始受到廣泛關(guān)注。
由于數(shù)據(jù)集的編譯、標(biāo)記和使用方式的不同,導(dǎo)致其在模型訓(xùn)練過程中會對社會邊緣化群體產(chǎn)生偏見。研究人員的審查促進(jìn)了AI的改革,同時也加深了人們對AI所隱含的社會偏見的認(rèn)識。今年涉及的典型案例包括:
1、知名計算機(jī)視覺數(shù)據(jù)集ImageNet被迫下架。ImageNet的創(chuàng)建者李飛飛及其同事對數(shù)據(jù)集進(jìn)行了重新梳理,并刪除了WordNet詞匯數(shù)據(jù)庫帶來的種族主義、性別歧視和其他貶義標(biāo)簽。
2、一項研究發(fā)現(xiàn),即使使用未經(jīng)標(biāo)記的ImageNet數(shù)據(jù)進(jìn)行訓(xùn)練,其模型也可能由于數(shù)據(jù)多樣性不足而引起偏差。
3、麻省理工學(xué)院計算機(jī)科學(xué)與人工智能實驗室撤回了Tiny Images數(shù)據(jù)集,原因是有外部研究人員發(fā)現(xiàn)該數(shù)據(jù)庫充斥著性暗示、種族歧視等大量不良標(biāo)簽。
4、用于訓(xùn)練StyleGAN的數(shù)據(jù)集FlickrFaces-HQ(FFHQ)同樣缺乏足夠的多樣性。基于StyleGAN模型訓(xùn)練的PULSE算法將美國黑人總統(tǒng)巴拉克·奧巴馬(Barack Obama)的肖像畫變成了白人。
(PULSE將提高低分辨率照片轉(zhuǎn)化為高分辨率的圖像)
在PULSE事件出現(xiàn)后,F(xiàn)acebook首席科學(xué)家Yann LeCun和當(dāng)時Google AI倫理負(fù)責(zé)人Timnit Gebru之間展開了一場辯論,爭論的焦點在于:機(jī)器學(xué)習(xí)中的社會偏見是出自AI數(shù)據(jù)集,還是AI系統(tǒng)?
LeCun的立場是:模型在訓(xùn)練“存在偏見的數(shù)據(jù)集”之前不存在偏見,也就是模型本身不存在偏見,而且有偏見的數(shù)據(jù)集是可以修改的。 Gebru則表示:正如我們在信中所說的,這種偏見是在社會差異的背景下產(chǎn)生的,要消除AI系統(tǒng)的偏見,必須解決整個領(lǐng)域的差異。隨后,在關(guān)于偏見的進(jìn)一步分歧中,Gebru和Google分道揚(yáng)鑣。
我的立場:確保數(shù)據(jù)集中的偏見在任務(wù)開始時被刪除,這項重要的工作才剛剛開始。
更多信息:過去一年中有關(guān)減少技術(shù)偏見的研究報告。
https://blog.deeplearning.ai/blog/the-batch-ais-progress-problem-recognizing-masked-faces-mapping-underwater-ecosystems-augmenting-feature
對抗虛假信息算法
全球新冠疫情和有爭議的美國大選掀起了一場虛假信息風(fēng)暴,大型AI科技公司均受到了影響。
面對來自公眾日益增加的壓力——阻止煽動性謊言,F(xiàn)acebook、Google的YouTube部門以及Twitter在爭相更新其推薦引擎。據(jù)了解,紀(jì)錄片Netflix對他們進(jìn)行了嚴(yán)厲的痛斥;美國國會議員對他們展開了調(diào)查;民意測驗顯示,他們已經(jīng)失去了大多數(shù)美國人的信任。
這幾家公司嘗試通過各種算法和策略解決虛假信息問題,例如:
1、在發(fā)現(xiàn)了數(shù)百個包含AI生成的虛假頭像的用戶個人資料后,F(xiàn)acebook嚴(yán)厲打擊了被認(rèn)為有誤導(dǎo)性的操縱媒體,并徹底禁止了Deepfake視頻。該公司繼續(xù)開發(fā)深度學(xué)習(xí)工具,以檢測仇恨言論,導(dǎo)致偏見的模因以及有關(guān)Covid-19的錯誤信息。
2、YouTube開發(fā)了一個分類器來識別違規(guī)內(nèi)容:包括仇恨言論、陰謀論、醫(yī)學(xué)錯誤信息以及其它惡意視頻。
3、Facebook和Twitter關(guān)閉了他們認(rèn)為是擾亂國家宣傳活動的賬戶。
4、這三家公司在含有美國大選誤導(dǎo)性信息內(nèi)容中均添加了免責(zé)聲明。 Twitter采取了最嚴(yán)格的政策,直接舉報了唐納德·特朗普總統(tǒng)的虛假推文。
不過,他們顯然沒有做出觸及底線的更改,而且其改革可能也不會持續(xù)很久,因為他們的政策有的已經(jīng)松懈,有的已經(jīng)發(fā)生了適得其反的效果。比如:
-
今年6月,《華爾街日報》報道說,一些Facebook高管已經(jīng)停止使用部分監(jiān)管工具。該公司后來撤銷了在選舉期間使用的修改算法,因為它促進(jìn)了某些新聞源的知名度。Facebook不夠誠意的做法已經(jīng)導(dǎo)致了一些員工辭職。
-
YouTube采用的算法成功減少了虛假信息內(nèi)容創(chuàng)作者的訪問量。但它也增加了某些經(jīng)常傳播同樣可疑信息的大型實體的訪問量,例如福布斯新聞。
我的立場:目前在這場貓和老鼠的游戲中,尚無明確的方法能夠贏得那些造謠者或虛假內(nèi)容傳播者,但是貓在這場游戲中必須保持領(lǐng)先的地位,否則將會失去公眾的信任,或者遭到監(jiān)管機(jī)構(gòu)的調(diào)查。
AlphaFold預(yù)測蛋白質(zhì)三維結(jié)構(gòu)
AI在醫(yī)學(xué)制度上阻礙的減少,為深度學(xué)習(xí)在醫(yī)療設(shè)備和治療中的廣泛應(yīng)用奠定了基礎(chǔ)。
前不久,DeepMind的AlphaFold模型在短短幾個小時內(nèi)就確定了蛋白質(zhì)的三維結(jié)構(gòu),其對研發(fā)新型藥物的承諾和對生物學(xué)的洞察迅速引起了人們的關(guān)注。據(jù)了解,醫(yī)療機(jī)構(gòu)已經(jīng)采取了行動將此類技術(shù)納入了主流醫(yī)學(xué)實踐中。
以下制度上的轉(zhuǎn)變提高了醫(yī)療AI的知名度,也讓它越來越受到認(rèn)可。
1、美國最大的醫(yī)療保險公司已同意向某些使用了機(jī)器學(xué)習(xí)設(shè)備的醫(yī)生提供補(bǔ)償。
2、美國食品藥品監(jiān)督管理局(FDA)批準(zhǔn)了幾種新的基于AI的治療方法和設(shè)備,例如心臟超聲檢查系統(tǒng)。
3、一個跨學(xué)科的國際醫(yī)學(xué)專家小組介紹了兩個協(xié)議:Spirit和Consort,該協(xié)議旨在確保基于AI的臨床試驗?zāi)軌蜃裱罴褜嵺`,同時,便于外部評審人驗證試驗成果并進(jìn)行報告。
我的立場:AI在醫(yī)學(xué)中的應(yīng)用要求醫(yī)生和醫(yī)院重新組織其工作流程,這在一定程度上延緩了AI應(yīng)用的進(jìn)度。一旦FDA和醫(yī)療保障制度變得更加明朗,臨床醫(yī)生就會獲得更大的動力去做出改變以適應(yīng)它們。
更多信息:Deeplearning AI醫(yī)療專刊包括深度學(xué)習(xí)在診斷、預(yù)防和治療方面的應(yīng)用,以及AI醫(yī)學(xué)教父Eric Topol的獨家專訪。
https://blog.deeplearning.ai/blog/the-batch-ai-for-medicine-special-eric-topols-planetary-health-system-discovering-drugs-diagnosing-heart-disease-predicting-infections-alexa-for-doctors
GPT-3解鎖寫作新方式
自然語言處理的神經(jīng)網(wǎng)絡(luò)體積越來越大,功能也越來越豐富、有趣。例如GPT-3可以用來寫作畫圖敲代碼玩游戲等,被網(wǎng)友們玩出了50多種新用法。
GPT-3是OpenAI打造的包含1750億參數(shù)的文本生成器,它展示了自然語言處理方面的持續(xù)進(jìn)步。同時,它展現(xiàn)了機(jī)器學(xué)習(xí)領(lǐng)域的廣泛趨勢:模型參數(shù)呈指數(shù)增長,無監(jiān)督學(xué)習(xí)成為主流,且越來越普遍。
1、GPT-3的寫作能力比上一代GPT-2更加強(qiáng)大,以至于用它來撰寫博客文章和Reddit評論時,成功欺騙了很多人類讀者。另外,也有很多人以不同的方式展現(xiàn)了GPT-3的創(chuàng)造性,例如撰寫哲學(xué)文章、與歷史人物對話。
圖注:AI生成的哲學(xué)文章
2、語言模型促進(jìn)了商業(yè)工具的發(fā)展,例如幫助Apple自動更正功能區(qū)分不同語言;讓Amazon的語音小助手Alexa能夠跟隨對話內(nèi)容切換;更新機(jī)器人律師,對非法稱呼美國公民的電話銷售商提起訴訟。
3、OpenAI的GPT-2訓(xùn)練Pixel數(shù)據(jù)生成iGPT,iGPT通過填充部分模糊的內(nèi)容以生成怪異的圖像。
我的立場:語言模型顯然越大越好,但它還不止于此。 iGPT預(yù)示著在圖像和文字上訓(xùn)練的模型,至少在OpenAI的工作中,它可能比2020年的巨型語言模型更聰明、更怪異。
更多信息:NLP特刊包括有關(guān)如何消除偏見,以及對NLP先驅(qū)Noam Shazeer的獨家采訪。
https://blog.deeplearning.ai/blog/the-batch-nlp-special-issue-powerful-techniques-from-amazon-apple-facebook-google-microsoft-salesforce