何愷明新身份:谷歌DeepMind杰出科學(xué)家
剛剛,有網(wǎng)友爆料,自己在公司收到了「歡迎何愷明加入」的郵件,何愷明疑似加入谷歌。
在搜索何愷明個人主頁后,我們可以確認(rèn),他確實加入了谷歌,不過是以兼職的形式,職位是谷歌 DeepMind 杰出科學(xué)家 (Distinguished Scientist)。
個人主頁:https://people.csail.mit.edu/kaiming/
關(guān)于何愷明在谷歌的具體研究方向,目前還搜不到詳細(xì)信息。
不過,我們可以根據(jù)他最近發(fā)表的研究推測一下。前段時間,他所在的團(tuán)隊發(fā)布了一篇題為「Mean Flows for One-step Generative Modeling」的論文(參見《何愷明團(tuán)隊又發(fā)新作: MeanFlow 單步圖像生成 SOTA,提升達(dá) 50%》)。在最近的 CVPR workshop 上,他也重點介紹了這一論文所代表的方向。
在分享中,他指出,在 AlexNet 之前,逐層訓(xùn)練更為流行,如深度信念網(wǎng)絡(luò)(DBN)和去噪自編碼器(DAE)。但 AlexNet 之后,識別模型普遍實現(xiàn)了端到端訓(xùn)練,大大簡化了模型設(shè)計和訓(xùn)練的復(fù)雜性。 不過,有趣的是,今天的生成模型在概念上更像是逐層訓(xùn)練:Diffusion 模型通過 T 個去噪步驟逐步生成,自回歸模型通過 T 個 token 逐步生成。這讓我們不禁思考:歷史能否在生成模型領(lǐng)域重演?即,生成建模有沒有可能也走向端到端?
從高考狀元到被引量超 71 萬的 AI 學(xué)者
2003 年,何愷明以標(biāo)準(zhǔn)分 900 分獲得廣東省高考總分第一,被清華大學(xué)物理系基礎(chǔ)科學(xué)班錄取。在清華物理系基礎(chǔ)科學(xué)班畢業(yè)后,他進(jìn)入香港中文大學(xué)多媒體實驗室攻讀博士學(xué)位,師從湯曉鷗。何愷明曾于 2007 年進(jìn)入微軟亞洲研究院視覺計算組實習(xí),實習(xí)導(dǎo)師為孫劍博士。
2011 年博士畢業(yè)后,何愷明加入微軟亞洲研究院工作任研究員。2016 年,何愷明加入 Facebook 人工智能實驗室,任研究科學(xué)家。2024 年,何愷明加入 MIT,成為該校一名副教授。
何愷明的研究曾數(shù)次得獎。2009 年,當(dāng)時博士研究生在讀的何愷明參與的論文《基于暗原色的單一圖像去霧技術(shù)》拿到了國際計算機視覺頂會 CVPR 的最佳論文獎。
2016 年,何愷明憑借 ResNet 再獲 CVPR 最佳論文獎,此外,他還有一篇論文進(jìn)入了 CVPR 2021 最佳論文的候選。何愷明還因為 Mask R-CNN 獲得過 ICCV 2017 的最佳論文(Marr Prize),同時也參與了當(dāng)年最佳學(xué)生論文的研究。
根據(jù) Google Scholar 的統(tǒng)計,截至今天,何愷明的研究引用次數(shù)超過 71 萬次。
此外,加入 MIT 后,何愷明開設(shè)的課程廣受學(xué)生歡迎,可參考:
- 「教授何愷明在 MIT 的第一堂課」
- 「教授何愷明在 MIT 的第二門課 ——《深度生成模型》,講座 PPT 陸續(xù)已出」
那些年,愷明發(fā)表過的「神作」
說起愷明大神的作品,最有名的就是 ResNet 了。這篇論文發(fā)表于 2016 年,迄今引用已經(jīng)超過 28 萬多。根據(jù) 《自然》 雜志的一篇文章,這是二十一世紀(jì)被引用次數(shù)最多的論文。
《Deep Residual Learning for Image Recognition》在 2016 年拿下了計算機視覺頂級會議 CVPR 的最佳論文獎。
同樣是大神級別的學(xué)者李沐曾經(jīng)說過,假設(shè)你在使用卷積神經(jīng)網(wǎng)絡(luò),有一半的可能性就是在使用 ResNet 或它的變種。
何愷明有關(guān)殘差網(wǎng)絡(luò)(ResNet)的論文解決了深度網(wǎng)絡(luò)的梯度傳遞問題。這篇論文是 2019 年、2020 年和 2021 年 Google Scholar Metrics 中所有研究領(lǐng)域被引用次數(shù)最多的論文,并建立了現(xiàn)代深度學(xué)習(xí)模型的基本組成部分(例如在 Transformers、AlphaGo Zero、AlphaFold 中) )。
如今大模型都在使用的 transformer 的編碼器和解碼器,里面都有源自 ResNet 的殘差鏈接。
2021 年 11 月,何愷明以一作身份發(fā)表論文《Masked Autoencoders Are Scalable Vision Learners》,提出了一種泛化性能良好的計算機視覺識別模型,同樣是剛剛發(fā)表就成為了計算機視覺圈的熱門話題。
一個初入 AI 領(lǐng)域的新人,在探索的過程中看到很多重要研究主要作者都是何愷明,經(jīng)常會不由得感到驚訝。何愷明雖然長期身處業(yè)界,但科研態(tài)度一直被視為標(biāo)桿 —— 他每年只產(chǎn)出少量一作文章,但一定會是重量級的,幾乎沒有例外。
我們也經(jīng)常贊嘆于何愷明工作的風(fēng)格:即使是具有開創(chuàng)性的論文,其內(nèi)容經(jīng)常也是簡明易讀的,他會使用最直觀的方式解釋自己「簡單」的想法,不使用 trick,也沒有不必要的證明。這或許也將成為他在教學(xué)領(lǐng)域獨特的優(yōu)勢。
最后,恭喜谷歌,也期待大神何愷明在谷歌可以做出更多開創(chuàng)性工作。