何愷明兼職加入 DeepMind!要在基礎(chǔ)研究組搞大事?
剛剛,MIT教授、CV大神,成為 Google DeepMind 的杰出科學(xué)家。不過,這次是以 part-time(兼職) 身份加入。
據(jù)網(wǎng)友爆料,他即將參與基礎(chǔ)研究組的工作。
圖片
何凱愷是計算機(jī)視覺領(lǐng)域的超級明星,別人的榮譽(yù)都是在某某大廠工作,拿過什么大獎,而何愷明的榮譽(yù)是best,best,best ...... 例如2016 CVPR 最佳論文“Deep Residual Learning for Image Recognition”以及2017ICCV最佳論文“Mask R-CNN”。
圖片
目前,何愷明的論文引用數(shù)超過71萬,是MIT被引用次數(shù)最高的學(xué)者。
他也一直沒閑著,去年,他與 DeepMind 的黎天鴻團(tuán)隊(duì)提出 Fractal Generative Models,把分形遞歸塞進(jìn)神經(jīng)網(wǎng)絡(luò),讓逐像素生成 8K 圖像不再卡死 GPU;今年又合寫 Fluid,用連續(xù) token 解決視覺自回歸“越放大越糊”的老毛病。實(shí)驗(yàn)室里,他用 Representation Regularization 給生成模型“扎緊腰帶”,在相同算力下多擠出 2%-3% 質(zhì)量分。
何愷明:多次按響深度學(xué)習(xí)門鈴
“何愷明把神經(jīng)網(wǎng)絡(luò)做深了,谷歌把神經(jīng)網(wǎng)絡(luò)的入口拉大了,又深又大,才成為今天的大模型。”
他2009年的那篇CVPR最佳論文,是CVPR整個25年歷史上亞洲的第一篇最佳論文。
他的第一項(xiàng)工作是在微軟亞洲研究院發(fā)布的有關(guān)殘差網(wǎng)絡(luò)(ResNet)的論文。在2015年之前,深度學(xué)習(xí)最多只能訓(xùn)練20層,而CNN(卷積神經(jīng)網(wǎng)絡(luò))模型ResNet在網(wǎng)絡(luò)的每一層引入了一個直連通道,從而解決了深度網(wǎng)絡(luò)的梯度傳遞問題,獲得了2016年CVPR的最佳論文獎,是計算機(jī)視覺歷史上被引用最多的論文。
“在ResNet之后就可以有效地訓(xùn)練超過百層的深度神經(jīng)網(wǎng)絡(luò),把網(wǎng)絡(luò)打得非常深。”湯曉鷗說,“在大模型時代,以Transformer為核心的大模型,包括GPT系列,也普遍采用了ResNet結(jié)構(gòu),以支撐上百層的Transformer的堆疊。
尤其是何愷明在Facebook期間發(fā)明的Mask R-CNN算法,首次把基于掩碼的自編碼思想用于視覺領(lǐng)域的非監(jiān)督學(xué)習(xí),開啟了計算機(jī)視覺領(lǐng)域自監(jiān)督學(xué)習(xí)的大門。
關(guān)于何愷明
他是廣東高考滿分狀元,全國物理競賽一等獎獲得者,清華保送生。但真正讓他從“天才少年”躍升為“AI 大神”的,是從清華轉(zhuǎn)向基礎(chǔ)科學(xué)后的一連串技術(shù)里程碑。
本科階段,他放棄保送的機(jī)械專業(yè),加入清華基礎(chǔ)科學(xué)班。2007 年進(jìn)入微軟亞洲研究院實(shí)習(xí),因?qū)D形圖像課程產(chǎn)生興趣,加入視覺計算組——起初連發(fā)論文都難,直到 2009 年憑“暗通道去霧”首獲 CVPR 最佳論文。
這只是序章。他后來主導(dǎo)的 ResNet、Mask R-CNN、RetinaNet、MoCo 等模型,先后斬獲多個 CV 頂會大獎,把計算機(jī)視覺推進(jìn)到了深度學(xué)習(xí)、實(shí)例分割、單階段檢測器、自監(jiān)督學(xué)習(xí)的多個重要階段。每一次發(fā)聲,都代表了方向性轉(zhuǎn)變。
從微軟亞洲研究院,到 Facebook FAIR,再到 MIT,再到 Google DeepMind,何愷明每一次轉(zhuǎn)換角色,都不是為名或?yàn)槔菫榱搜芯孔杂啥群吐涞乜赡苄灾g的平衡。
復(fù)盤何愷明的研究路線,你會發(fā)現(xiàn)它極具“方向性判斷”能力。不同于許多研究員跟隨熱點(diǎn)話題“追著發(fā)”,他更像在一個個節(jié)點(diǎn)精準(zhǔn)切入,并留下長久影響。
- 2009 暗通道去霧:首開圖像復(fù)原新思路
- 2015 ResNet:解決深層網(wǎng)絡(luò)訓(xùn)練瓶頸,奠定現(xiàn)代模型結(jié)構(gòu)
- 2017 Mask R-CNN + RetinaNet:目標(biāo)檢測從 Two-stage 到 One-stage
- 2019-2020 MoCo:拉開視覺領(lǐng)域自監(jiān)督學(xué)習(xí)序幕
- 2023-2024 Fluid + Fractal:攻堅視覺生成模型結(jié)構(gòu)表達(dá)
這些研究不僅篇篇高引(ResNet 單篇已超 28 萬次),而且高度可遷移,從圖片識別延展到視頻理解、材料建模、蛋白質(zhì)設(shè)計等多個交叉學(xué)科。
他的“科研直覺”已被反復(fù)驗(yàn)證:別人還在研究“把杯子放穩(wěn)不碎”的方法時,他已經(jīng)在想,“如果 AI 真理解了杯子本身的構(gòu)造呢?”
MIT 的自由探索給了他理論跳躍的空間,希望DeepMind 的工程團(tuán)隊(duì)和算力基礎(chǔ),能讓這些跳躍有機(jī)會落地成形。