機器學習的三大“疑難雜癥”,因果學習是突破口
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
重慶和許多西部城市一樣,常常被詬病為“互聯網荒漠”,但它卻有著很好的物聯網土壤。
有數據顯示,重慶有著近2000家物聯網相關企業,其中核心企業超過600家,且在物聯網產業細分領域實力強勁、影響力大。
而除了企業之外,重慶還有一支特殊的物聯網技術“力量”:由劉禮負責的重慶大學物聯網體感大數據實驗室。
劉禮,現為重慶大學大數據與軟件學院教授,博士生導師。
而他在2018年成立這個實驗室,是希望搭建因果學習與機器學習之間的橋梁。
這個方向也是目前包括Bengio、Pearl等大牛也在重點投入的領域。
從更具體的應用角度來看,劉禮相信,這個目標實現之后,AI和大數據分析技術能在醫療、教育、制造業等領域有更大的用武之地。
我們有幸和他進行了一次深入對話。
一位典型學者的“三步走”
對于劉禮來說,一直有一個明確的方向指引著自己的職業成長,那就是將自己的所學與國家層面的重大實際問題相結合。
尤其是近幾年國家曾多次針對大數據、人工智能、工業互聯網等推出重磅舉措,希望能夠實現人、機、物的深度互聯,實現全要素、全價值鏈的連接,進而推動新的工業生產制造和新的服務體系。
而重慶就是老牌工業城市,由此,劉禮回國牽頭在重慶大學成立了物聯網體感大數據實驗室,旨在圍繞國家重大的需求,展開大數據分析特別是因果學習的基礎研究和應用。
事實上,建立物聯網體感大數據實驗室之前,他已經和大數據打了數十年的交道。
本科和碩士階段,劉禮師從蘭州大學李廉教授。
李廉教授是國內計算機教育的領軍人物,長期以來堅持推動以計算思維為核心的計算機人才理念和新模式,也因此在2020年獲了CCF杰出教育獎。
受他的影響,劉禮本科后半段和碩士階段參加了中國教育科研網格項目,網格可以視為云平臺的前身,解決數據的存儲和處理問題。
這段經歷奠定了他的思維方式:以計算思維為主導,圍繞數據的存儲和處理來解決問題。
但他更真正樹立起自己的科研夢想,是在異國他鄉求學時。
2007年,劉禮在巴黎十一大讀博期間,諾貝爾物理學獎花落巴黎十一大教授吉勒阿爾貝·費爾,當時全校沸騰,這個消息振奮了全校的師生,包括劉禮。
劉禮說到:
這讓我對選擇學術之路更加堅定了。
當時巴黎十一大名校已經走出了2個諾貝爾獎,4個菲爾茲獎。學校提倡以科學問題為導向的基礎研究方式。
更重要的是,這些問題不一定是全來自應用方向,反而多是基礎方向的。
與此同時,法國整體輕松自由的環境,讓他能有更多時間去自主思考基礎研究和技術應用之間的疏同。劉禮回憶道:
法國春天有各種假期,到了夏天不論職業貴賤所有人都會去度假,秋天開始罷工,到了冬天又開始準備圣誕了。
這種氛圍下,在塞納河畔邊曬曬太陽,時間就這么過去了。有時我們中國學生晚上想去實驗室多做一會兒,警察還要來問加班權益有沒有得到保障,沒有特殊的審批還不能加班。
這種氛圍的熏陶下,我們也沉下心來思考自己應該如何做基礎研究。
在那之后,劉禮已經完成了計算思維的樹立,基礎研究的認可。但是他又在一個新的坐標上找到真正屬于自己的一片天地。
告別浪漫悠然的巴黎,在熱帶國家新加坡,劉禮與新加坡國立大學計算機院長David S. Rosenblum院士共同開啟了一項名為“舒適計算”(FelicitousComputing)的研究。
這個概念的要義是根據不同的場景去調整計算的能力。
此時,計算已經變得比劉禮剛剛接觸大數據分析時要更豐富了。不但延伸至無處不在,還呈現出以人為中心的人、機、物三元融合的特點。
如何處理這些新的大融合大數據,成為了劉禮和他的同事們最關注的問題。
期間他和所在團隊也做出了不少代表性的研究,例如From action to activity: sensor-based activity recognition這項研究中。
他們便創新性地將人的短時動作(action)數據和更廣時空維度上的活動(activity)數據關聯起來,彌合了人的動作和人的活動之間的差距,成功編碼了動作之間的時間相關性,并捕獲活動的內在屬性。
也正是在這個階段,劉禮真正確立了自己要深耕的研究方向,即圍繞物理世界和人本身的數據進行采集和分析。
從計算思維的樹立、基礎研究的認可到確立具體方向,期間的多元化經歷,也讓他對大數據乃至數據科學有著更立體的視角和感受。
這也是為什么重慶大學的這個物聯網體感大數據實驗室,會有著如此具象的一個名字。
劉禮認為,從應用角度來理解大數據分析,可以把它看成一臺車:
這臺車里面必須有很多部件來支撐大數據分析,發動機就是CPU、GPU等算力平臺;有了算力之后要跑起來,就要有油,就是數據;而車輪就像應用,即到底車往哪開,朝著什么目標前進。
實現這些應用、達到目標,就需要有方向盤,也就是用算法指揮所有的這些東西。
用他的話來說,這些年自己所做的工作既涉及發動機、油、車輪,也涉及方向盤,包括早期寫了大量數據處理的底層框架。
但在這個新的實驗室,自然不會全是自己經歷過的、熟悉的研究,依然還有很多事情需要從0開始做,甚至還不乏和學生們一起自己動手DIY適配物聯網研究的手套和手表。
對于整個團隊來說,遠方還有一個更大的目標,那就是建起因果學習與機器學習之間的橋梁。
機器學習的3大“疑難雜癥”,因果學習是突破口
目前,機器學習和大數據已經發展到了你中有我、我中有你的交融階段。
尤其以深度學習為代表的機器學習已經取得了很好的進展。與此同時,這類方法的“缺陷”也日益突出。
特別是這幾個最主要的問題:可解釋性、可泛化、穩健性。
如何能同時推動這三個問題的解決?
一種很有潛力的方案就是把因果學習引進機器學習,即能促進機器學習方法的可解釋,又改善穩定性同時還能泛化到不同場景。
不管深度神經網絡還是其他的一些方法,大部分學的是變量和變量之間的相關性,忽略了變量和變量之間的因果性。后者正是因果學習的關注點。
例如,在癌癥預測上,因果性就非常重要,究竟是哪些或者哪一個屬性/變量導致癌癥結果的發生,是醫生和患者都想迫切知道的解釋性問題。
長期以來,機器學習和因果學習是兩個相對獨立的研究方向,但現在,這種情況已經發生改變,有越來越多的人工智能學者意識到因果學習的這種潛力所在。
其中一位代表性人物就是“深度學習三巨頭”之一的Bengio。
他曾表示:
將因果關系整合到AI當中已經成為目前的頭等大事。當前的機器學習實現方法立足一個基本假設,即經過訓練的AI系統在解決實際問題時,面對的數據與訓練數據屬于同一類型。但在現實生活中,情況不可能如此簡單。
也是最近幾年開始,他帶領一支團隊投入到這個新的研究重心中:將機器學習與因果推理相結合的因果表示學習。
另一支重要力量則是馬普所的Sch?lkopf和他的團隊,他們同樣在探索如何創建可以學習因果表征的AI系統。
劉禮和他的團隊亦將“搭建其因果學習和機器學習的橋梁”視為長期使命。
除了基礎研究以外,他們還能背靠重慶的產業土壤,讓因果框架理論實現落地。
比如在圖像合成上,GAN和VAE的出現已經讓人們看到圖像合成的震撼效果,但是,這些生成能力在某些特別強調圖像生成可控的場景下依然捉襟見肘。
像汽車造型生成,它和藝術圖像生成有很大不同,必須要滿足一定工業的標準,所以計算機輔助造型生成的時候,必須要做到可控。
而可控是目前一個很難解決的問題,這個場景也是劉禮實驗室所重點探索的,即用因果的方法,從數據生成機制底層出發,發現數據的相關性,在相關性這個層面做特征解耦,去學習究竟什么因素最終導致了輪胎大小的變化等底層問題。
未來幾年,圖像合成、疾病診斷和行為識別這幾個應用方向將是他們的重點攻關方向。
卷還是不卷?給青年學生的建議
在交流中,談起自己的求學求知之路,劉禮總是提到,“將個人目標與國家重大需求結合”。
這不但是他對自己的要求,也是他對青年學生的希冀。現在計算機科學整個大領域都在討論“內卷”現象,他尤其希望自己的經歷和體會,能夠幫助一些青年學生“破題”:
“首先要重視基礎理論,把基礎理論打扎實。目前學習數據科學和機器學習特別的模塊化,可能從網上搜到一個算法再拼裝一下就能解決一個任務,這種以應用為導向的偏好在職場上快速解決問題的要求下是無可厚非的,但從學術界或者從最底層的邏輯上來說,這個現象也不一定是個好事。
這可能是我們的年輕人因為內卷得太厲害了,不得不快速出一些東西所造成的,不止本科生,一些博士生研究生也存在這個現象。
現在因果學習很熱,可能把一些因果的概念揉到神經網絡中有點效果之后,也能發很好的文章。不是說不能這么做,但是做完這個步驟,是不是可以反過來思考到底自己解決了什么樣的核心問題。
這也是我的第二個建議,去思考國家的重大需求是什么,包括經濟發展、社會治理和民生等等,我做的事情在這些方面上促進了什么?甚至是卡脖子的問題、引領性的問題上又貢獻了多少。
現在年輕人都很厲害,能發很好的頂會文章,也能快速地解決一些問題,但到底這些方法和模型解決了什么樣的重大需求?
我覺得,年輕人可能需要時常去考慮這一些問題,不管是去創業,還是繼續留在學術圈,要站在更高的角度去追問核心問題,去審視自己做了什么。”
關于劉禮
劉禮,重慶大學大數據與軟件學院教授,博士生導師,創立了重慶大學物聯網體感大數據實驗室。
他一直致力于從事傳感大數據分析技術及其應用研究,主持國家基金委面上項目、青年基金,國家重大研發計劃項目子課題,重慶市科委重大專項,教育部科研啟動基金等10余項。
目前劉禮已發表論文100余篇;申請發明專利10余項。
與此同時,他還擔任Sensors、Web Intelligence等國際SCI期刊的客座主編。
在UbiComp、CSCW等CCF ABC類國際會議或研討會任程序委員會主席、委員等,任全國可穿戴計算會議秘書長,以及IEEE Transactions on Cybernetics,IEEE Intelligent Systems,IEEE Transactions on Learning Technologies等人工智能頂級期刊的評審。
個人主頁:
https://www.aminer.cn/profile/li-liu/56065cde45cedb3396854f9a