數據挖掘領域大師俞士綸團隊新作:最新圖自監督學習綜述
近年來,自監督學習逐漸廣泛應用于計算機視覺、自然語言處理等領域。隨著該技術的蓬勃發展,自監督學習在圖機器學習和圖神經網絡上的應用也逐漸廣泛起來,圖自監督學習成為了圖深度學習領域的新發展趨勢。
本文是來自澳大利亞蒙納士大學(Monash University)圖機器學習團隊聯合中科院、聯邦大學,以及數據科學權威 Philip S. Yu 對圖自監督學習領域的最新綜述,從研究背景、學習框架、方法分類、研究資源、實際應用、未來的研究方向的方面,為圖自監督學習領域描繪出一幅宏偉而全面的藍圖。

全文鏈接:https://arxiv.org/pdf/2103.00111.pdf
1. 緒論
近年來,圖深度學習廣泛應用于電子商務、交通流量預測、化學分子研究和知識庫等領域。然而,大多數工作都關注在(半)監督學習的學習模式中,這種學習模式主要依賴標簽信息對模型進行訓練,導致了深度學習模型獲取標簽成本高、泛化能力能力不佳、魯棒性差等局限性。
自監督學習是一種減輕對標簽數據的依賴,從而解決上述問題的新手段。具體地,自監督學習通過解決一系列輔助任務(稱為 pretext task,代理任務)來進行模型的學習,這樣監督信號可以從數據中自動獲取,而無需人工標注的標簽來對模型進行監督訓練。
自監督學習目前已經被廣泛應用于計算機視覺(CV)和自然語言處理(NLP)等領域,具體技術包括詞嵌入、大規模語言預訓練模型、圖像的對比學習等。然而,與 CV/NLP 領域不同,由于圖數據處于不規則的非歐幾里得空間,其具有獨特的特點,包括:1)需要同時考慮特征信息與不規則的拓撲結構信息;2)由于圖結構的存在,數據樣本(節點)間往往存在依賴關系。因此,圖領域的自監督學習(graph self-supervised learning)無法直接遷移 CV/NLP 領域的代理任務設計,從而為圖自監督學習帶來了獨有的概念定義和分類方法。
最新圖自監督學習綜述">
不同領域的自監督代理任務對比
圖自監督學習的歷史最早可追溯到經典的圖嵌入方法,包括 DeepWalk、Line 等,而經典的圖自編碼器(GAE)模型也可被視為一種圖自監督學習。自 2019 年以來,一系列新工作席卷了圖自監督學習領域,涉及到的技術包括但不限于對比學習、圖性質預測、圖生成學習等。然而,目前缺少系統性的分類法對這些方法進行歸類,同時該技術相關的框架與應用也沒有得到規范化的統計與調查。
為了填補這一空缺,本文對圖自監督學習領域相關工作做了綜合、全面、實時的綜述。本文的主要貢獻有:1)以數學語言統一了的圖自監督學習框架,并提供了系統的分類法;2)對現有方法進行了綜合且實時更新的整理;3)統計了相關的研究資源和應用場景;4)指出了未來潛在的研究方向。
2. 核心詞條與概念定義
為了便于讀者理解,本文提供了以下核心詞條的定義辨析:
人工標簽 vs 偽標簽:人工標簽指需要人類專家或工作者手動標注的標簽數據;偽標簽指機器可以從數據中自動獲取的標簽數據。通常,自監督學習中不會依賴人工標簽,而是依賴偽標簽來進行學習。
下游任務 vs 代理任務:下游任務指具體用于衡量所學習表征和模型性能的圖分析任務,比如節點分類、圖分類等;代理任務指專門設計的、用于幫助模型無監督地學習更優表征從而在下游任務上取得更高性能的輔助任務。代理任務一般采用偽標簽進行訓練。
監督學習、無監督學習與自監督學習:監督學習指通過人工標簽來訓練機器學習模型的學習范式,而無監督學習是一種無需人工標簽來學習的學習范式。作為無監督學習的子類,自監督學習指從數據本身獲取監督信號的學習范式,在自監督學習中,模型由代理任務進行訓練,從而在下游任務重獲取更好的性能和更佳的泛化性。
本文主要研究圖數據。圖由節點集合和邊集合構成,其中節點的個數計為 n,邊的個數計為 m。圖的拓撲結構一般用 n*n 的鄰接矩陣 A 來表示,A_ij=1 表示節點 i 和節點 j 之間存在連接關系,A_ij=0 則表示二者無連接關系。對于屬性圖,存在一個特征矩陣 X 來包含每個點和每條邊的特征向量。
對于大部分圖自監督學習方法,圖神經網絡(GNN)作為編碼器而存在。GNN 輸入鄰接矩陣 A 和特征矩陣 X,通過可學習的神經網絡參數,生成低維的表征矩陣 H,其中每一行為對應節點的表征向量。對于圖級別的任務,一般采用讀出函數 R 將節點表征矩陣聚合為一個圖表征向量,從而進行圖級別的屬性學習。
3. 圖自監督學習框架與分類
本文用編碼器 - 解碼器(encoder-decoder)框架來規范化圖自監督學習。其中編碼器 f 的輸入是原始圖數據(A,X),輸出為低維表征 H;代理解碼器 p 以表征 H 為輸入,輸出代理任務相關的信息。在此框架下,圖自監督學習可以表示為:

其中 D 為相關的圖數據分布,L_ssl 為代理任務相關的損失函數。
利用訓練好的編碼器 f,所生成的表征 H 被進一步用于下游任務的學習當中。通過引入下游解碼器 q,下游任務的學習可表示為:

其中 L_sup 為下游任務相關的損失函數,y 為相關的人工標簽。
在此框架下,本文通過以下幾個維度進行分類:1)通過進一步細分公式 (1) 中的代理解碼器 p 和損失函數 L_ssl,對圖自監督學習方法進行分類;2)通過進一步細分代理任務和下游任務的關系,對三種自監督學習模式進行分類;3)通過進一步細分公式 (2) 中的下游解碼器 q 和損失函數 L_sup,對下游任務進行分類。
本文將圖自監督學習方法分為 4 個類別:基于生成的圖自監督學習方法,基于屬性的圖自監督學習方法,基于對比的圖自監督學習方法,以及混合型方法。其中,基于生成的方法(generation-based method)主要將重構圖的特征信息或結構信息作為代理任務,實現自監督學習;基于屬性的方法(Auxiliary Property-based method)通過預測一些可以自動獲取的圖相關的屬性,來進行模型的訓練;基于對比的方法(Contrast-based method)則是通過最大化同一樣本的兩個增廣實體之間的互信息來進行學習;最后,混合型方法(Hybrid method)通過組合不同的上述幾種代理任務,采用多任務學習的模式進行自監督學習。

4 種圖自監督學習方法分類
基于代理任務和下游任務之間的不同關系,自監督學習的模式分為以下 3 類:預訓練 - 微調(Pre-training and Fine-tuning,PF)、聯合學習(Joint Learning,JL)以及無監督表征學習(Unsupervised Representation Learning)。其中,PF 首先采用代理任務對編碼器進行預訓練,然后采用下游任務對編碼器進行微調;JL 則是采用多任務學習的方式,同時利用代理任務和下游任務對編碼器進行訓練;URL 首先無監督地對編碼器用代理任務進行訓練,然后直接用得到的表征 H 來訓練下游任務的解碼器。

3 種自監督學習模式分類
下游任務的分類則涉及了大多數圖機器學習相關的傳統任務,根據其數據樣本的尺度不同,本文將下游任務分類為節點級別任務(如節點分類),邊級別任務(如邊分類)和圖級別任務(如圖分類)。
4. 圖自監督學習相關工作匯總
根據上述對圖自監督學習方法的分類方式,本文對相關工作進行了整理、分類與匯總,分類樹如下圖所示。

分類樹
A.基于生成的圖自監督學習方法
基于生成的方法主要通過重構輸入數據以獲取監督信號。根據重構的對象不同,本文將該類方法進一步細分為兩個子類:特征生成和結構生成。

基于生成的圖自監督學習
特征生成方法通過代理解碼器對特征矩陣進行重構。模型的輸入為原始圖或者經過擾動的圖數據,而重構對象可以是節點特征矩陣,邊特征矩陣,或者經過 PCA 降維的特征矩陣等。對應的自監督損失函數一般為均方誤差(MSE)。比較有代表性的方法為 Graph Completion,該方法對一些節點的特征進行遮蓋,其代理任務的學習目標為重構這些被遮蓋的節點特征。
結構生成方法起源于經典的圖自編碼器(GAE),一般采用基于表征相似度的解碼器對圖的鄰接矩陣 A 進行重構。由于鄰接矩陣的二值性,對應的損失函數一般為二分類交叉熵(BCE);而由于鄰接矩陣的稀疏性,一般采用負采樣等手段實現類別平衡。
本文對現有的基于生成的圖自監督學習方法進行了總結,如下表所示:

B.基于屬性的圖自監督學習方法
基于屬性的方法從圖中自動獲取一些有用的屬性信息,以此作為監督信號對模型進行訓練。這類方法在形式上與監督學習比較類似,都是采用 “樣本 - 標簽” 的數據模式進行學習,其區別在于這里的 “標簽” 信息為偽標簽,而監督學習所用的為人工標簽。根據監督學習的分類模式,本文將該類方法細分為兩個子類:屬性分類和屬性回歸。

基于屬性的圖自監督學習
屬性分類方法自動地從數據中歸納出離散的屬性作為偽標簽,作為代理任務的學習目標供模型學習,對應的損失函數一般為交叉熵。通過獲取偽標簽的手段不同,該類方法可進一步分為:1)基于聚類的屬性分類:2)基于點對關系的屬性分類。前者采用基于特征或結構的聚類算法的對節點賦予偽標簽,而后者則是通過兩個點之間的關系得到一個點對的偽標簽。
屬性回歸方法從數據中獲取連續的屬性作為偽標簽,對應的損失函數為均方誤差(MSE)。一個典型的例子是提取節點的度(degree)作為其屬性,通過代理編碼器對該特性進行回歸,實現對模型的自監督訓練。
該類別方法的總結如下表所示:

C.基于對比的圖自監督學習方法
基于對比的方法引入了互信息最大化的概念,通過預測兩個視角(view)之間的相容性來進行自監督學習。本文從三個角度對該類方法進行整理,分別是:1)圖增廣方式;2)圖對比學習代理任務;3)互信息估計方式。
圖增廣技術用于從原始數據生成出增廣數據,從而構成對比學習中不同的視角。圖增廣方法有特征增廣、結構增廣、混合增廣。特征增廣主要對圖數據中的特征信息進行變換,最常見的手段是節點特征遮蓋(NFM),即隨機的將圖中的一些特征量置為 0;此外,節點特征亂序(NFS)也是一種特征增廣方法,其手段為對調不同節點的特征向量。結構增廣的手段是對圖結構信息進行變換,常見的結構增廣為邊修改(EM),包括對邊的增加和刪除;另一種結構增廣為圖彌散(Graph diffusion,GD),其對不同階的鄰接矩陣進行加權求和,從而獲取更全局的結構信息?;旌显鰪V則結合了上述兩種增廣形式,一個典型的手段為子圖采樣(SS),即從原圖數據中采樣子結構成為增廣樣本。

圖增廣方法
對于對比式的代理任務,本文通過其對比樣本的尺度進行進一步細分為同尺度對比學習和跨尺度對比學習。其中,同尺度對比學習通過最大化同一節點樣本或者同一圖樣本在不同視角下的互信息來進行自監督學習,此類方法包括早期的基于隨機游走的圖嵌入方法,以及一系列 CV 對比學習框架(如 SimCLR 和 MoCo)在圖領域的應用方法。跨尺度對比學習通過最大化 “節點樣本 vs 全局樣本” 或者 “節點樣本 vs 鄰居樣本” 之間的互信息來學習,這類方法起源于 Petar 等人與 2019 年提出的 DGI,目前在異質圖、動態圖等數據上均有應用。

基于對比的圖自監督學習
由于對比學習涉及到對互信息的估計,本文也從數學層面總結了幾種互信息估計方法,包括經典的 Jensen-Shannon 散度,InfoNCE,Triplet loss function,以及前沿的 BYOL 以及 Barlow twins。
基于對比的圖自監督學習方法總結見下表:

D.混合型圖自監督學習方法
混合型方法結合了兩種或多種不同的代理任務,以多任務學習的模式共同訓練模型。常見的組合包括:結合兩種生成任務(特征生成 + 結構生成)的混合方法,結合生成任務和對比任務的混合方法,結合多種對比任務的混合方法,以及三種任務共同參與的混合方法?;旌闲头椒ǖ目偨Y如下表所示:

5. 研究資源與實際應用
在附錄內容當中,本文統計了圖自監督學習相關的各種研究資源,包括:主流的數據集,常用的評估手段,不同方法的性能對比,以及各方法對開源代碼總結。這些信息可以更好的幫助研究人員了解、對比和復現現有工作。
本文總結了圖自監督學習在三個領域的實際應用,包括:推薦系統,異常檢測,以及化學領域。此外,更多應用類工作也被總結在附錄當中,涉及到的領域包括程序修復、醫療、聯邦學習等。
6. 未來的研究方向
針對潛在的研究熱點,本文分析了圖自監督學習中存在的挑戰,并指出了一些旨在解決這些挑戰的未來研究方向。
A. 理論基礎
雖然圖自監督學習在各種任務和數據集上都取得較好的性能,但其依然缺乏堅實的理論基礎以證明其有效性,因為大多數工作都只是經驗性地設計其代理任務,且僅采用實驗手段進行評價。目前僅有的理論支持來自互信息最大化,但互信息的評估依然依賴于經驗方法。我們認為,圖自監督學習亟需與圖理論相關的研究,潛在的理論基礎包括圖信號處理和譜圖理論。
B. 可解釋性與魯棒性
許多圖自監督學習的工作應用于風險敏感性和隱私相關的領域,因此,可解釋且魯棒的自監督框架對于適應此類學習場景具有重要意義。但是,現有工作只將下游任務性能視為其目標,而忽略了學習表示和預測結果的可解釋性。此外,考慮到真實數據的不完整性以及圖神經網絡易受對抗攻擊的特點,我們應當考慮圖自監督學習的魯棒性;然而,除個別工作外,現有的圖自監督學習方法均假定輸入數據是完美的。因此,探索可解釋的、魯棒的圖自監督方法是一個未來的潛在方向。
C. 復雜類型圖的代理任務設計
當前的大多數工作集中于屬性圖的自監督學習,只有少數工作集中于復雜的圖類型,例如異質或時空圖。對于復雜圖,主要的挑戰是如何設計代理任務來捕獲這些復雜圖的獨特數據特征?,F有的一些方法將互信息最大化的思想應用于復雜圖的學習,其學習能力比較有限。因此,一個潛在方向是為復雜的圖數據設計多種多樣的代理任務,這些任務應適應其特定的數據特征。此外,將自監督技術擴展到更普遍的圖類型(例如超圖)將是一個可行的方向,值得進一步探索。
D. 圖對比學習的增廣方法
在 CV 的對比學習中,大量的數據增廣策略(包括旋轉、顏色扭曲、裁剪等)提供了不同的視角,從而支持了對比學習中的表征不變性。然而,由于圖結構數據的性質(復雜和非歐幾里德結構),圖上的數據增廣方案沒有得到很好的探索?,F有的圖增廣策略大多采用隨機的遮蓋 / 亂序節點特征、邊修改、子圖采樣和圖擴散等手段,這在生成多個圖視角時無法提供豐富的多樣性,同時其表征不變性也是不確定的。為了解決這個問題,自適應地執行圖形增廣,自動選擇增廣,或通過挖掘豐富的底層結構和屬性信息聯合考慮更強的增廣樣本都將是未來潛在的研究方向。
E. 通過多代理任務學習
本文統計的大部分方法僅通過解決一個代理任務來訓練模型,只有少數混合方法探索多個代理任務的組合。然而,不少 NLP 領域的與訓練模型和本文所匯總的少數混合方法都說明了:不同的代理任務可以從不同的角度提供監督信號,這更有助于圖自監督方法學習到有用的信息表征。因此,對多種代理任務的自適應組合,以及更先進的混合方法值得進一步研究。
F. 更廣泛的應用
圖是許多領域中普遍存在的數據結構;然而,在大多數應用領域,獲取手動標簽的成本往往很高。在這種情況下,圖自監督學習具有很好的前景,特別是那些高度依賴專業知識來標注數據的領域。然而,大多數現有的圖自監督學習的實際應用僅集中在少數幾個領域(推薦系統、異常檢測和化學),這表明圖自監督在大多數應用領域具有未開發的潛力。我們有望將圖自監督學習擴展到更廣闊的應用領域,例如,金融網絡、網絡安全、社區檢測和聯邦學習等。