有效融合語言模型、圖神經網絡,文本圖訓練框架GLEM實現新SOTA
- 主要單位:蒙特利爾算法學習人工智能實驗室(Mila)、微軟亞洲研究院等
- 論文地址:https://arxiv.org/abs/2210.14709
- 代碼地址:https://github.com/andyjzhao/glem
引言
圖 1:(a) 文本圖 (b) 圖神經網絡 (c) 語言模型
圖是一種普遍的數據結構,建模了節點之間的結構關系。在現實生活中,許多節點包含豐富的文本特征,這種圖被稱為文本圖 (text-attributed graph [2])。例如,論文引用網絡中包含了論文的文本和論文之間的引用關系;社交網絡中包含了用戶的文本描述和用戶直接的交互關系。在文本圖上的表示學習模型,可以應用于節點分類、鏈路預測等任務中,具有廣泛的應用價值。
文本圖包含了兩方面信息:節點的文本信息和節點之間的圖結構信息。傳統文本圖的建??梢苑譃閷ξ谋窘:蛯D建模兩個角度。其中,對文本的建模方式(如圖 1.b 所示)通常采用基于 Transformer 的語言模型(LM)得到單個節點的文本表示,并對目標任務進行預測;對圖建模的建模方式(圖 1.c 所示)通常采用圖神經網絡(GNN),通過消息傳播機制來建模節點特征之間的交互,并預測目標任務。
然而,兩種模型只能分別建模文本圖中的文本和圖結構:傳統語言模型無法直接考慮結構信息,而圖神經網絡無法直接對原始文本信息進行建模。為了同時建模文本和圖結構,研究者們嘗試將語言模型和圖神經網絡融合起來,同時更新兩個模型的參數。但是,現有工作 [2, 3] 無法同時建模大量鄰居文本,可拓展性差,無法應用在大文本圖上。
GLEM 框架
為了更有效的融合圖神經網絡和語言模型,本文提出了 Graph and Language Learning by Expectation Maximization (GLEM) 框架。GLEM 框架基于變分期望最大算法(Variational EM),交替學習圖神經網絡和語言模型,從而獲得了很好的可拓展性。
圖 2:GLEM 框架
具體地,以節點分類任務為例,在 E 步 , GLEM 根據真實標簽和圖神經網絡預測的偽標簽訓練語言模型;在 M 步 , GLEM 根據真實標簽和語言模型預測的偽標簽訓練圖神經網絡。通過這種方式,GLEM 框架有效挖掘了局部的文本信息和全局的結構交互信息。通過 GLEM 框架訓練好的圖神經網絡(GLEM-GNN)和語言模型(GLEM-LM)都可以用來預測節點標簽。
實驗
論文的實驗部分主要從以下幾個方面討論 GLEM 框架:
- 有效性:GLEM 模型能夠有效融合圖神經網絡和語言模型,對兩種模型都有明顯提升。GLEM 框架在 OGB 的三個文本圖節點分類任務上取得了第一名。
- 可擴展性:通過交替訓練圖神經網絡和語言模型,GLEM 框架可以同時訓練大語言模型和深層 GNN。
- 無結構歸納推理(Structure-free inductive)能力:傳統 GNN 模型在面對沒有圖結構的新節點時表現不佳。相比之下,GLEM-LM 僅使用文本特征(無需圖結構)就能進行有效推理。
- 模型收斂:GLEM 使用 EM 迭代算法,在一些數據集上一次 EM 迭代即可收斂。
圖 3:GLEM 框架在 OGBN-arxiv, products, papers100M 數據集上取得第一名