實現圖深度學習復雜研究性質任務太頭疼?這個新工具包幫你應對
深度學習是目前AI領域最熱門的方向之一,目前PyG和DGL等主流圖深度學習框架大多是實現圖深度學習的基本操作與模型,很難應對復雜圖深度學習研究任務。近日,來自德州農工大學的姬水旺教授團隊開發了首個面向復雜研究任務的可擴展型圖深度學習工具包,包含圖生成,圖自監督學習,圖神經網絡可解釋性以及3D圖深度學習任務,旨在幫助研究者在復雜圖深度學習任務的算法開發上能夠輕松使用常用數據集和評估指標與通用基準進行比較。
圖深度學習已經展示了其在學習豐富的圖結構數據上的有效性。并且在許多問題上取得了重大進展, 例如藥物發現、社交網絡、物理仿真等。許多圖深度學習框架(如 PyG,DGL 等)主要關注實現基本的圖深度學習模塊和基礎任務,比如節點分類與圖分類等。但對于復雜的任務,比如圖生成和圖神經網絡的可解釋性,研究人員仍然需要花費巨大精力實現算法并與基準模型進行比較。
為了解決這一問題,德州農工大學姬水旺教授領導的 DIVE(Data Integration, Visualization and Exploration)實驗室開源了首個面向復雜研究任務的圖深度學習工具包 DIG(Dive into Graphs)。該工具包由實驗室 16 人團隊(14 個博士生,1 個本科生,1 個指導老師)歷時 1 年努力完成。與 PyG 和 DGL 等圖神經網絡框架不同的是,DIG 聚焦于為目前熱門的復雜圖深度學習研究任務提供更易用、更快速并且可擴展的算法開發與對比研究平臺。
目前,DIG 工具包支持 4 個研究方向:圖生成、圖自監督學習、圖神經網絡可解釋性以及 3D 圖深度學習。對于每個領域,DIG 都提供了通用、可擴展的數據接口、常用算法與評估標準實現。
總之,DIG 極大地方便了研究人員的算法開發以及與基準模型進行實驗比較。
-
論文地址:https://arxiv.org/abs/2103.12608
-
項目地址:https://github.com/divelab/DIG
目前,DIG 涵蓋 4 個研究方向的 18 個算法、33 個數據集、7 類評估指標。基于通用與可擴展的實現,未來可以將更多的方向和算法集成到 DIG 中。工具包整體結構如下圖所示:
DIG 涵蓋的四大方向。
圖生成 :圖生成算法研究的是如何基于給定的一組圖數據生成新的圖。圖生成任務對于藥物和材料開發有潛在的重要作用。因此,DIG 主要考慮可以生成分子圖的深度學習算法。同時,DIG 中也實現了用以評估隨機生成、分子性質優化和有約束的分子性質優化的相關指標。
圖自監督學習 :自監督學習的研究最近已擴展到圖數據,利用特定的自監督任務可以幫助模型獲得更有效的圖特征表示。目前 DIG 中主要實現了常見的基于對比學習的圖自監督算法,提供了針對節點分類和圖分類的數據接口和評估指標。
圖神經網絡可解釋性 :由于圖神經網絡已經被越來越多地部署在真實世界的應用中,為了更好地理解模型,對圖神經網絡的可解釋性研究變得至關重要。DIG 中實現了常見的圖神經網絡解釋算法。除了常用基準數據集和評估指標外,DIG 的開發人員還針對可解釋性任務從文本數據中構建了易于人類理解的圖數據集,極大地方便了后續圖神經網絡可解釋性的研究。
3D 圖深度學習 :3D圖網絡是指節點具有三維位置信息的圖網絡結構。例如分子中每個原子都有其相對的 3D 位置。考慮到圖結構中 3D 位置信息對于提升圖網絡表達能力具有重要作用。DIG 中將三種最新 3D 圖深度學習算法整合為一個 3DGN 框架,提供了統一的實現。也實現了常見的 3D 分子數據集的統一接口和評估指標。
關鍵設計準則
通用實現:DIG 對于每個研究方向的數據接口和評估方法都有通用的實現。這使得 DIG 能夠充當標準化的測試平臺。另外,對于可以從一個角度統一的算法,DIG 也會提供通用的算法實現。比如針對 3D 圖深度學習的 3DGN 框架和針對圖自監督學習的對比模型框架。
可擴展性和可定制化:借助于通用的實現,研究人員可以方便地集成新的數據集、算法與評估標準。而且用戶可以靈活地選取數據接口和評估方法來定制化實驗。因此 DIG 可以用作研究人員實現新的算法和與基準算法進行實驗比較的平臺。