一文綜述「聯邦圖機器學習」,概念、技術、應用全都有
近年來,圖已被廣泛應用于表示和處理很多領域的復雜數據,如醫療、交通運輸、生物信息學和推薦系統等。圖機器學習技術是獲取隱匿在復雜數據中豐富信息的有力工具,并且在像節點分類和鏈接預測等任務中,展現出很強的性能。
盡管圖機器學習技術取得了重大進展,但大多數都需要把圖數據集中存儲在單機上。然而,隨著對數據安全和用戶隱私的重視,集中存儲數據變的不安全和不可行。圖數據通常分布在多個數據源(數據孤島),由于隱私和安全的原因,從不同的地方收集所需的圖數據變的不可行。
例如一家第三方公司想為一些金融機構訓練圖機器學習模型,以幫助他們檢測潛在的金融犯罪和欺詐客戶。每個金融機構都擁有私有客戶數據,如人口統計數據以及交易記錄等。每個金融機構的客戶形成一個客戶圖,其中邊代表交易記錄。由于嚴格的隱私政策和商業競爭,各個機構的私有客戶數據無法直接與第三方公司或其它他機構共享。同時,機構之間也可能有關聯,這可以看作是機構之間的結構信息。因此面臨的主要挑戰是:在不直接訪問每個機構的私有客戶數據的情況下,基于私有客戶圖和機構間結構信息,來訓練用于金融犯罪檢測的圖機器學習模型。
聯邦學習(FL)是一種分布式機器學習方案,通過協作訓練解決數據孤島問題。它使參與者(即客戶)能夠在不共享其私有數據的情況下聯合訓練機器學習模型。因此,將 FL 與圖機器學習相結合成為解決上述問題的有希望的解決方案。
本文中,來自弗吉尼亞大學的研究者提出聯邦圖機器學習(FGML,Federated Graph Machine Learning)。一般來說,FGML 可以根據結構信息的級別分為兩種設置:第一種是具有結構化數據的 FL,在具有結構化數據的 FL 中,客戶基于其圖數據協作訓練圖機器學習模型,同時將圖數據保留在本地。第二種是結構化 FL,在結構化 FL 中,客戶端之間存在結構信息,形成客戶端圖。可以利用客戶端圖設計更有效的聯合優化方法。
論文地址:https://arxiv.org/pdf/2207.11812.pdf
雖然 FGML 提供了一個有前景的藍圖,但仍存在一些挑戰:
1、跨客戶端的信息缺失。在具有結構化數據的 FL 中,常見的場景是每個客戶端機器都擁有全局圖的子圖,并且一些節點可能具有屬于其他客戶端的近鄰。出于隱私考慮,節點只能在客戶端內聚合其近鄰的特征,但無法訪問位于其它客戶端上的特征,這導致節點表示不足。
2、圖結構的隱私泄漏。在傳統 FL 中,不允許客戶端公開其數據樣本的特征和標簽。在具有結構化數據的 FL 中,還應考慮結構信息的隱私。結構信息可以通過共享鄰接矩陣直接公開,也可以通過傳輸節點嵌入間接公開。
3、跨客戶端的數據異構性。與傳統 FL 中數據異構性來自 non-IID 數據樣本不同,FGML 中的圖數據包含豐富的結構信息。同時,不同客戶的圖結構也會影響圖機器學習模型的性能。
4、參數使用的策略。在結構化 FL 中,客戶端圖使客戶端能夠從其相鄰客戶端獲取信息。在結構化 FL 中,需要設計有效的策略,以充分利用由中心服務器協調或完全分散的近鄰信息。
為了應對上述挑戰,研究人員開發了大量算法。目前各種算法主要關注標準 FL 中的挑戰和方法,只有少數人嘗試解決 FGML 中的具體問題和技術。有人發表對 FGML 進行分類的綜述性論文,但沒有總結 FGML 中的主要技術。而有的綜述文章僅涵蓋了 FL 中數量有限的相關論文,并非常簡要地介紹了目前現有的技術。
而在今天介紹的這篇論文中,作者首先介紹 FGML 中兩種問題設計的概念。然后,回顧了每種 shezhi 下的最新的技術進展,還介紹了 FGML 的實際應用。并對可用于 FGML 應用的可訪問圖數據集和平臺進行總結。最后,作者給出了幾個有前途的研究方向。文章的主要貢獻包括:
FGML 技術分類:文章給出了基于不同問題的 FGML 分類法,并總結了每個設置中的關鍵挑戰。
全面的技術回顧:文章全面概述了 FGML 中的現有技術。與現有其它綜述性論文相比,作者不僅研究了更廣泛的相關工作,而且提供了更詳細的技術分析,而不是簡單地列出每種方法的步驟。
實際應用:文章首次總結 FGML 的實際應用。作者根據應用領域對其進行分類,并介紹每個領域中的相關工作。
數據集和平臺:文章介紹了 FGML 中現有的數據集和平臺,對于想在 FGML 中開發算法和部署應用程序的工程師和研究人員非常有幫助。
未來方向:文章不僅指出了現有方法的局限性,而且給出了 FGML 未來的發展方向。
FGML 技術綜述 這里對文章的主要結構做下簡介。
第 2 節簡要介紹了圖機器學習中的定義以及 FGML 中兩種設置的概念和挑戰。
第 3 節和第 4 節回顧了這兩種設置中的主流技術。第 5 節進一步探討了 FGML 在現實世界中的應用。第 6 節介紹了相關 FGML 論文中使用的開放圖數據集和 FGML 的兩個平臺。在第 7 節中提供了未來可能的發展方向。
最后第 8 節對全文進行了總結。更多詳細信息請參考原論文。