MoE再下一城!港大提出AnyGraph:首次開啟「圖大模型」Scaling Law之路
圖數(shù)據(jù),作為一種不可或缺的數(shù)據(jù)表現(xiàn)形式,廣泛滲透于社交網(wǎng)絡(luò)、學(xué)術(shù)科研網(wǎng)絡(luò)、交通管理系統(tǒng)及生物信息網(wǎng)絡(luò)等諸多領(lǐng)域。作為最廣泛應(yīng)用的圖學(xué)習(xí)范式,圖表征學(xué)習(xí)致力于學(xué)習(xí)圖中節(jié)點(diǎn)的表示向量,融合結(jié)構(gòu)特性與節(jié)點(diǎn)特征,以實(shí)現(xiàn)精準(zhǔn)的預(yù)測(cè)與分析。
近年來涌現(xiàn)出了大量的圖學(xué)習(xí)方法,包括圖神經(jīng)網(wǎng)絡(luò)、圖自監(jiān)督學(xué)習(xí)、圖預(yù)訓(xùn)練和微調(diào)方法、以及圖大語言模型。這些方法不斷精進(jìn)圖學(xué)習(xí)模型的建模能力和預(yù)測(cè)精度,近年的一些方法探索了增強(qiáng)圖模型泛化能力的途徑。
然而,當(dāng)前方法普遍依賴于復(fù)雜的調(diào)優(yōu)流程,難以靈活應(yīng)對(duì)實(shí)際圖數(shù)據(jù)復(fù)雜多變的結(jié)構(gòu)與特征特性。當(dāng)圖數(shù)據(jù)涉及多個(gè)領(lǐng)域,且模型在訓(xùn)練階段未曾見過時(shí),當(dāng)前模型難以處理,體現(xiàn)了現(xiàn)有方法在跨領(lǐng)域的零樣本預(yù)測(cè)任務(wù)上泛化性能的不足。
為了解決這一問題,香港大學(xué)的研究人員提出AnyGraph這一圖基礎(chǔ)模型。
論文鏈接:https://arxiv.org/pdf/2408.10700
項(xiàng)目地址:https://github.com/HKUDS/AnyGraph
基于圖數(shù)據(jù)的獨(dú)特性質(zhì),AnyGraph聚焦于攻克一下幾個(gè)方面的核心難題,模型預(yù)訓(xùn)練跨越了8種場(chǎng)景、10類特征、以及38個(gè)數(shù)據(jù)集, 以實(shí)現(xiàn)搭建圖基礎(chǔ)模型的目標(biāo):
結(jié)構(gòu)和特征異質(zhì)性
不同應(yīng)用場(chǎng)景下的圖數(shù)據(jù),其結(jié)構(gòu)形態(tài)千差萬別,包括節(jié)點(diǎn)連接密度、密集子圖分布、數(shù)據(jù)噪聲與缺失情況等。現(xiàn)有的方法,例如圖神經(jīng)網(wǎng)絡(luò),往往被訓(xùn)練用于預(yù)測(cè)一類具有固定特點(diǎn)的圖數(shù)據(jù),其模型本身的容納能力,也無法處理真實(shí)世界中跨場(chǎng)景的復(fù)雜多樣數(shù)據(jù)。
此外,不同數(shù)據(jù)集往往存在嚴(yán)重的特征異質(zhì)性。節(jié)點(diǎn)特征是圖數(shù)據(jù)的核心組成部分之一,但在不同數(shù)據(jù)集中展現(xiàn)出極大的差異性。從離散類別到連續(xù)數(shù)值,從文本嵌入到圖統(tǒng)計(jì)特征,乃至特征向量的維度都各不相同。如何在零樣本場(chǎng)景下處理這些多樣化的特征,成為圖基礎(chǔ)模型必須跨越的障礙。
為了應(yīng)對(duì)結(jié)構(gòu)和特征的異質(zhì)性挑戰(zhàn),AnyGraph采用混合專家模型(MoE)架構(gòu),在模型中集成了同構(gòu)但參數(shù)不同、互不耦合的多個(gè)專家圖模型。基于一種高效且強(qiáng)大的專家路由算法,將不同的輸入數(shù)據(jù)分配給適合的專家模型進(jìn)行學(xué)習(xí)和預(yù)測(cè)。通過這種方式,AnyGraph可以輕松集成針對(duì)不同圖數(shù)據(jù)特點(diǎn)的專家模型,從而達(dá)到更強(qiáng)的模型魯棒性。
另一方面,AnyGraph的每個(gè)專家模型都采用了統(tǒng)一的結(jié)構(gòu)和特征統(tǒng)一方法,基于特征值分解方法,專家模型將具有不同維度、不同語義的鄰接矩陣數(shù)據(jù)和節(jié)點(diǎn)特征數(shù)據(jù),都映射為具有統(tǒng)一長(zhǎng)度和相近語義的統(tǒng)一表征。在這一基礎(chǔ)上,即使不同數(shù)據(jù)的表征仍存在一些差異,也可以輕易被專家集成的MoE架構(gòu)解決。
快速適應(yīng)能力
一個(gè)高效的圖基礎(chǔ)模型應(yīng)具備快速適應(yīng)新數(shù)據(jù)集和領(lǐng)域的能力,能夠在不依賴大量重新訓(xùn)練或微調(diào)的情況下,迅速調(diào)整其參數(shù)和學(xué)習(xí)策略,以應(yīng)對(duì)未知圖數(shù)據(jù)的挑戰(zhàn)。然而,現(xiàn)有的圖基礎(chǔ)模型通常基于大規(guī)模的預(yù)訓(xùn)練語言模型,難以進(jìn)行快速的模型調(diào)整。這種對(duì)新圖域的低效適應(yīng)性,成為限制圖學(xué)習(xí)技術(shù)廣泛應(yīng)用的瓶頸。
針對(duì)這一問題,AnyGraph設(shè)計(jì)了輕量化的圖專家路由機(jī)制,使用自監(jiān)督任務(wù)來快速評(píng)測(cè)多個(gè)專家任務(wù)對(duì)輸入數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性。在不引入額外標(biāo)簽數(shù)據(jù)的情況下,這一方法可以準(zhǔn)確找到最優(yōu)的專家模型,在僅使用單個(gè)專家模型、極少數(shù)模型參數(shù)的情況下,達(dá)到優(yōu)于與大規(guī)模預(yù)訓(xùn)練模型的效果。
下圖展示了AnyGraph專家路由機(jī)制的分配結(jié)果,可以看到,同源(例如ML1M和ML10M)以及使用相同特征構(gòu)建方法(例如YelpT, SteamT, AmazT)的數(shù)據(jù)集,被分到了同樣的專家模型。
此外,AnyGraph的專家模型采用一種簡(jiǎn)單高效的設(shè)計(jì),數(shù)據(jù)集的大部分信息可以預(yù)處理成高度有效的初始表征,而專家模型僅需要采用多層感知機(jī)模型,就能通過專家集成達(dá)到大規(guī)模模型的效果,從而減少模型前向和反向傳播的開銷。
下圖展示了AnyGraph在限定訓(xùn)練步數(shù)上花費(fèi)的計(jì)算時(shí)間,以及在fine-tune情況下的效果曲線,均展示了AnyGraph在快速適應(yīng)能力上的優(yōu)勢(shì)。
Scaling Law
在視覺和文本領(lǐng)域,大規(guī)模基礎(chǔ)模型的一個(gè)標(biāo)志性現(xiàn)象是Scaling Law,即隨著模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的增加,模型效果不斷提升。本文探索了圖基礎(chǔ)模型是否存在這樣的特點(diǎn)。
本文對(duì)AnyGraph的多個(gè)模型大小影響參數(shù),以及訓(xùn)練數(shù)據(jù)量進(jìn)行了調(diào)整,以測(cè)試模型性能隨著這些因素的變化情況。結(jié)果如下所示:
可以看到,在零樣本預(yù)測(cè)能力上,AnyGraph保持了隨參數(shù)量和數(shù)據(jù)量增長(zhǎng)而不斷上升的趨勢(shì),這一現(xiàn)象在訓(xùn)練數(shù)據(jù)集上未能觀測(cè)到。這展示了AnyGraph在泛化能力上符合Scaling Law。這同時(shí)也說明,這種突破性的模型性能增長(zhǎng)應(yīng)該在更具挑戰(zhàn)性的任務(wù)上尋找,例如跨領(lǐng)域的零樣本預(yù)測(cè)。
這種不斷增長(zhǎng)的突破性模型性能,來源于AnyGraph通用的模型設(shè)計(jì),以及其在大量跨領(lǐng)域數(shù)據(jù)上的充分訓(xùn)練。