MoE再下一城！港大提出AnyGraph：首次開啟「圖大模型」Scaling Law之路

作者：新智元 2024-09-02 14:30:00

AnyGraph聚焦于解決圖數(shù)據(jù)的核心難題，跨越多種場(chǎng)景、特征和數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。其采用混合專家模型和特征統(tǒng)一方法處理結(jié)構(gòu)和特征異質(zhì)性，通過輕量化路由機(jī)制和高效設(shè)計(jì)提升快速適應(yīng)能力，且在泛化能力上符合Scaling Law。

圖數(shù)據(jù)，作為一種不可或缺的數(shù)據(jù)表現(xiàn)形式，廣泛滲透于社交網(wǎng)絡(luò)、學(xué)術(shù)科研網(wǎng)絡(luò)、交通管理系統(tǒng)及生物信息網(wǎng)絡(luò)等諸多領(lǐng)域。作為最廣泛應(yīng)用的圖學(xué)習(xí)范式，圖表征學(xué)習(xí)致力于學(xué)習(xí)圖中節(jié)點(diǎn)的表示向量，融合結(jié)構(gòu)特性與節(jié)點(diǎn)特征，以實(shí)現(xiàn)精準(zhǔn)的預(yù)測(cè)與分析。

近年來涌現(xiàn)出了大量的圖學(xué)習(xí)方法，包括圖神經(jīng)網(wǎng)絡(luò)、圖自監(jiān)督學(xué)習(xí)、圖預(yù)訓(xùn)練和微調(diào)方法、以及圖大語言模型。這些方法不斷精進(jìn)圖學(xué)習(xí)模型的建模能力和預(yù)測(cè)精度，近年的一些方法探索了增強(qiáng)圖模型泛化能力的途徑。

然而，當(dāng)前方法普遍依賴于復(fù)雜的調(diào)優(yōu)流程，難以靈活應(yīng)對(duì)實(shí)際圖數(shù)據(jù)復(fù)雜多變的結(jié)構(gòu)與特征特性。當(dāng)圖數(shù)據(jù)涉及多個(gè)領(lǐng)域，且模型在訓(xùn)練階段未曾見過時(shí)，當(dāng)前模型難以處理，體現(xiàn)了現(xiàn)有方法在跨領(lǐng)域的零樣本預(yù)測(cè)任務(wù)上泛化性能的不足。

為了解決這一問題，香港大學(xué)的研究人員提出AnyGraph這一圖基礎(chǔ)模型。

論文鏈接：https://arxiv.org/pdf/2408.10700

項(xiàng)目地址：https://github.com/HKUDS/AnyGraph

基于圖數(shù)據(jù)的獨(dú)特性質(zhì)，AnyGraph聚焦于攻克一下幾個(gè)方面的核心難題，模型預(yù)訓(xùn)練跨越了8種場(chǎng)景、10類特征、以及38個(gè)數(shù)據(jù)集, 以實(shí)現(xiàn)搭建圖基礎(chǔ)模型的目標(biāo)：

結(jié)構(gòu)和特征異質(zhì)性

不同應(yīng)用場(chǎng)景下的圖數(shù)據(jù)，其結(jié)構(gòu)形態(tài)千差萬別，包括節(jié)點(diǎn)連接密度、密集子圖分布、數(shù)據(jù)噪聲與缺失情況等。現(xiàn)有的方法，例如圖神經(jīng)網(wǎng)絡(luò)，往往被訓(xùn)練用于預(yù)測(cè)一類具有固定特點(diǎn)的圖數(shù)據(jù)，其模型本身的容納能力，也無法處理真實(shí)世界中跨場(chǎng)景的復(fù)雜多樣數(shù)據(jù)。

此外，不同數(shù)據(jù)集往往存在嚴(yán)重的特征異質(zhì)性。節(jié)點(diǎn)特征是圖數(shù)據(jù)的核心組成部分之一，但在不同數(shù)據(jù)集中展現(xiàn)出極大的差異性。從離散類別到連續(xù)數(shù)值，從文本嵌入到圖統(tǒng)計(jì)特征，乃至特征向量的維度都各不相同。如何在零樣本場(chǎng)景下處理這些多樣化的特征，成為圖基礎(chǔ)模型必須跨越的障礙。

為了應(yīng)對(duì)結(jié)構(gòu)和特征的異質(zhì)性挑戰(zhàn)，AnyGraph采用混合專家模型（MoE）架構(gòu)，在模型中集成了同構(gòu)但參數(shù)不同、互不耦合的多個(gè)專家圖模型。基于一種高效且強(qiáng)大的專家路由算法，將不同的輸入數(shù)據(jù)分配給適合的專家模型進(jìn)行學(xué)習(xí)和預(yù)測(cè)。通過這種方式，AnyGraph可以輕松集成針對(duì)不同圖數(shù)據(jù)特點(diǎn)的專家模型，從而達(dá)到更強(qiáng)的模型魯棒性。

另一方面，AnyGraph的每個(gè)專家模型都采用了統(tǒng)一的結(jié)構(gòu)和特征統(tǒng)一方法，基于特征值分解方法，專家模型將具有不同維度、不同語義的鄰接矩陣數(shù)據(jù)和節(jié)點(diǎn)特征數(shù)據(jù)，都映射為具有統(tǒng)一長(zhǎng)度和相近語義的統(tǒng)一表征。在這一基礎(chǔ)上，即使不同數(shù)據(jù)的表征仍存在一些差異，也可以輕易被專家集成的MoE架構(gòu)解決。

快速適應(yīng)能力

一個(gè)高效的圖基礎(chǔ)模型應(yīng)具備快速適應(yīng)新數(shù)據(jù)集和領(lǐng)域的能力，能夠在不依賴大量重新訓(xùn)練或微調(diào)的情況下，迅速調(diào)整其參數(shù)和學(xué)習(xí)策略，以應(yīng)對(duì)未知圖數(shù)據(jù)的挑戰(zhàn)。然而，現(xiàn)有的圖基礎(chǔ)模型通常基于大規(guī)模的預(yù)訓(xùn)練語言模型，難以進(jìn)行快速的模型調(diào)整。這種對(duì)新圖域的低效適應(yīng)性，成為限制圖學(xué)習(xí)技術(shù)廣泛應(yīng)用的瓶頸。

針對(duì)這一問題，AnyGraph設(shè)計(jì)了輕量化的圖專家路由機(jī)制，使用自監(jiān)督任務(wù)來快速評(píng)測(cè)多個(gè)專家任務(wù)對(duì)輸入數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性。在不引入額外標(biāo)簽數(shù)據(jù)的情況下，這一方法可以準(zhǔn)確找到最優(yōu)的專家模型，在僅使用單個(gè)專家模型、極少數(shù)模型參數(shù)的情況下，達(dá)到優(yōu)于與大規(guī)模預(yù)訓(xùn)練模型的效果。

下圖展示了AnyGraph專家路由機(jī)制的分配結(jié)果，可以看到，同源（例如ML1M和ML10M）以及使用相同特征構(gòu)建方法（例如YelpT, SteamT, AmazT）的數(shù)據(jù)集，被分到了同樣的專家模型。

此外，AnyGraph的專家模型采用一種簡(jiǎn)單高效的設(shè)計(jì)，數(shù)據(jù)集的大部分信息可以預(yù)處理成高度有效的初始表征，而專家模型僅需要采用多層感知機(jī)模型，就能通過專家集成達(dá)到大規(guī)模模型的效果，從而減少模型前向和反向傳播的開銷。

下圖展示了AnyGraph在限定訓(xùn)練步數(shù)上花費(fèi)的計(jì)算時(shí)間，以及在fine-tune情況下的效果曲線，均展示了AnyGraph在快速適應(yīng)能力上的優(yōu)勢(shì)。

Scaling Law

在視覺和文本領(lǐng)域，大規(guī)模基礎(chǔ)模型的一個(gè)標(biāo)志性現(xiàn)象是Scaling Law，即隨著模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的增加，模型效果不斷提升。本文探索了圖基礎(chǔ)模型是否存在這樣的特點(diǎn)。

本文對(duì)AnyGraph的多個(gè)模型大小影響參數(shù)，以及訓(xùn)練數(shù)據(jù)量進(jìn)行了調(diào)整，以測(cè)試模型性能隨著這些因素的變化情況。結(jié)果如下所示：

可以看到，在零樣本預(yù)測(cè)能力上，AnyGraph保持了隨參數(shù)量和數(shù)據(jù)量增長(zhǎng)而不斷上升的趨勢(shì)，這一現(xiàn)象在訓(xùn)練數(shù)據(jù)集上未能觀測(cè)到。這展示了AnyGraph在泛化能力上符合Scaling Law。這同時(shí)也說明，這種突破性的模型性能增長(zhǎng)應(yīng)該在更具挑戰(zhàn)性的任務(wù)上尋找，例如跨領(lǐng)域的零樣本預(yù)測(cè)。

這種不斷增長(zhǎng)的突破性模型性能，來源于AnyGraph通用的模型設(shè)計(jì)，以及其在大量跨領(lǐng)域數(shù)據(jù)上的充分訓(xùn)練。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)訓(xùn)練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MoE再下一城！港大提出AnyGraph：首次開啟「圖大模型」Scaling Law之路

結(jié)構(gòu)和特征異質(zhì)性

快速適應(yīng)能力

Scaling Law