圖模型也要大?清華朱文武團隊有這樣一些觀點
在大模型時代,圖機器學(xué)習(xí)面臨什么樣的機遇和挑戰(zhàn)?是否存在,并該如何發(fā)展圖的大模型?針對這一問題,清華大學(xué)朱文武教授團隊首次提出圖大模型(Large Graph Model)概念,系統(tǒng)總結(jié)并梳理了圖大模型相關(guān)的概念、挑戰(zhàn)和應(yīng)用;進一步圍繞動態(tài)性和可解釋性,在動態(tài)圖大模型和解耦圖大模型方面取得了研究進展。
論文地址:https://arxiv.org/abs/2308.14522
一、相關(guān)概念
(一)圖大模型
圖大模型是指具有大量參數(shù)的圖機器學(xué)習(xí)模型,具有比小模型更強大的學(xué)習(xí)能力,能更好地對圖數(shù)據(jù)進行理解、分析和應(yīng)用。為實現(xiàn)上述目標(biāo),圖大模型應(yīng)該具有以下四方面的核心能力:
1. 圖學(xué)習(xí)模型的規(guī)模定律(graph models with scaling law):規(guī)模定律是首先在大語言模型(LLM)中發(fā)現(xiàn)的一種經(jīng)驗現(xiàn)象,即模型性能隨著規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練計算量的增加而持續(xù)提升。借鑒大語言模型的經(jīng)驗,圖大模型應(yīng)能夠展現(xiàn)出當(dāng)前小規(guī)模或中等規(guī)模圖學(xué)習(xí)模型無法具備的新能力。
2. 圖基礎(chǔ)模型(graph foundation model):圖基礎(chǔ)模型是指一個經(jīng)過預(yù)訓(xùn)練的圖大模型能夠處理不同領(lǐng)域的圖數(shù)據(jù)和任務(wù)。這要求圖大模型能夠理解圖的內(nèi)在結(jié)構(gòu)和性能,以具備圖的 “常識知識”。圖預(yù)訓(xùn)練范式可以讓模型接觸大量無標(biāo)簽圖數(shù)據(jù),從而減少對圖標(biāo)簽的依賴,是發(fā)展圖基礎(chǔ)模型的重要途徑。此外,生成式預(yù)訓(xùn)練可以賦予模型生成圖數(shù)據(jù)的能力,從而支持許多有重要價值的圖生成應(yīng)用,例如藥物合成、代碼生成等。盡管如此,由于圖數(shù)據(jù)的通用性和多樣性,目前來看為所有領(lǐng)域的圖數(shù)據(jù)開發(fā)出一個 “通用圖模型” 是幾乎不可行的。因此,為不同簇的相關(guān)領(lǐng)域開發(fā)若干個圖基礎(chǔ)模型可能更加容易實現(xiàn)。
3. 圖上下文學(xué)習(xí)(in-context graph learning):圖大模型應(yīng)具有理解圖上下文的能力,包括節(jié)點、邊、子圖和全圖等,并且在上述過程中無需進行過多的模型修改或?qū)W習(xí)范式改變。該能力與圖的少樣本 / 零樣本學(xué)習(xí)、多任務(wù)學(xué)習(xí)和圖的分布外泛化能力密切相關(guān)。上下文學(xué)習(xí)能力可以使圖大模型充分利用預(yù)訓(xùn)練階段學(xué)習(xí)到的知識和能力,并在新數(shù)據(jù)測試中快速適應(yīng)以達到預(yù)期性能。
4. 靈活的圖推理能力(versatile graph reasoning):雖然圖數(shù)據(jù)橫跨不同領(lǐng)域,但有一些基礎(chǔ)圖任務(wù)是共通的,我們稱其為 “圖推理”。目前哪些任務(wù)屬于圖推理并無嚴(yán)格的定義,下面介紹一些代表性的例子。首先,圖大模型應(yīng)該理解基本的圖拓?fù)浣Y(jié)構(gòu),如圖的大小、度數(shù)、節(jié)點連通性等,它們也是處理更復(fù)雜圖任務(wù)的基礎(chǔ)。其次,圖大模型應(yīng)該能夠進行圖上的多跳推理,以考慮圖的高階信息。這種能力與大語言模型的思維鏈(Chain-of-Thought)異曲同工,可以增強圖任務(wù)相關(guān)決策過程中的可解釋性和模型透明性。除了局部信息,圖大模型還應(yīng)具備理解和處理全局結(jié)構(gòu)和更復(fù)雜圖模式相關(guān)圖任務(wù)的能力。
雖然圖大模型有許多值得期待的能力,但目前尚未出現(xiàn)如 ChatGPT 一樣成功的圖大模型。接下來,我們將從圖表征空間、圖數(shù)據(jù)、圖學(xué)習(xí)模型以及圖應(yīng)用對圖大模型目前的研究進展和存在的瓶頸進行梳理。
(二)圖表征空間
大語言模型可以廣泛用于不同的下游任務(wù),其背后一個重要原因在于自然語言中的單詞與詞元(token)屬于一種通用且信息無損的數(shù)據(jù)表征方式,可以用于不同任務(wù)。相比之下,圖是一種更加通用的數(shù)據(jù)結(jié)構(gòu),涵蓋了不同領(lǐng)域。因此,以原始圖數(shù)據(jù)作為輸入,例如節(jié)點和邊,并不總是最合適的數(shù)據(jù)表征方式。例如,在社交網(wǎng)絡(luò)、分子圖和知識圖譜中,節(jié)點和邊都具有不同的語義特征和拓?fù)淇臻g,存在顯著差異性。
之前研究中普遍認(rèn)為,更高層次的圖模式,可以在領(lǐng)域內(nèi)不同的圖和任務(wù)之間進行知識遷移。例如,網(wǎng)絡(luò)科學(xué)中研究的同質(zhì)性、小世界現(xiàn)象、節(jié)點度數(shù)的冪律分布等,均有更廣泛的適用性。即便如此,如何構(gòu)建有效的、能夠在不同領(lǐng)域圖數(shù)據(jù)中遷移的圖大模型仍帶來巨大的挑戰(zhàn)。
此外,大語言模型另一個關(guān)鍵能力是能夠遵循指令并與人交互,因為人類天生具備理解語言和視覺的能力。相比而言,人在處理圖數(shù)據(jù),尤其是復(fù)雜的推理問題方面,并不具備先天優(yōu)勢。如何與圖大模型進行互動,使其可以按照期望的方式解決圖任務(wù),同樣具有挑戰(zhàn)性。為解決該問題,下面總結(jié)了三種值得探索的策略。
第一種策略是通過大量的成對數(shù)據(jù)將圖和文本的表征空間進行對齊,這與目前大模型處理計算機視覺(如 DALLE 等)的方法原理類似。如果成功,我們也能夠使用自然語言與圖大模型進行交流,例如要求模型生成具有某些屬性的分子圖,或要求模型執(zhí)行某些圖推理任務(wù)等。目前已經(jīng)有對于文本屬性圖(text-attributed graph)的一些初步嘗試。然而,相比于圖像-文本對,收集更廣泛的圖-文本對數(shù)據(jù)成本更高,也更具挑戰(zhàn)性。
第二種策略是將圖轉(zhuǎn)化為自然語言,然后僅通過語言模型進行處理。最常見的流程是首先將圖結(jié)構(gòu)轉(zhuǎn)化為文本表示(例如鄰接表或邊表),作為提示插入到大語言模型中,然后使用自然語言進行圖分析。該方向近期受到了一定關(guān)注,將在后文的圖模型中進行更詳細(xì)的討論。然而,將圖數(shù)據(jù)和任務(wù)轉(zhuǎn)化為語言時可能會丟失圖的內(nèi)部結(jié)構(gòu),導(dǎo)致模型性能目前尚無法達到預(yù)期。
最后一種策略是通過其它表征空間作為圖任務(wù)和自然語言之間的橋梁。例如,盡管人類很難直觀地處理圖數(shù)據(jù),但我們可以設(shè)計合適的算法來解決不同圖任務(wù),例如圖論中許多著名的算法,包括最短路、動態(tài)規(guī)劃等。因此,如果可以將圖學(xué)習(xí)模型的運行狀態(tài)與算法對齊,就能在一定程度上理解和控制圖學(xué)習(xí)模型的運行狀態(tài)。這個方向上同樣有一些研究成果,被稱為算法推理(algorithmic reasoning),值得繼續(xù)探索。
總結(jié)來看,找到合適的圖表征空間并與自然語言對齊,同時統(tǒng)一不同領(lǐng)域的圖數(shù)據(jù)和圖任務(wù),是構(gòu)建圖大模型的一個基礎(chǔ)。
(三)圖數(shù)據(jù)
大模型的成功離不開大規(guī)模數(shù)據(jù)集的支撐。例如,GPT-3 在大約 5000 億個詞元的語料庫上進行了預(yù)訓(xùn)練;多模態(tài)模型 CLIP 則在 4 億個圖像-文本對上進行了訓(xùn)練。更近期的大模型,例如 GPT-4,使用了更多的數(shù)據(jù)。這些自然語言和計算機視覺的大數(shù)據(jù)通常來自互聯(lián)網(wǎng),例如 CommonCrawl 中的網(wǎng)頁或社交媒體中用戶發(fā)布的照片,這些數(shù)據(jù)相對而言更易于規(guī)模化地收集。
相比之下,大規(guī)模圖數(shù)據(jù)并不容易獲取。圖通常面臨兩類場景:大量的小規(guī)模圖,如很多分子圖,或者少數(shù)大規(guī)模圖,如社交網(wǎng)絡(luò)或引用網(wǎng)絡(luò)。例如,OGB(Open Graph Benchmark)是圖機器學(xué)習(xí)中最具代表性的基準(zhǔn)數(shù)據(jù)集之一,其中最大的兩個數(shù)據(jù)集,MAG240M 包含了一個大約有 2.4 億個節(jié)點和 13 億條邊的引用網(wǎng)絡(luò),PCQM4M 則包含了大約 400 萬個分子。盡管 OGB 已經(jīng)比之前常用的圖數(shù)據(jù)大了幾個數(shù)量級,但它的規(guī)模可能還是遠遠不夠。如果將 MAG240M 中的每個節(jié)點視為一個詞元或?qū)?PCQM4M 中的每個圖視為一張圖片,那 OGB 仍比自然語言或計算機視覺中使用的數(shù)據(jù)集小至少 1000 倍。
除了預(yù)訓(xùn)練所需的大規(guī)模無標(biāo)注數(shù)據(jù),帶標(biāo)簽的基準(zhǔn)數(shù)據(jù)集在大模型研制中同樣重要,例如用于自然語言的 SuperGLUE 和 BIG-bench,用于計算機視覺的 ImageNet 等。對于圖,上面介紹的 OGB 或其它圖機器學(xué)習(xí)基準(zhǔn),例如 Benchmarking GNN,它們的規(guī)模、任務(wù)和領(lǐng)域多樣性以及測評方式可能也不完全適合圖大模型。因此,圖大模型的研究應(yīng)當(dāng)包括設(shè)計更有針對性的基準(zhǔn)測試數(shù)據(jù)。
(四)圖學(xué)習(xí)模型(graph model)
1. 神經(jīng)網(wǎng)絡(luò)架構(gòu)
圖神經(jīng)網(wǎng)絡(luò)(GNN)與圖 Transformer 是兩類最主流的圖機器學(xué)習(xí)模型,可以從以下四個方面對兩類模型進行對比:
- 聚合 vs. 自注意力:GNN 采用消息傳遞機制聚合來自相鄰節(jié)點的信息,而圖 Transformer 則使用自注意力來決定相鄰節(jié)點的貢獻。
- 建模圖結(jié)構(gòu):GNN 會在消息傳遞過程中考慮圖結(jié)構(gòu)作為模型的歸納偏置,而圖 Transformer 則采用結(jié)構(gòu)編碼等預(yù)處理策略來建模結(jié)構(gòu)。
- 深度與過平滑:深層 GNN 可能會受到過平滑的影響,導(dǎo)致其能力下降。圖 Transformer 一般則未觀察到類似問題。一種可能的解釋是,圖 Transformer 能自適應(yīng)地關(guān)注更加相關(guān)的節(jié)點,從而有效地過濾信息。
- 可擴展性和效率:大多數(shù) GNN 的基本操作相對簡單,因此計算上有優(yōu)勢。相比之下,圖 Transformer 中節(jié)點對的自注意力機制會耗費更大量計算資源,尤其是對大規(guī)模圖數(shù)據(jù)。
2. 預(yù)訓(xùn)練
在大規(guī)模無標(biāo)注語料上進行預(yù)訓(xùn)練早已成為大模型在自然語言處理和計算機視覺領(lǐng)域中成功不可或缺的因素。圖上的預(yù)訓(xùn)練,或稱為圖自監(jiān)督學(xué)習(xí),同樣獲得了關(guān)注,發(fā)展出包括對比式(contrastive)與預(yù)測式(predictive)學(xué)習(xí)等多類方法,我們將其總結(jié)為圖上預(yù)處理的四 E 原則:
- 編碼(Encoding)圖結(jié)構(gòu):與文本和圖像數(shù)據(jù)預(yù)訓(xùn)練方法更關(guān)注語義信息不同,圖包含豐富的結(jié)構(gòu)信息。因此,預(yù)訓(xùn)練圖大模型需要聯(lián)合考慮不同圖數(shù)據(jù)集上的結(jié)構(gòu)和語義信息。
- 緩解(Easing)數(shù)據(jù)稀疏與標(biāo)簽缺乏:圖大模型應(yīng)具有很大的模型容量,因此容易出現(xiàn)過擬合,特別是在僅使用少量標(biāo)注數(shù)據(jù)時。在更大規(guī)模的圖數(shù)據(jù)集和不同的圖任務(wù)上進行預(yù)訓(xùn)練可以起到正則化的作用,提高泛化性。
- 擴展(Expanding)應(yīng)用領(lǐng)域:預(yù)訓(xùn)練的一個特點是能夠?qū)⑺鶎W(xué)知識遷移到不同領(lǐng)域。通過在不同的圖數(shù)據(jù)集上對圖大模型進行預(yù)訓(xùn)練,以捕捉到更通用的結(jié)構(gòu),然后將這些知識應(yīng)用、適配或微調(diào)到相似領(lǐng)域的圖數(shù)據(jù)中,從而最大程度地提升模型的適用性。
- 提升(Enhancing)魯棒性與泛化性:預(yù)訓(xùn)練可以讓圖大模型接觸到具有不同特點的圖數(shù)據(jù),包括不同大小、結(jié)構(gòu)和復(fù)雜性的圖,從而使模型更加魯棒并泛化到未見過的圖數(shù)據(jù)或新的圖任務(wù)。
3. 模型適配
模型適配是將大語言模型應(yīng)用到不同下游任務(wù)的重要環(huán)節(jié),這對圖大模型同樣成立。代表性的模型適配技術(shù)包括提示學(xué)習(xí)(prompting)、高效參數(shù)微調(diào)(parameter-efficient fine-tuning)、模型對齊(alignment)和模型壓縮(model compression)等。下面簡要總結(jié)用于圖模型的適配技術(shù)。
提示學(xué)習(xí)最初是指為語言模型提供特定指令,以生成下游任務(wù)所需的內(nèi)容。在大模型中,如何構(gòu)建有效的提示是提升其在上下文學(xué)習(xí)效果的重要途徑。例如,大語言模型的提示通常包含下游任務(wù)的描述和一些示例。構(gòu)建提示的一個關(guān)鍵在于使下游任務(wù)的形式和預(yù)訓(xùn)練任務(wù)一致。在自然語言中,許多不同的任務(wù)都可以被統(tǒng)一建模為語言模型(language model),即通過上文生成下文。相比之下,圖數(shù)據(jù)的提示學(xué)習(xí)面臨的一個重要挑戰(zhàn)是如何統(tǒng)一不同的圖任務(wù),包括節(jié)點級、邊級和圖級的任務(wù)等。
高效參數(shù)微調(diào)(parameter-efficient fine-tuning)是指僅優(yōu)化模型的一小部分參數(shù),而將其余參數(shù)保持固定的一種微調(diào)技術(shù)。除了減少計算成本,它還可以通過自適應(yīng)使模型能夠處理新任務(wù),同時不忘記預(yù)訓(xùn)練中獲得的知識。近期,圖模型高效參數(shù)微調(diào)也開始受到關(guān)注。
模型壓縮旨在通過各種技術(shù)(包括知識蒸餾、剪枝和量化等)減少模型對硬件的需求,尤其適用于在資源受限場景中部署大模型。量化(Quantization)在大語言模型中受到了廣泛關(guān)注。量化的核心是減少模型使用的數(shù)值精度,同時盡可能保持模型性能。對于大模型,訓(xùn)練后量化(PTQ)尤其受歡迎,因為它無需重新訓(xùn)練大模型。
總結(jié)來看,受到大語言模型等相關(guān)技術(shù)啟發(fā),圖的模型適配研究同樣吸引了一定關(guān)注。然而,由于目前尚無特別成功的圖大模型,這些方法的評估局限于相對較小的圖模型。因此,進一步驗證它們在應(yīng)用于圖大模型時的有效性至關(guān)重要,也會帶來更多的挑戰(zhàn)和機遇。
4. 圖上的大語言模型
近期,一個新的研究熱點是直接利用大語言模型解決圖任務(wù)。其基本思想是將圖數(shù)據(jù)(包括圖結(jié)構(gòu)和特征)以及圖任務(wù)轉(zhuǎn)化為自然語言表示,然后將圖問題視為常規(guī)的自然語言處理問題。例如,NLGraph 對大語言模型(如 GPT-3 和 GPT-4)在八個圖推理任務(wù)上進行了系統(tǒng)評估。這些任務(wù)涵蓋了不同復(fù)雜度的問題,包括連通性、最短路徑、最大流、模擬 GNN 等。實證結(jié)果發(fā)現(xiàn),大語言模型在圖推理方面顯示出初步的能力,但在處理更復(fù)雜的圖問題上存在瓶頸。
另一個代表性工作 Graph-LLM 則系統(tǒng)地研究了大語言模型在文本屬性圖中的應(yīng)用。具體而言,它探索了兩種策略:大語言模型作為增強器(LLMs-as-Enhancers),即使用大語言模型增強節(jié)點的文本屬性表征,然后將其傳遞給其他圖模型,例如圖神經(jīng)網(wǎng)絡(luò);大語言模型作為預(yù)測器(LLMs-as-Predictors),即直接將大語言模型用作預(yù)測器。實驗結(jié)果表明,大語言模型可以為圖機器學(xué)習(xí)提供巨大幫助。盡管這類研究仍處于早期階段,但它們驗證了大語言模型也是發(fā)展圖大模型的一個可能途徑,值得進一步探索和研究。
(五)圖應(yīng)用
圖大模型存在許多有價值的潛在應(yīng)用,包括但不限于推薦系統(tǒng)、知識圖譜、分子建模、金融分析、代碼與程序分析、城市計算與交通等。在這些領(lǐng)域中,目前已經(jīng)出現(xiàn)了部分基于大語言模型的嘗試,但大都忽略了圖結(jié)構(gòu)信息。為使圖大模型在這些領(lǐng)域中有效應(yīng)用,需要利用大量易收集的圖數(shù)據(jù),并結(jié)合領(lǐng)域知識,對圖大模型進行相應(yīng)處理,例如微調(diào)或提示學(xué)習(xí)等。
二、研究進展
朱文武教授團隊針對圖大模型關(guān)鍵問題,圍繞動態(tài)性和可解釋性,取得了如下進展。
(一)基于大語言模型的動態(tài)圖評測基準(zhǔn)與時空解耦思維鏈提示
動態(tài)圖,即圖中信息隨時間發(fā)生變化,在真實世界中非常普遍,并在交通預(yù)測、欺詐檢測、序列推薦等領(lǐng)域具有廣泛的應(yīng)用。雖然之前一些工作探索了大語言模型在靜態(tài)圖上的能力。但大語言模型能否理解和處理動態(tài)圖上的時空信息尚未被研究。相比于靜態(tài)圖,動態(tài)圖具有更復(fù)雜的時空混合模式,因此更具挑戰(zhàn)性,總結(jié)為如下三方面:
- 如何設(shè)計動態(tài)圖任務(wù)以評估大語言模型理解時間和圖結(jié)構(gòu)信息的能力;
- 動態(tài)圖上時間和空間維度具有復(fù)雜的相互作用,如何研究這些相互作用對模型性能的影響;
- 如何設(shè)計動態(tài)圖和相關(guān)任務(wù)的提示,使得模型能通過自然語言建模時空信息。
針對這些問題,朱文武教授團隊提出了一個 LLM4DyG,首個用于評估大語言模型在動態(tài)圖上時空理解能力的評測基準(zhǔn)。
LLM4DyG 評測基準(zhǔn)流程圖
具體而言,我們針對性地設(shè)計了九個動態(tài)圖任務(wù),從時間、空間、時空三個維度評估大語言模型的能力,這些任務(wù)包括不同的時空模式(如時空連接、時空路徑和動態(tài)三角閉合等)以及三類不同的問題:“何時”(when)、“在哪”(where)、“是否”(whether)。同時,還采用了:
- 三種不同的數(shù)據(jù)生成方法,包括 Erd?s-Rényi 模型、隨機塊模型和森林火災(zāi)模型;
- 多種統(tǒng)計指標(biāo),包括時間跨度、圖大小和密度等;
- 四種常見的提示技術(shù),包括零樣本 / 少樣本提示、零樣本 / 少樣本思維鏈提示等;
- 以及五種大語言模型,包括閉源的 GPT-3.5 和開源的 Vicuna-7B、Vicuna-13B、Llama-2-13B 以及 CodeLlama-2-13B。
根據(jù)實驗觀察,我們進一步設(shè)計了動態(tài)圖時空解耦思維鏈 (DST2) 提示技術(shù),以鼓勵大語言模型分別處理空間和時間信息。實驗結(jié)果表明,DST2 可以有效提高大語言模型在動態(tài)圖任務(wù)上的表現(xiàn)。
LLM4DyG 動態(tài)圖任務(wù)
(二)解耦圖大語言模型
文本屬性圖(text attributed graph)在研究與應(yīng)用上均非常普遍,例如引用網(wǎng)絡(luò)、電子商務(wù)網(wǎng)絡(luò)和社交網(wǎng)絡(luò)等。最近,同樣有不少研究將大語言模型應(yīng)用于文本屬性圖。然而,現(xiàn)有方法僅通過提示將圖結(jié)構(gòu)信息傳遞給大語言模型,導(dǎo)致大語言模型無法理解圖內(nèi)部復(fù)雜的結(jié)構(gòu)關(guān)系。針對該問題,我們提出了解耦圖 - 文本學(xué)習(xí)(DGTL)模型,以增強大語言模型在文本屬性圖上的推理和預(yù)測能力。DGTL 模型通過解耦圖神經(jīng)網(wǎng)絡(luò)層將圖結(jié)構(gòu)信息進行編碼,使大語言模型能夠捕捉文本屬性圖中隱藏結(jié)構(gòu)因子間的復(fù)雜關(guān)系。此外,DGTL 模型無需對預(yù)訓(xùn)練大語言模型中的參數(shù)進行微調(diào),從而降低計算成本,并適配于不同的大語言模型。實驗結(jié)果證明所提出的 DGTL 模型能達到比最先進基線模型更優(yōu)或相仿的性能,同時還可以為預(yù)測結(jié)果提供基于自然語言的解釋,顯著提高了模型的可解釋性。
DGTL 模型框架圖
相關(guān)鏈接:
論文合集:https://github.com/THUMNLab/awesome-large-graph-model