谷歌推出全新模型,將Transformer與NAR相結(jié)合
Transformer架構(gòu)的出現(xiàn)極大推動(dòng)了大模型的技術(shù)創(chuàng)新,誕生出了ChatGPT、Coplit、訊飛星火、文心一言等一系列生成式AI產(chǎn)品。
雖然Transformer在自然語(yǔ)言理解任務(wù)上表現(xiàn)很好,但在算法推理方面有嚴(yán)重的缺陷。例如,當(dāng)面臨超出訓(xùn)練數(shù)據(jù)分布的輸入時(shí),其泛化能力會(huì)急劇下降。這主要是因?yàn)樗鼈兊淖曰貧w性質(zhì)和掩蔽注意力機(jī)制,不符合算法輸出的邏輯順序。
而神經(jīng)算法推理(NAR) 在結(jié)構(gòu)化輸入上表現(xiàn)好,能夠處理各種算法任務(wù),并且在面對(duì)訓(xùn)練集之外的更大輸入時(shí)仍能保持完美的泛化能力。因此,谷歌DeepMind的研究人員將Transformer與NAR相結(jié)合推出了——TransNAR。
NAR是一種專(zhuān)門(mén)處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其算法的計(jì)算步驟被表示為圖的節(jié)點(diǎn)和邊,而節(jié)點(diǎn)之間的信息通過(guò)邊進(jìn)行傳遞和更新。這種巧妙設(shè)計(jì)使得NAR能夠自然地表達(dá)算法的邏輯流程,包括條件判斷、循環(huán)迭代等編程結(jié)構(gòu)。
在TransNAR架構(gòu)中,研究人員并沒(méi)有簡(jiǎn)單地將Transformer和NAR串聯(lián)或并聯(lián),而是通過(guò)一種稱(chēng)為跨注意力的機(jī)制進(jìn)行深度融合。
在這種機(jī)制下,Transformer的每一層都能夠接收來(lái)自NAR的節(jié)點(diǎn)和邊的嵌入信息,這些信息通過(guò)查詢(xún)、鍵和值的形式進(jìn)行交互,從而實(shí)現(xiàn)信息的流動(dòng)和整合。
TransNAR的輸入主要包括文本形式的算法問(wèn)題描述,以及相應(yīng)的圖表示兩大塊:首先文本輸入被送入Transformer層,通過(guò)標(biāo)準(zhǔn)的Transformer操作,如自注意力和前饋網(wǎng)絡(luò),來(lái)生成文本的表示。
同時(shí),圖表示被送入NAR層,通過(guò)圖神經(jīng)網(wǎng)絡(luò)的操作,如最大池化或消息傳遞,來(lái)生成圖的節(jié)點(diǎn)和邊的表示。
當(dāng)Transformer和NAR各自準(zhǔn)備好了自己的表示后,跨注意力機(jī)制開(kāi)始發(fā)揮作用。
Transformer的查詢(xún)與NAR的鍵進(jìn)行匹配,通過(guò)softmax函數(shù)進(jìn)行歸一化,然后與NAR的值進(jìn)行加權(quán)求和,最終生成Transformer的輸出。這一過(guò)程在模型的每一層都會(huì)重復(fù)迭代,直到最終生成模型的輸出。
多層級(jí)訓(xùn)練策略也是TransNAR成功的關(guān)鍵之一。在預(yù)訓(xùn)練階段,NAR被獨(dú)立訓(xùn)練,以執(zhí)行CLRS-30中的算法。CLRS-30是一個(gè)包含多種算法任務(wù)的基準(zhǔn),這些算法任務(wù)被轉(zhuǎn)換為圖表示形式,以便NAR能夠處理。
通過(guò)這種方式,幫助NAR能夠?qū)W習(xí)到各種算法的內(nèi)在邏輯和計(jì)算步驟,在面對(duì)不同算法任務(wù)時(shí),能夠展現(xiàn)出強(qiáng)大的魯棒性和泛化能力。
在微調(diào)階段,TransNAR開(kāi)始接受包含文本描述和圖表示的雙重輸入。此時(shí),Transformer部分開(kāi)始發(fā)揮作用,利用預(yù)訓(xùn)練的NAR提供的節(jié)點(diǎn)嵌入信息,通過(guò)跨注意力機(jī)制來(lái)調(diào)節(jié)自身的標(biāo)記嵌入。
此外,在微調(diào)的時(shí)候Transformer的參數(shù)是可訓(xùn)練的,而NAR的參數(shù)保持凍結(jié)。這將幫助Transformer在保持NAR魯棒性的同時(shí),學(xué)習(xí)如何將自然語(yǔ)言描述轉(zhuǎn)換為算法步驟,以確保模型能夠穩(wěn)定地學(xué)習(xí)和收斂。
研究人員通過(guò)CLRS-Text基準(zhǔn)測(cè)試,對(duì)TransNAR綜合測(cè)試。結(jié)果顯示, TransNAR模型在多種算法任務(wù)上顯著優(yōu)于基線(xiàn)Transformer。
尤其是在分布外的泛化能力上,TransNAR展現(xiàn)出了超過(guò)20%的優(yōu)化改進(jìn)。這表明TransNAR能夠有效地處理訓(xùn)練數(shù)據(jù)之外的更大或更復(fù)雜的問(wèn)題實(shí)例。
本文轉(zhuǎn)自 AIGC開(kāi)放社區(qū) ,作者: AIGC開(kāi)放社區(qū)
