少于兩層的transformer，且只有注意力塊，GPT-3：你怕不是搞事情？

作者：我在思考中 2022-05-05 11:40:12

為了更好地理解transformer的工作原理，Anthropic AI的研究人員簡化了transformer的結(jié)構(gòu)，去除了所有的神經(jīng)元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現(xiàn)了transformer和他們已經(jīng)完全理解的更簡單模型之間的聯(lián)系。

在過去的兩年里，基于Transformer架構(gòu)開發(fā)的大規(guī)模語言模型在性能(如語言流暢度)上達(dá)到了令人嘆為觀止的效果。

但是，Transformer對單詞的處理方法是什么?學(xué)術(shù)界仍未有確定的答案。普遍的理解是，transformer模型能夠以某種方式同時關(guān)注多個單詞，以便立即進(jìn)行“全局”分析。但它到底是如何工作的，或者這是否是transformer模型的真正處理方式，仍舊撲朔迷離。

換言之，我們知道菜品的配料，但不知道配方。

針對這一問題，一家叫做 Anthropic AI 公司的研究人員進(jìn)行了兩項(xiàng)研究，希望從根本上理清transformer在處理和生成文本時的工作內(nèi)容是什么。

他們發(fā)現(xiàn)，少于兩層、且只有注意力塊的transformer在某些方面也能達(dá)到復(fù)雜transformer的效果，且能夠幫助理解背后的工作機(jī)制。

1、少于兩層的Transformer

在12月發(fā)布的第一篇論文(如下)中， Anthropic AI 公司的科研人員研究了transformer的簡化版本，并全面解釋了它們的功能。

這個工作得到了以色列理工學(xué)院 Yonatan Belinkov 的高度評價(jià)：“這篇論文很好地講述了transformer架構(gòu)在非常簡單的情況下是如何工作的。”“我非常看好這項(xiàng)工作，它既有趣又有前途，并且有些獨(dú)特和新穎。”

論文地址：https://transformer-circuits.pub/2021/framework/index.html

根據(jù)論文內(nèi)容，他們所研究的簡化版transformer是先學(xué)習(xí)基本語言模式，再獲得語言處理的通用能力。哈佛大學(xué)的 Martin Wattenberg 教授評價(jià)，他們的研究使得transformer的競爭力得到大幅躍升，同時揭露transformer背后的工作原理。

在3月8日發(fā)布的第二篇論文中，研究人員發(fā)現(xiàn)，他們所提出的簡化版transformer的能力在最復(fù)雜的transformer模型中也發(fā)揮了作用。他們在簡單模型中的發(fā)現(xiàn)可以應(yīng)用到規(guī)模更大的模型中。雖然這些簡化模型的數(shù)學(xué)原理仍然高深莫測，但其結(jié)果為深入理解transformers提供了一條新途徑。

論文地址：https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 transformer 的難點(diǎn)在于其抽象性。傳統(tǒng)的程序遵循一個合乎情理的過程，例如，每當(dāng)看到“green”(綠色的)這個詞，它們就會輸出“grass”(草)這個詞，而transformer將“green”這個詞轉(zhuǎn)換為數(shù)字，然后將它們乘以某些值。這些值(也稱為參數(shù))決定了下一個單詞是什么。參數(shù)在訓(xùn)練過程中得到了微調(diào)，模型會學(xué)習(xí)如何生成最佳輸出，但不清楚模型具體在學(xué)習(xí)什么。

大多數(shù)機(jī)器學(xué)習(xí)程序?qū)⑵鋽?shù)學(xué)部分封裝成模塊化要素，并稱之為“神經(jīng)元”。transformer加入了另外一種要素，稱為attention head(注意頭)，它們成組分層排列，就像神經(jīng)元一樣。但head執(zhí)行的操作與神經(jīng)元不同。一般認(rèn)為，head允許程序記住輸入的多個單詞，但這僅是一知半解。

我們可以看最簡單的語言模型——二元模型，它再現(xiàn)了基本的語言模式。例如，在對大量文本進(jìn)行訓(xùn)練時，二元模型會注意到“green”一詞后面最常出現(xiàn)的單詞(例如“grass”)并記住它。然后，在生成文本時，它會重現(xiàn)相同的模式。通過為每個輸入單詞記憶一個相關(guān)的后續(xù)單詞，它可以獲得非常基本的語言知識。

研究人員表明，具有一層attention head的 transformer 模型也具備同樣的能力：它再現(xiàn)了所記憶的內(nèi)容。假設(shè)給定一個特定的輸入，比如“Doctor Smith went to the store because Doctor X…”(史密斯博士去商店是因?yàn)閄博士)這個輸入被稱為提示或上下文。對我們來說，下一個詞X指向“Smith”是顯而易見的。

在經(jīng)過訓(xùn)練的單層模型中，attention head可以通過兩個步驟進(jìn)行預(yù)測。首先，它查看上下文中的最后一個單詞(Doctor)，并在上下文中搜索它已經(jīng)學(xué)習(xí)(在訓(xùn)練期間)與最后一個單詞相關(guān)聯(lián)的特定單詞。然后，對于它找到的任意單詞，從中查找另一個它已經(jīng)學(xué)會與找到的單詞相關(guān)聯(lián)的單詞，就像在二元模型中一樣，這可以是同一個詞。再將這個關(guān)聯(lián)的單詞作為模型的輸出。

在上述例子中，研究人員表明，根據(jù)最后一個單詞“Doctor”，head通過訓(xùn)練知道如何搜索一個常用名稱。在句子的前面找到“Smith”這個名字后，head會查看所學(xué)的與“Smith”關(guān)聯(lián)的內(nèi)容，并將該單詞作為輸出。在這種情況下，模型已經(jīng)學(xué)會將同一個詞“Smith”與找到的詞“Smith”相關(guān)聯(lián)。整個過程的最終效果是模型將“Smith”一詞從上下文復(fù)制到輸出。

圖注：從左到右分別為 Chris Olah、Catherine Olsson 與 Nelson Elhage

不過，到目前為止，記憶只能采用一種模式。不妨想一下，當(dāng)Smith的名字變成了一個虛構(gòu)的名字，比如“Gigamuru”時會發(fā)生什么。對我們而言，預(yù)測下一個單詞輕而易舉，但模型在訓(xùn)練期間不會識別出虛構(gòu)的詞，因此不可能記住它與其他詞之間的任何關(guān)系，也不會生成它。

2、引入歸納頭

Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn)，當(dāng)他們研究一個更復(fù)雜的模型時，比如一個有兩層attention head的模型，出現(xiàn)了一種解決方案。它依賴于attention head獨(dú)有的能力：不僅可以將信息移動到輸出，還可以移動到上下文中的其他位置。這種能力可以使第一層的head利用前面單詞的信息，學(xué)習(xí)注釋上下文中的每個單詞。然后，第二個head可以搜索“Doctor”(在本例中為“Gigamuru”)之前的單詞，并像單層模型中的head一樣，將其移動到輸出。

研究人員將后一層與前一層協(xié)作的attention head稱為induction head(歸納頭)。它不僅僅起到記憶的作用。根據(jù)Nelson Elhage的解釋，它還可以做一些看起來更像是抽象推理或算法實(shí)現(xiàn)的工作。

induction head可以讓兩層模型發(fā)揮更大的作用，但它們與全尺度transformer的相關(guān)性尚不清楚，因?yàn)槿叨萾ransformer有數(shù)百個attention head協(xié)同工作。在他們的第二篇論文中，研究人員表示這些發(fā)現(xiàn)得到了延續(xù)：induction head似乎對一些最復(fù)雜、多層結(jié)構(gòu)的行為起到了關(guān)鍵作用。

在這些行為中，算術(shù)能力尤為突出，因?yàn)槟Ｐ椭唤邮芰送瓿晌谋镜挠?xùn)練。例如，如果給出重復(fù)提示：“問:48+76是多少?答:124，問:48+76是多少?答:“全尺度模型會得到正確答案。”。在給出充足的非重復(fù)性示例后，它將能夠正確回答從未見過的算術(shù)問題。這種從語境中學(xué)習(xí)新能力的現(xiàn)象被稱為上下文學(xué)習(xí)。

這種現(xiàn)象令人費(fèi)解，因?yàn)閺纳舷挛闹袑W(xué)習(xí)是不可能的。這是因?yàn)闆Q定模型性能的參數(shù)只在訓(xùn)練期間調(diào)整，而不是在模型處理輸入上下文時調(diào)整。

induction head至少解決了部分難題。它們解釋了如何使上下文學(xué)習(xí)的簡單和重復(fù)形式成為可能，并且提供了所需的功能：能夠復(fù)制模型沒有訓(xùn)練過的新單詞(如“Gigamuru”或“124”)。

另一位來自Anthropic的合著者Catherine Olsson說：“induction head更有可能執(zhí)行任何模式，即使它有些奇異或新穎。”

研究人員進(jìn)一步在多層次模型中識別出induction head，并表明它們參與了更新穎的上下文學(xué)習(xí)形式，比如學(xué)習(xí)語言間的翻譯。

“這并不是要解釋整個機(jī)制，”O(jiān)penAI 的 Jacob Hilton 說。“只是induction head似乎參與其中。”

這些結(jié)果為我們理解transformer模型提供了一個立足點(diǎn)。它們不僅在獲取知識，還在學(xué)習(xí)如何處理他們根本沒有學(xué)到的事物。也許通過了解其工作機(jī)制，我們可以對“大放異彩”的transformer少些驚訝與感嘆。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

責(zé)任編輯：未麗燕來源：雷鋒網(wǎng)