成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

少于兩層的transformer,且只有注意力塊,GPT-3:你怕不是搞事情?

人工智能
為了更好地理解transformer的工作原理,Anthropic AI的研究人員簡化了transformer的結(jié)構(gòu),去除了所有的神經(jīng)元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現(xiàn)了transformer和他們已經(jīng)完全理解的更簡單模型之間的聯(lián)系。

在過去的兩年里,基于Transformer架構(gòu)開發(fā)的大規(guī)模語言模型在性能(如語言流暢度)上達(dá)到了令人嘆為觀止的效果。

但是,Transformer對單詞的處理方法是什么?學(xué)術(shù)界仍未有確定的答案。普遍的理解是,transformer模型能夠以某種方式同時關(guān)注多個單詞,以便立即進(jìn)行“全局”分析。但它到底是如何工作的,或者這是否是transformer模型的真正處理方式,仍舊撲朔迷離。

換言之,我們知道菜品的配料,但不知道配方。

針對這一問題,一家叫做 Anthropic AI 公司的研究人員進(jìn)行了兩項(xiàng)研究,希望從根本上理清transformer在處理和生成文本時的工作內(nèi)容是什么。

他們發(fā)現(xiàn),少于兩層、且只有注意力塊的transformer在某些方面也能達(dá)到復(fù)雜transformer的效果,且能夠幫助理解背后的工作機(jī)制。

1、少于兩層的Transformer

在12月發(fā)布的第一篇論文(如下)中, Anthropic AI 公司的科研人員研究了transformer的簡化版本,并全面解釋了它們的功能。

這個工作得到了以色列理工學(xué)院 Yonatan Belinkov 的高度評價(jià):“這篇論文很好地講述了transformer架構(gòu)在非常簡單的情況下是如何工作的。”“我非常看好這項(xiàng)工作,它既有趣又有前途,并且有些獨(dú)特和新穎。”

論文地址:https://transformer-circuits.pub/2021/framework/index.html

根據(jù)論文內(nèi)容,他們所研究的簡化版transformer是先學(xué)習(xí)基本語言模式,再獲得語言處理的通用能力。哈佛大學(xué)的 Martin Wattenberg 教授評價(jià),他們的研究使得transformer的競爭力得到大幅躍升,同時揭露transformer背后的工作原理。

在3月8日發(fā)布的第二篇論文中,研究人員發(fā)現(xiàn),他們所提出的簡化版transformer的能力在最復(fù)雜的transformer模型中也發(fā)揮了作用。他們在簡單模型中的發(fā)現(xiàn)可以應(yīng)用到規(guī)模更大的模型中。雖然這些簡化模型的數(shù)學(xué)原理仍然高深莫測,但其結(jié)果為深入理解transformers提供了一條新途徑。

論文地址:https://transformer-circuits.pub/2022/in-context-learning-and-induction-heads/index.html

理解 transformer 的難點(diǎn)在于其抽象性。傳統(tǒng)的程序遵循一個合乎情理的過程,例如,每當(dāng)看到“green”(綠色的)這個詞,它們就會輸出“grass”(草)這個詞,而transformer將“green”這個詞轉(zhuǎn)換為數(shù)字,然后將它們乘以某些值。這些值(也稱為參數(shù))決定了下一個單詞是什么。參數(shù)在訓(xùn)練過程中得到了微調(diào),模型會學(xué)習(xí)如何生成最佳輸出,但不清楚模型具體在學(xué)習(xí)什么。

大多數(shù)機(jī)器學(xué)習(xí)程序?qū)⑵鋽?shù)學(xué)部分封裝成模塊化要素,并稱之為“神經(jīng)元”。transformer加入了另外一種要素,稱為attention head(注意頭),它們成組分層排列,就像神經(jīng)元一樣。但head執(zhí)行的操作與神經(jīng)元不同。一般認(rèn)為,head允許程序記住輸入的多個單詞,但這僅是一知半解。

為了更好地理解transformer的工作原理,Anthropic AI的研究人員簡化了transformer的結(jié)構(gòu),去除了所有的神經(jīng)元層和除一層或兩層以外的所有attention head層。這讓他們發(fā)現(xiàn)了transformer和他們已經(jīng)完全理解的更簡單模型之間的聯(lián)系。

我們可以看最簡單的語言模型——二元模型,它再現(xiàn)了基本的語言模式。例如,在對大量文本進(jìn)行訓(xùn)練時,二元模型會注意到“green”一詞后面最常出現(xiàn)的單詞(例如“grass”)并記住它。然后,在生成文本時,它會重現(xiàn)相同的模式。通過為每個輸入單詞記憶一個相關(guān)的后續(xù)單詞,它可以獲得非常基本的語言知識。

研究人員表明,具有一層attention head的 transformer 模型也具備同樣的能力:它再現(xiàn)了所記憶的內(nèi)容。假設(shè)給定一個特定的輸入,比如“Doctor Smith went to the store because Doctor X…”(史密斯博士去商店是因?yàn)閄博士)這個輸入被稱為提示或上下文。對我們來說,下一個詞X指向“Smith”是顯而易見的。

在經(jīng)過訓(xùn)練的單層模型中,attention head可以通過兩個步驟進(jìn)行預(yù)測。首先,它查看上下文中的最后一個單詞(Doctor),并在上下文中搜索它已經(jīng)學(xué)習(xí)(在訓(xùn)練期間)與最后一個單詞相關(guān)聯(lián)的特定單詞。然后,對于它找到的任意單詞,從中查找另一個它已經(jīng)學(xué)會與找到的單詞相關(guān)聯(lián)的單詞,就像在二元模型中一樣,這可以是同一個詞。再將這個關(guān)聯(lián)的單詞作為模型的輸出。

在上述例子中,研究人員表明,根據(jù)最后一個單詞“Doctor”,head通過訓(xùn)練知道如何搜索一個常用名稱。在句子的前面找到“Smith”這個名字后,head會查看所學(xué)的與“Smith”關(guān)聯(lián)的內(nèi)容,并將該單詞作為輸出。在這種情況下,模型已經(jīng)學(xué)會將同一個詞“Smith”與找到的詞“Smith”相關(guān)聯(lián)。整個過程的最終效果是模型將“Smith”一詞從上下文復(fù)制到輸出。

圖注:從左到右分別為 Chris Olah、Catherine Olsson 與 Nelson Elhage

不過,到目前為止,記憶只能采用一種模式。不妨想一下,當(dāng)Smith的名字變成了一個虛構(gòu)的名字,比如“Gigamuru”時會發(fā)生什么。對我們而言,預(yù)測下一個單詞輕而易舉,但模型在訓(xùn)練期間不會識別出虛構(gòu)的詞,因此不可能記住它與其他詞之間的任何關(guān)系,也不會生成它。

2、引入歸納頭

Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn),當(dāng)他們研究一個更復(fù)雜的模型時,比如一個有兩層attention head的模型,出現(xiàn)了一種解決方案。它依賴于attention head獨(dú)有的能力:不僅可以將信息移動到輸出,還可以移動到上下文中的其他位置。這種能力可以使第一層的head利用前面單詞的信息,學(xué)習(xí)注釋上下文中的每個單詞。然后,第二個head可以搜索“Doctor”(在本例中為“Gigamuru”)之前的單詞,并像單層模型中的head一樣,將其移動到輸出。

研究人員將后一層與前一層協(xié)作的attention head稱為induction head(歸納頭)。它不僅僅起到記憶的作用。根據(jù)Nelson Elhage的解釋,它還可以做一些看起來更像是抽象推理或算法實(shí)現(xiàn)的工作。

induction head可以讓兩層模型發(fā)揮更大的作用,但它們與全尺度transformer的相關(guān)性尚不清楚,因?yàn)槿叨萾ransformer有數(shù)百個attention head協(xié)同工作。在他們的第二篇論文中,研究人員表示這些發(fā)現(xiàn)得到了延續(xù):induction head似乎對一些最復(fù)雜、多層結(jié)構(gòu)的行為起到了關(guān)鍵作用。

在這些行為中,算術(shù)能力尤為突出,因?yàn)槟P椭唤邮芰送瓿晌谋镜挠?xùn)練。例如,如果給出重復(fù)提示:“問:48+76是多少?答:124,問:48+76是多少?答:“全尺度模型會得到正確答案。”。在給出充足的非重復(fù)性示例后,它將能夠正確回答從未見過的算術(shù)問題。這種從語境中學(xué)習(xí)新能力的現(xiàn)象被稱為上下文學(xué)習(xí)。

這種現(xiàn)象令人費(fèi)解,因?yàn)閺纳舷挛闹袑W(xué)習(xí)是不可能的。這是因?yàn)闆Q定模型性能的參數(shù)只在訓(xùn)練期間調(diào)整,而不是在模型處理輸入上下文時調(diào)整。

induction head至少解決了部分難題。它們解釋了如何使上下文學(xué)習(xí)的簡單和重復(fù)形式成為可能,并且提供了所需的功能:能夠復(fù)制模型沒有訓(xùn)練過的新單詞(如“Gigamuru”或“124”)。

另一位來自Anthropic的合著者Catherine Olsson說:“induction head更有可能執(zhí)行任何模式,即使它有些奇異或新穎。”

研究人員進(jìn)一步在多層次模型中識別出induction head,并表明它們參與了更新穎的上下文學(xué)習(xí)形式,比如學(xué)習(xí)語言間的翻譯。

“這并不是要解釋整個機(jī)制,”O(jiān)penAI 的 Jacob Hilton 說。“只是induction head似乎參與其中。”

這些結(jié)果為我們理解transformer模型提供了一個立足點(diǎn)。它們不僅在獲取知識,還在學(xué)習(xí)如何處理他們根本沒有學(xué)到的事物。也許通過了解其工作機(jī)制,我們可以對“大放異彩”的transformer少些驚訝與感嘆。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

責(zé)任編輯:未麗燕 來源: 雷鋒網(wǎng)
相關(guān)推薦

2024-02-19 00:12:00

模型數(shù)據(jù)

2024-10-31 10:00:39

注意力機(jī)制核心組件

2023-03-09 08:15:56

GPT-3系統(tǒng)數(shù)據(jù)

2022-02-08 15:43:08

AITransforme模型

2023-06-12 09:57:22

AIChatGPT

2023-12-04 13:38:55

模型3D可視化

2023-04-18 16:07:11

人工智能

2024-12-04 09:25:00

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2024-09-19 10:07:41

2023-03-01 16:15:16

2024-07-01 12:17:54

2024-12-17 14:39:16

2023-11-24 12:36:00

模型訓(xùn)練

2023-01-01 13:31:47

模型訓(xùn)練

2018-12-12 10:04:33

CIO信息化數(shù)字化

2023-06-08 15:33:31

人工智能GPT-3

2010-09-14 14:44:21

sql server安

2018-08-26 22:25:36

自注意力機(jī)制神經(jīng)網(wǎng)絡(luò)算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚州国产 | 在线看亚洲 | 自拍偷拍中文字幕 | 四虎影院新网址 | 成人妇女免费播放久久久 | 欧美日韩在线综合 | 亚洲午夜av| 一区二区三区小视频 | 精品视频免费 | 亚洲一区二区免费看 | 成人网在线观看 | 亚洲二区在线 | 成人伊人网 | 一区二区三区电影网 | 18成人在线观看 | 97久久超碰 | 毛片高清 | 91视频在线观看 | 丝袜 亚洲 欧美 日韩 综合 | 日本一区二区在线视频 | 日日想夜夜操 | 精品一区二区三区视频在线观看 | 网页av| 视频一二三区 | 亚洲一区av| 免费看国产片在线观看 | 国产高清在线精品 | a级性视频 | 欧美xxxx色视频在线观看免费 | 99精品欧美一区二区三区 | 久久激情视频 | 国产一区视频在线 | 国产精品综合一区二区 | 欧美精品一区在线发布 | 国内自拍视频在线观看 | 久久网站黄 | 日韩午夜在线播放 | 91极品视频 | 午夜精| 亚洲精品国产综合区久久久久久久 | 三级在线视频 |