成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用最直觀的動畫,講解LLM如何存儲事實,3Blue1Brown的這個視頻又火了

人工智能 新聞
近日,3Blue1Brown 的《深度學習》課程第 7 課更新了,其中通過生動詳實的動畫展示了 LLM 存儲事實的方式。視頻瀏覽量高達 18 萬次。

向大模型輸入「Michael Jordan plays the sport of _____(邁克爾?喬丹從事的體育運動是……)」,然后讓其預測接下來的文本,那么大模型多半能正確預測接下來是「basketball(籃球)」。

這說明在其數(shù)以億計的參數(shù)中潛藏了有關(guān)這個特定個人的相關(guān)知識。用戶甚至會感覺這些模型記憶了大量事實。

但事實究竟如何呢?

近日,3Blue1Brown 的《深度學習》課程第 7 課更新了,其中通過生動詳實的動畫展示了 LLM 存儲事實的方式。視頻瀏覽量高達 18 萬次。

去年 12 月,谷歌 DeepMind 的一些研究者發(fā)布了一篇相關(guān)論文,其中的具體案例便是匹配運動員以及他們各自的運動項目。

圖片

雖然這篇論文并未完全解答有關(guān) LLM 事實存儲的問題,但也得到了一些頗為有趣的結(jié)果,其中的一個重點是:事實保存在網(wǎng)絡(luò)中的一個特定部分,這個部分也就是我們熟知的多層感知器(MLP)。

在 3Blue1Brown 剛剛更新的這期視頻中,他們用 23 分的視頻演示了大型語言模型如何存儲和處理信息,主要包括以下部分:

  • LLM 中隱藏的事實是什么
  • 快速回顧 Transformers
  • 示例
  • 多層感知器
  • 計算參數(shù)

視頻地址:https://www.youtube.com/watch?v=9-Jl0dxWQs8

在演示視頻中,3b1b 的作者口齒清晰、語言標準,配合著高清畫面,讓讀者很好地理解了 LLM 是如何存儲知識的。

很多用戶在看完視頻后,都驚訝于 3Blue1Brown 教學質(zhì)量:

圖片

還有網(wǎng)友表示,坐等更新這期視頻已經(jīng)很久了:

圖片

接下來我們就深入 MLP 的細節(jié)吧。在這篇文章中,機器之心簡要介紹了核心內(nèi)容,感興趣的讀者可以通過原視頻查看完整內(nèi)容。

MLP 在大模型中的占比不小,但其實結(jié)構(gòu)相比于注意力機制這些要簡單許多。盡管如此,理解它也還是有些難度。

為了簡單,下面繼續(xù)通過「喬丹打籃球」這個具體示例進行說明吧。

首先,我們先簡單了解一下 Transformer 的工作流程。Transformer 的訓練目標是基于已有 token 預測下一個 token(通常表示詞或詞組),而每個 token 都關(guān)聯(lián)了一個高維向量。

圖片

這些向量會反復通過兩類運算:注意力(允許向量之間彼此傳遞信息)與多層感知器(MLP)。當然,它們之間還存在一個特定的歸一化步驟。

在向量經(jīng)過多次如此迭代之后,我們希望每個向量都已經(jīng)吸收了足夠多的信息。這些信息有的來自訓練模型時植入模型權(quán)重的一般性知識,也有的來自上下文。這些知識就是模型預測下一 token 的依據(jù)。

圖片

需要注意的是,這些向量編碼的并不僅僅是單個詞匯,而是會在信息在網(wǎng)絡(luò)中流動時根據(jù)周圍的環(huán)境和模型的知識吸收更加豐富的含義。

總之,每一個向量編碼的信息都遠遠超過了單個詞匯的含義,如此模型才能預測接下是什么。而存儲這些信息就是 MLP(注意力的作用是將上下文結(jié)合在一起),也因此大模型的大多數(shù)參數(shù)都在 MLP 中(約三分之二)。

圖片

繼續(xù)「喬丹打籃球」這個示例。MLP 是如何存儲這一事實的。

圖片

首先我們做一些假設(shè):在高維空間中有這樣三個不同的向量,它們分別定義了喬丹的姓 Jordan 和名 Michael 以及籃球 Basketball。

圖片

現(xiàn)在,如果該空間中有一個向量與 Michael 向量的乘積為 1,則我們認為該向量編碼了 Michael 這一概念;而如果這個乘積為 0 甚至負數(shù),則認為該向量與 Michael 沒有關(guān)聯(lián)。

同樣,我們可以計算該向量與 Jordan 或 Basketball 的乘積,以了解其與這兩個概念的關(guān)聯(lián)程度。

圖片

而通過訓練,可讓該向量與 Michael 和 Jordan 的乘積均為 1,此時就可以認為該向量編碼了 Michael Jordan 這個整體概念。

MLP 的內(nèi)部細節(jié)

圖片

當這個編碼了上述文本的向量序列穿過一個 MLP 模塊時,該序列中的每個向量都會經(jīng)歷一系列運算:

圖片

之后,會得到一個與輸入向量同維度的向量。然后再將所得向量與輸入向量相加,得到輸出向量。

序列中的每個向量都會經(jīng)歷這樣的操作,此時這些操作都是并行執(zhí)行的,彼此之間互不影響。

圖片

對于「喬丹打籃球」,我們希望對于輸入的「Michael Jordan」,經(jīng)過一系列運算之后,能得到「Basketball」的向量。

首先來看這個過程的第一步。這個線性投射過程就相當于讓輸入向量乘以一個大型矩陣。這個矩陣里面的數(shù)據(jù)就是所謂的模型參數(shù)(model parameter)。你可以將其視為一個布滿控制旋鈕的儀表盤 —— 通過調(diào)整這些參數(shù),我們就能控制模型的行為。

圖片

對于矩陣乘法,視頻中分享了一個視角。我們可以將矩陣乘法看作是將矩陣的每一行都視為一個向量,然后將這些行與被處理的向量(這里用 E 表示,意為 embeding,即嵌入)進行一系列點乘。

圖片

如果我們假設(shè)該矩陣的第一行剛好編碼了「First Name Michael」且被處理向量也編碼了它,那么所得的點積就約為 1。

而如果它們同時編碼了姓和名,那么所得的結(jié)果應該約等于 2。

圖片

你可以認為該矩陣的其它行正在并行地處理其它問題。

圖片

另外,通常來說,這一步還會向輸出添加另一個向量,也就是所謂的偏置向量,其中的參數(shù)是從數(shù)據(jù)中學習得到的。

圖片

在這個例子中,我們可以看到這個偏置向量的第一個元素為 -1。也就是說在最終的輸出向量中,之前得到的相關(guān)點積減去了 1。為什么要這樣操作?這是因為這樣一來,當且僅當向量編碼了全名「Michael Jordan」時,所得向量的第一項為正數(shù),否則就為 0 或負數(shù)。

在實踐中,模型矩陣的規(guī)模非常大,比如 GPT-3 的矩陣有 49152 行和 12288 列(這個列數(shù)就是嵌入空間維度)。

圖片

事實上,這個行數(shù)恰好是嵌入空間維數(shù)的四倍。其實這只是一種設(shè)計選擇,你可以讓它更多,也可以讓它更少。

圖片

接下來我們用更簡潔的方式表示這個矩陣和向量,如下動圖所示:

圖片

經(jīng)過上述線性過程之后,需要對輸出向量進行整理。這里通常會用到一個非常簡單的函數(shù):整流線性單元(ReLU)。

深度學習社區(qū)傳統(tǒng)上喜歡使用過于花哨的名字,這個非常簡單的函數(shù)通常被稱為整流線性單元(ReLU)。

繼續(xù)我們的例子,中間向量的第一個元素在當且僅當全名是 Michael Jordan 時才為 1,否則為零或負數(shù),在將其通過 ReLU 后,會得到一個非常干凈的值,其中所有零和負值都被截斷為零。因此對于全名 Michael Jordan,該輸出為 1,否則為 0。這個行為和「與門」非常相似。另外 ReLU 還有一個相對平滑的版本 GeLU。

圖片

接下來又是一個線性投射步驟,這一步與第一步非常相似:乘以一個大型矩陣,加上偏置,得到輸出向量。

圖片

但這一次,對于這個大型矩陣,我們不再以行的思路來思考它,而是以列的思路來看。這些列的維度與向量空間一樣。

圖片

如果第一列表示的是「Basketball」且 n_0 為 1(表示該神經(jīng)元已激活),則該結(jié)果就會被添加到最終結(jié)果中;否則就不會影響最終結(jié)果。當然,這些列也可以表示任何概念。

圖片

類似地,我們將這個大矩陣簡化表示為 W ↓,將偏置表示為 B↓,并將其放回到圖中。

圖片

舉例來說,如果輸入向量中同時編碼了名字 Michael 和姓氏 Jordan,那么觸發(fā)操作序列后,便會得到指向 Baskerball 方向的輸出向量。

圖片

這個過程會并行地針對所有向量執(zhí)行

圖片

這就是 MLP 的運算過程:兩個矩陣乘積,每個都添加了偏置。此前這種網(wǎng)絡(luò)曾被用來識別手寫數(shù)字,效果還算不錯。

圖片

GPT-3 中有 1750 億參數(shù)是如何計算的?

在接下來的章節(jié)中,作者介紹了如何計算 GPT-3 中的參數(shù),并了解它們的位置。

圖片

對于 GPT-3 來說,嵌入空間的大小是 12288,將它們相乘,僅該矩陣就有六億多個參數(shù),而向下投影(第二個矩陣)具有相同數(shù)量的參數(shù),只是形狀進行了轉(zhuǎn)置,所以它們加起來大約有十二億參數(shù)。

圖片

此外,作者表示還需要考慮另外幾個參數(shù),但這只占總數(shù)的很小一部分,可忽略不計。嵌入向量序列流經(jīng)的不是一個 MLP,而是 96 個不同的 MLP,因此用于所有這些塊的參數(shù)高達 1000 多億,這約占網(wǎng)絡(luò)中總參數(shù)的三分之二。

圖片

最后,將注意力塊、嵌入和 unembedding 等組件的所有參數(shù)加起來,總計可以得到 1750 億參數(shù)。

圖片


另外值得一提的是,還有另一組與歸一化步驟相關(guān)的參數(shù),不過視頻示例中跳過了這些參數(shù),它們只占總數(shù)的很小一部分。

圖片

視頻最后介紹了疊加(Superposition)這一概念。證據(jù)表明,單個神經(jīng)元很少像邁克爾?喬丹那樣代表某個單一特征,實際上可能有一個很好的理由,這與目前在可解釋性研究人員中流傳的一個想法有關(guān),稱為 Superposition,這是一個假設(shè),可能有助于解釋為什么這些模型特別難以解釋,以及為什么它們的擴展性出奇地好。

圖片

感興趣的讀者可以參考原視頻,了解更多內(nèi)容。

3blue1brown 介紹

3blue1brown 是一個專門制作可視化講解視頻的頻道,其內(nèi)容覆蓋數(shù)學、人工智能等領(lǐng)域,每門課都配有直觀生動的動畫演示,幫助觀眾加深對概念定理的理解。

除了 YouTube 上 640 萬訂閱者之外,3b1b 在 B 站上還有官方賬號,粉絲數(shù)量超過 215 萬,每個視頻都是 10 萬以上播放量,甚至有老師在課堂上播放該頻道的視頻。對于一個硬核教學 UP 主來說,這樣的成績幾乎是無人可及了。

作為一直以來都十分受歡迎的理解數(shù)學概念的網(wǎng)站,3blue1brown 的可視化一直都做得非常好。在本期視頻中,我們可以直觀感受到了。

3b1b 的創(chuàng)立者 Grant Sanderson,畢業(yè)于斯坦福大學數(shù)學系,他的大部分視頻和動畫引擎是獨立完成的,這是他此前在斯坦福學習時的業(yè)余項目。

在斯坦福,Grant「走了點計算機科學的彎路」,隨后畢業(yè)加入了 Khan Academy 并擔任了兩年的數(shù)學講師,在 2016 年之后,他開始全身心投入 3b1b 的工作中。

如果你對自己的學習能力信心不足,或許看看 3b1b 的內(nèi)容會是一個好主意,全程動畫演示,讓你對知識點明白的徹徹底底。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-02-21 14:07:00

2024-11-28 16:45:50

2013-03-27 14:13:16

Windows Blu

2019-05-25 11:19:03

華為開發(fā)者存儲

2013-03-25 13:56:22

Windows Blu

2023-07-12 13:29:44

2024-12-30 20:32:36

2024-10-16 12:51:56

2021-09-15 14:19:58

電腦軟件設(shè)置

2025-04-22 09:26:00

2021-01-12 09:46:00

深度學習編程神經(jīng)網(wǎng)絡(luò)

2024-09-19 17:52:47

2011-10-19 07:58:50

2017-07-12 08:33:04

機房數(shù)據(jù)中心服務(wù)器

2019-01-02 16:12:17

Linux系統(tǒng) vmstat

2019-10-23 07:00:13

TCP三次握手四次揮手

2021-09-29 09:35:29

Python典型化事實代碼

2017-12-13 12:58:12

Raid工作原理

2019-12-04 09:18:40

HTTPS協(xié)議HTTP

2013-05-09 14:48:26

Windows Blu
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲毛片在线观看 | 国产在线视频一区二区 | 精品国产1区2区3区 在线国产视频 | 久久夜视频 | 国内av在线| 国产精久久久久久久 | 亚洲一区二区中文字幕 | 欧洲一区视频 | 日韩精品一区二区三区 | 欧美日韩亚 | 99亚洲视频 | 综合激情久久 | 国产精品一区二区三区在线 | 成人在线小视频 | 成人一区二区三区在线观看 | 亚洲欧美日韩精品久久亚洲区 | 人人人干 | 成人在线视频网站 | 欧美在线视频网 | 成年人视频在线免费观看 | 久久aⅴ乱码一区二区三区 亚洲国产成人精品久久久国产成人一区 | 午夜视频在线 | 亚洲男人的天堂网站 | 日韩欧美在线观看一区 | 理伦毛片 | 无吗视频 | 欧美影院久久 | 国产在线视频一区二区 | 欧美不卡视频一区发布 | 可以在线看的黄色网址 | 国产色播av在线 | 99精品99| 搞av.com | 红色av社区 | 51ⅴ精品国产91久久久久久 | 中文字幕国产精品 | ririsao久久精品一区 | 日韩欧美一区二区三区免费观看 | 在线国产欧美 | 亚洲精品久久嫩草网站秘色 | 精品国产乱码久久久久久闺蜜 |