GPT“高仿”系列開源了！最大可達(dá)GPT-3大小，能自主訓(xùn)練

作者：蕭簫 2021-01-19 16:34:30

新聞前端

雖然GPT-3沒有開源，卻已經(jīng)有人在復(fù)刻GPT系列的模型了。例如，慕尼黑工業(yè)大學(xué)的Connor Leahy，此前用200個(gè)小時(shí)、6000RMB，復(fù)現(xiàn)了GPT-2。

[[377000]]

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

雖然GPT-3沒有開源，卻已經(jīng)有人在復(fù)刻GPT系列的模型了。

例如，慕尼黑工業(yè)大學(xué)的Connor Leahy，此前用200個(gè)小時(shí)、6000RMB，復(fù)現(xiàn)了GPT-2。

又例如，基于150億參數(shù)版GPT-3的DALL·E模型剛出，來自康奈爾大學(xué)的Philip Wang就開始復(fù)現(xiàn)了。

但此前，還沒人能復(fù)現(xiàn)出GPT-3大小的大語言模型來。

不過，已經(jīng)有人開始嘗試了。這是一個(gè)名為GPT-Neo的項(xiàng)目，用于復(fù)現(xiàn)GPT系列的各種語言模型，當(dāng)然也包括GPT-3。

作者表示，目前他們已經(jīng)成功制造出GPT-2大小的模型。

從項(xiàng)目代碼的可擴(kuò)展性來看，他們預(yù)計(jì)可以復(fù)刻出GPT-3大小的語言模型，甚至比GPT-3更大。

不僅如此，由于這是個(gè)開源的項(xiàng)目，大家還可以自主訓(xùn)練這些模型（將來也會(huì)包括GPT-3）。

目前，作者已經(jīng)給出了詳細(xì)的訓(xùn)練步驟。

消息一出，網(wǎng)友沸騰了：

要是真能復(fù)現(xiàn)，說不定會(huì)比現(xiàn)在的GPT-3還要更好用！

GPT系列的“高仿”項(xiàng)目

本質(zhì)上，GPT-Neo有點(diǎn)像是GPT系列的“高仿”項(xiàng)目：

GPT-Neo中的各種模型，設(shè)計(jì)原理接近GPT系列，但代碼并不一樣。

作者們打算嘗試各種結(jié)構(gòu)和注意力類型，最終擴(kuò)展出GPT-3大小的大語言模型。

為了實(shí)現(xiàn)這一目標(biāo)，他們從復(fù)現(xiàn)GPT系列的模型開始，不斷嘗試各種模型架構(gòu)、和各種注意力機(jī)制的實(shí)現(xiàn)方式。

也就是說，GPT-Neo更像是一個(gè)實(shí)驗(yàn)性質(zhì)的項(xiàng)目，通過各種嘗試，擴(kuò)展出更大的模型。

這里面，融合了各種讓模型變得“更大”的研究：

例如，多任務(wù)學(xué)習(xí)方法MoE（Mixture of Experts），采用多個(gè)專家的結(jié)構(gòu)，將問題空間劃分為同質(zhì)區(qū)域，然后采用分發(fā)器，決定問題應(yīng)該問哪些專家。

又比如，具有線性復(fù)雜性的自注意力機(jī)制。

……

這個(gè)項(xiàng)目還在施工中，不過，連模型的訓(xùn)練方式都準(zhǔn)備好了。

項(xiàng)目計(jì)劃通過TPU或GPU，對(duì)大語言模型進(jìn)行訓(xùn)練。

為此，作者們已經(jīng)基于Tensorflow-mesh（用于在GPU上訓(xùn)練模型）、Deepspeed（用于在TPU上訓(xùn)練模型）兩個(gè)項(xiàng)目，編寫了GPT-Neo的訓(xùn)練代碼。

這兩個(gè)項(xiàng)目都可以擴(kuò)展到大于GPT-3的大小，甚至還能更大。

因此，訓(xùn)練GPT-3大小的模型，軟件理論上是可行的。

但硬件上的問題，目前作者們還在思考明確的解決方案。如果將來真的做出了GPT-3大小的模型，他們打算先從谷歌那多要點(diǎn)免費(fèi)資源，如果不行的話，就再說……

如何訓(xùn)練GPT-Neo

當(dāng)然，在TPU和GPU上訓(xùn)練的方式有所不同。

如果使用TPU訓(xùn)練的話，需要注冊(cè)一個(gè)谷歌云平臺(tái)，創(chuàng)建存儲(chǔ)空間，然后再搞個(gè)虛擬機(jī)，將模型放到TPU上訓(xùn)練。

不過，如果你的GPU硬件足夠OK，也可以選擇直接訓(xùn)練GPT-Neo，就不用設(shè)置一系列谷歌云了。

此外，也可以用谷歌Colab來訓(xùn)練項(xiàng)目，它免費(fèi)提供TPU-V8S處理器，訓(xùn)練GPT的3XL（1.5B參數(shù)）版本綽綽有余。

訓(xùn)練過程也不復(fù)雜，主要包括創(chuàng)建分詞器、數(shù)據(jù)集預(yù)處理、指定訓(xùn)練數(shù)據(jù)集、選擇訓(xùn)練配置、訓(xùn)練模型幾個(gè)步驟。

在創(chuàng)建分詞器上，GPT-Neo目前提供一個(gè)Huggingface的預(yù)訓(xùn)練GPT-2分詞器。不過，也可以訓(xùn)練自己專屬的分詞器。

然后，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，可以直接下載項(xiàng)目提供的數(shù)據(jù)，也可以使用自己的數(shù)據(jù)集。

在那之后，指定模型訓(xùn)練所用的數(shù)據(jù)集，然后對(duì)訓(xùn)練方式進(jìn)行設(shè)置，例如優(yōu)化算法、訓(xùn)練步數(shù)等。

然后，指定硬件名稱、數(shù)量，就可以開始訓(xùn)練模型了。

“只會(huì)用谷歌搜索的自動(dòng)化團(tuán)隊(duì)”

不過，對(duì)于GPT系列的項(xiàng)目復(fù)現(xiàn)，有網(wǎng)友并不看好。

網(wǎng)友認(rèn)為，GPT-X系列項(xiàng)目，就像是一個(gè)由幾百人組成的自動(dòng)化團(tuán)隊(duì)，這幾百人只會(huì)用谷歌搜索來干活，而且還沒辦法寫出最新的新聞事件報(bào)道。（因?yàn)橛?xùn)練數(shù)據(jù)無法一直更新）

它雖然是個(gè)非常有趣的研究，但目前卻還沒有一個(gè)“殺手級(jí)”應(yīng)用，來讓GPT-3項(xiàng)目的存在變得更有意義。