成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度學(xué)習(xí)架構(gòu)的對(duì)比分析

原創(chuàng) 精選
人工智能 深度學(xué)習(xí)
每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差,幫助理解數(shù)據(jù)中的模式,從而實(shí)現(xiàn)學(xué)習(xí)。例如,CNN表現(xiàn)出空間參數(shù)共享、平移/空間不變性,而RNN表現(xiàn)出時(shí)間參數(shù)共享。

深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,含有多個(gè)隱藏層的多層感知器是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示,以表征數(shù)據(jù)的類別或特征。它能夠發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種,而機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的必經(jīng)之路。

那么,各種深度學(xué)習(xí)的系統(tǒng)架構(gòu)之間有哪些差別呢?

1. 全連接網(wǎng)絡(luò)(FCN)

完全連接網(wǎng)絡(luò)(FCN)由一系列完全連接的層組成,每個(gè)層中的每個(gè)神經(jīng)元都連接到另一層中的每個(gè)神經(jīng)元。其主要優(yōu)點(diǎn)是“結(jié)構(gòu)不可知”,即不需要對(duì)輸入做出特殊的假設(shè)。雖然這種結(jié)構(gòu)不可知使得完全連接網(wǎng)絡(luò)非常廣泛適用,但是這樣的網(wǎng)絡(luò)傾向于比專門針對(duì)問題空間結(jié)構(gòu)調(diào)整的特殊網(wǎng)絡(luò)表現(xiàn)更弱。

下圖顯示了一個(gè)多層深度的完全連接網(wǎng)絡(luò):

圖片

2. 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種多層神經(jīng)網(wǎng)絡(luò)架構(gòu),主要用于圖像處理應(yīng)用。CNN架構(gòu)明確假定輸入具有空間維度(以及可選的深度維度),例如圖像,這允許將某些屬性編碼到模型架構(gòu)中。Yann LeCun創(chuàng)建了第一個(gè)CNN,該架構(gòu)最初用于識(shí)別手寫字符。

2.1 CNN的架構(gòu)特點(diǎn)

分解一下使用CNN的計(jì)算機(jī)視覺模型的技術(shù)細(xì)節(jié):

  • 模型的輸入:CNN模型的輸入通常是圖像或文本。CNN也可用于文本,但通常不怎么使用。

圖像在這里被表示為像素網(wǎng)格,就是由正整數(shù)組成的網(wǎng)格,每個(gè)數(shù)字都被分配一種顏色。

  • 模型的輸出:模型的輸出取決于它試圖預(yù)測(cè)什么,下面的示例表示一些常見的任務(wù):
  • 圖片

一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)由一系列層構(gòu)成,每一層通過可微分函數(shù)將一個(gè)激活的體積塊轉(zhuǎn)換為另一個(gè)表達(dá)。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)主要使用三種類型的層:卷積層、池化層和全連接層。下圖展示了卷積神經(jīng)網(wǎng)絡(luò)層的不同部分:

  • 卷積: 卷積過濾器掃描圖像,使用加法和乘法操作。CNN試圖學(xué)習(xí)卷積過濾器中的值以預(yù)測(cè)所需的輸出。
  • 非線性: 這是應(yīng)用于卷積過濾器的方程,它允許CNN學(xué)習(xí)輸入和輸出圖像之間的復(fù)雜關(guān)系。
  • 池化: 也稱為“最大池化”,它只選擇一系列數(shù)字中的最大數(shù)字。這有助于減小表達(dá)的大小并減少CNN必須進(jìn)行的計(jì)算量,用于提升效率。

這三種操作的結(jié)合組成了完全卷積網(wǎng)絡(luò)。

2.2 CNN的用例

CNN(卷積神經(jīng)網(wǎng)絡(luò))是一種常用于解決與空間數(shù)據(jù)相關(guān)的問題的神經(jīng)網(wǎng)絡(luò),通常用于圖像(2D CNN)和音頻(1D CNN)等領(lǐng)域。CNN的廣泛應(yīng)用包括人臉識(shí)別、醫(yī)學(xué)分析和分類等。通過CNN,可以在圖像或音頻數(shù)據(jù)中捕捉到更加細(xì)致的特征,從而實(shí)現(xiàn)更加精準(zhǔn)的識(shí)別和分析。此外,CNN也可以應(yīng)用于其他領(lǐng)域,如自然語(yǔ)言處理和時(shí)間序列數(shù)據(jù)等??傊?,CNN是可以幫助我們更好地理解和分析各種類型的數(shù)據(jù)。

2.3 CNN對(duì)比FCN的優(yōu)勢(shì)

參數(shù)共享/計(jì)算可行性:

由于CNN使用參數(shù)共享,所以CNN與FCN架構(gòu)的權(quán)重?cái)?shù)量通常相差幾個(gè)數(shù)量級(jí)。

對(duì)于全連接神經(jīng)網(wǎng)絡(luò),有一個(gè)形狀為(Hin×Win×Cin)的輸入和一個(gè)形狀為(Hout×Wout×Cout)的輸出。這意味著輸出特征的每個(gè)像素顏色都與輸入特征的每個(gè)像素顏色連接。對(duì)于輸入圖像和輸出圖像的每個(gè)像素,都有一個(gè)獨(dú)立的可學(xué)習(xí)參數(shù)。因此,參數(shù)數(shù)量為(Hin×Hout×Win×Wout×Cin×Cout)。

在卷積層中,輸入是形狀為(Hin,Win,Cin)的圖像,權(quán)重考慮給定像素的鄰域大小為K×K。輸出是給定像素及其鄰域的加權(quán)和。輸入通道和輸出通道的每個(gè)對(duì)(Cin,Cout)都有一個(gè)單獨(dú)的內(nèi)核,但內(nèi)核的權(quán)重形狀為(K,K,Cin,Cout)的張量與位置無關(guān)。實(shí)際上,該層可以接受任何分辨率的圖像,而全連接層只能使用固定分辨率。最后,該層參數(shù)為(K,K,Cin,Cout),對(duì)于內(nèi)核大小K遠(yuǎn)小于輸入分辨率的情況,變量數(shù)量會(huì)顯著減少。

自從AlexNet贏得ImageNet比賽以來,每個(gè)贏得比賽的神經(jīng)網(wǎng)絡(luò)都使用了CNN組件,這一事實(shí)證明CNN對(duì)于圖像數(shù)據(jù)更有效。很可能找不到任何有意義的比較,因?yàn)閮H使用FC層處理圖像數(shù)據(jù)是不可行的,而CNN可以處理這些數(shù)據(jù)。為什么呢?

FC層中有1000個(gè)神經(jīng)元的權(quán)重?cái)?shù)量對(duì)于圖像而言大約為1.5億。 這僅僅是一個(gè)層的權(quán)重?cái)?shù)量。 而現(xiàn)代的CNN體系結(jié)構(gòu)具有50-100層,同時(shí)具有總共幾十萬(wàn)個(gè)參數(shù)(例如,ResNet50具有23M個(gè)參數(shù),Inception V3具有21M個(gè)參數(shù))。

從數(shù)學(xué)角度來看,比較CNN和FCN(具有100個(gè)隱藏單元)之間的權(quán)重?cái)?shù)量,輸入圖像為500×500×3的話:

  • FC layer 的 Wx = 100×(500×500×3)=100×750000=75M
  • CNN layer = 
((shape of width of the filter * shape of height of the filter * number of filters in the previous layer+1)*number of filters)( +1 是為了偏置) = (Fw×Fh×D+1)×F=(5×5×3+1)?2=152

平移不變性

不變性指的是一個(gè)對(duì)象即使位置發(fā)生了改變,仍然能夠被正確地識(shí)別。這通常是一個(gè)積極的特性,因?yàn)樗S護(hù)了對(duì)象的身份(或類別)。這里的“平移”是指在幾何學(xué)中的特定含義。下圖顯示了相同的對(duì)象在不同的位置上,由于平移不變性,CNN能夠正確地識(shí)別它們都是貓。

3. 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

RNN是構(gòu)建其他深度學(xué)習(xí)架構(gòu)的基礎(chǔ)網(wǎng)絡(luò)體系結(jié)構(gòu)之一。一個(gè)關(guān)鍵的不同之處在于,與正常的前饋網(wǎng)絡(luò)不同,RNN可以具有反饋到其先前或同一層的連接。從某種意義上說,RNN在先前的計(jì)算中具有“記憶”,并將這些信息用于當(dāng)前處理。

圖片

3.1 RNN 的架構(gòu)特點(diǎn)

“Recurrent”這個(gè)術(shù)語(yǔ)適用于網(wǎng)絡(luò)在每個(gè)序列實(shí)例上執(zhí)行相同的任務(wù),因此輸出取決于先前的計(jì)算和結(jié)果。

RNN自然適用于許多NLP任務(wù),如語(yǔ)言建模。它們能夠捕捉“狗”和“熱狗”之間的含義差異,因此RNN是為建模語(yǔ)言和類似序列建模任務(wù)中的這種上下文依賴而量身定制的,這成為在這些領(lǐng)域使用RNN而不是CNN的主要原因。RNN的另一個(gè)優(yōu)點(diǎn)是模型大小不隨輸入大小而增加,因此有可能處理任意長(zhǎng)度的輸入。

此外,與CNN不同的是,RNN具有靈活的計(jì)算步驟,提供更好的建模能力,并創(chuàng)造了捕捉無限上下文的可能性,因?yàn)樗紤]了歷史信息,并且其權(quán)重在時(shí)間上是共享的。然而,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)面臨梯度消失問題。梯度變得很小,因此使得反向傳播的更新權(quán)重非常小。由于每個(gè)標(biāo)記需要順序處理以及存在梯度消失/爆炸,RNN訓(xùn)練速度慢并且有時(shí)很難收斂。

下圖斯坦福大學(xué)是RNN架構(gòu)示例。

圖片

另一個(gè)需要注意的是,CNN與RNN具有不同的架構(gòu)。CNN是一種前饋神經(jīng)網(wǎng)絡(luò),它使用過濾器和池化層,而RNN則通過自回歸的方式將結(jié)果反饋到網(wǎng)絡(luò)中。

3.2 RNN的典型用例

RNN是一種專門用于分析時(shí)間序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。其中,時(shí)間序列數(shù)據(jù)是指按時(shí)間順序排列的數(shù)據(jù),例如文本或視頻。RNN在文本翻譯、自然語(yǔ)言處理、情感分析和語(yǔ)音分析等方面具有廣泛的應(yīng)用。例如,它可以用于分析音頻記錄,以便識(shí)別說話人的語(yǔ)音并將其轉(zhuǎn)換為文本。另外,RNN還可以用于文本生成,例如為電子郵件或社交媒體發(fā)布創(chuàng)建文本。 

3.3 RNN 與CNN 的對(duì)比優(yōu)勢(shì)

在CNN中,輸入和輸出的大小是固定的。這意味著CNN接收固定大小的圖像,并將其輸出到適當(dāng)?shù)募?jí)別,同時(shí)伴隨其預(yù)測(cè)的置信度。然而,在RNN中,輸入和輸出的大小可能會(huì)有所變化。這個(gè)特性適用于需要可變大小輸入和輸出的應(yīng)用,例如生成文本。

門控循環(huán)單元(GRU)和長(zhǎng)短時(shí)記憶單元(LSTM)都提供了解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)遇到的梯度消失問題的解決方案。

4. 長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)

長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是一種特殊的RNN。它通過學(xué)習(xí)長(zhǎng)期依賴關(guān)系,使RNN更容易在許多時(shí)間戳上保留信息。下圖是LSTM架構(gòu)的可視化表示。

圖片

圖片

LSTM無處不在,可以在許多應(yīng)用程序或產(chǎn)品中找到,例如智能手機(jī)。其強(qiáng)大之處在于它擺脫了典型的基于神經(jīng)元的架構(gòu),而是采用了記憶單元的概念。這個(gè)記憶單元根據(jù)其輸入的函數(shù)保留其值,可以短時(shí)間或長(zhǎng)時(shí)間保持其值。這允許單元記住重要的內(nèi)容,而不僅僅是最后計(jì)算的值。

LSTM 記憶單元包含三個(gè)門,控制其單元內(nèi)的信息流入或流出。

  • 輸入門:控制何時(shí)可以將信息流入內(nèi)存。

圖片

遺忘門:負(fù)責(zé)跟蹤哪些信息可以“遺忘”,為處理單元騰出空間記住新數(shù)據(jù)。

圖片

輸出門:決定處理單元內(nèi)存儲(chǔ)的信息何時(shí)可以用作細(xì)胞的輸出。

圖片

LSTM對(duì)比于GRU和RNN的優(yōu)缺點(diǎn)

相較于GRU和尤其是RNN,LSTM可以學(xué)習(xí)更長(zhǎng)期的依賴關(guān)系。由于有三個(gè)門(GRU中為兩個(gè),RNN中為零),因此與RNN和GRU相比,LSTM具有更多的參數(shù)。這些額外的參數(shù)允許LSTM模型更好地處理復(fù)雜的序列數(shù)據(jù),如自然語(yǔ)言或時(shí)間序列數(shù)據(jù)。此外,LSTM還可以處理變長(zhǎng)的輸入序列,因?yàn)樗鼈兊拈T結(jié)構(gòu)允許它們忽略不必要的輸入。因此,LSTM在許多應(yīng)用中都表現(xiàn)出色,包括語(yǔ)音識(shí)別、機(jī)器翻譯和股票市場(chǎng)預(yù)測(cè)等。

5. 門控循環(huán)單元 (GRU)

GRU有兩個(gè)門:更新門和重置門(本質(zhì)上是兩個(gè)向量),以決定應(yīng)該傳遞什么信息到輸出。

圖片

  • 重置門(Reset gate): 幫助模型決定可以忘記多少過去的信息。
  • 更新門(Update gate): 幫助模型確定過去信息(之前的時(shí)間步驟)中有多少需要傳遞到未來。

GRU對(duì)比 LSTM 和RNN的優(yōu)缺點(diǎn)

與RNN類似,GRU也是一種遞歸神經(jīng)網(wǎng)絡(luò),它可以有效地長(zhǎng)時(shí)間保留信息并捕捉比RNN更長(zhǎng)的依賴關(guān)系。然而,GRU相比較于LSTM更為簡(jiǎn)單,訓(xùn)練速度更快。

盡管GRU在實(shí)現(xiàn)上比RNN更為復(fù)雜,但由于其僅包含兩個(gè)門控機(jī)制,因此其參數(shù)數(shù)量較少,通常不能像LSTM那樣捕捉更長(zhǎng)范圍的依賴關(guān)系。因此,GRU在某些情況下可能需要更多的訓(xùn)練數(shù)據(jù)以達(dá)到與LSTM相同的性能水平。

此外,由于GRU相對(duì)較為簡(jiǎn)單,其計(jì)算成本也較低,因此在資源有限的環(huán)境下,如移動(dòng)設(shè)備或嵌入式系統(tǒng),使用GRU可能更為合適。另一方面,如果模型的準(zhǔn)確性對(duì)應(yīng)用至關(guān)重要,則LSTM可能是更好的選擇。

6.Transformer

有關(guān) Transformers 的論文 “Attention is All You Need” 幾乎是 Arxiv 上有史以來排名第一的論文。變形金剛是一種大型編碼器-解碼器模型,能夠使用復(fù)雜的注意力機(jī)制處理整個(gè)序列。

圖片

通常,在自然語(yǔ)言處理應(yīng)用中,首先使用嵌入算法將每個(gè)輸入單詞轉(zhuǎn)換為向量。嵌入只在最底層的編碼器中發(fā)生。所有編碼器共享的抽象是,它們接收一個(gè)大小為512的向量列表,這將是詞嵌入,但在其他編碼器中,它將是直接位于下面的編碼器輸出中。

注意力提供了解決瓶頸問題的方法。對(duì)于這些類型的模型,上下文向量成為了一個(gè)瓶頸,這使得模型難以處理長(zhǎng)句子。注意力允許模型根據(jù)需要集中關(guān)注輸入序列的相關(guān)部分,并將每個(gè)單詞的表示視為一個(gè)查詢,以訪問和合并一組值中的信息。

6.1 Transformer的架構(gòu)特點(diǎn)

通常,在Transformer架構(gòu)中,編碼器能夠?qū)⑺须[藏狀態(tài)傳遞給解碼器。但是,在生成輸出之前,解碼器使用注意力進(jìn)行了額外的步驟。解碼器通過其softmax得分乘以每個(gè)隱藏狀態(tài),從而放大得分更高的隱藏狀態(tài)并淹沒其他隱藏狀態(tài)。這使得模型能夠集中關(guān)注與輸出相關(guān)的輸入部分。

自我注意力位于編碼器中,第一步是從每個(gè)編碼器輸入向量(每個(gè)單詞的嵌入)創(chuàng)建3個(gè)向量:Key、Query和Value向量,這些向量是通過將嵌入乘以在訓(xùn)練過程中訓(xùn)練的3個(gè)矩陣來創(chuàng)建的。K、V、Q維度為64,而嵌入和編碼器輸入/輸出向量的維度為512。下圖來自Jay Alammar的 Illustrated Transformer,這可能是網(wǎng)上最好的可視化解讀。

圖片

這個(gè)列表的大小是可以設(shè)置的超參數(shù),基本上將是訓(xùn)練數(shù)據(jù)集中最長(zhǎng)句子的長(zhǎng)度。

  • 注意力:

圖片

什么是query、key和value向量?它們是在計(jì)算和思考注意力時(shí)有用的抽象概念。在解碼器中的交叉注意力除了輸入之外,計(jì)算與自注意力的計(jì)算相同。交叉注意力不對(duì)稱地組合了兩個(gè)維度相同的獨(dú)立嵌入序列,而自注意力的輸入是一個(gè)單獨(dú)的嵌入序列。

為了討論Transformer,還必須討論兩個(gè)預(yù)訓(xùn)練模型,即BERT和GPT,因?yàn)樗鼈儗?dǎo)致了Transformer的成功。

GPT 的預(yù)訓(xùn)練解碼器有12層,其中包括768維隱藏狀態(tài),3072維前饋隱藏層,采用40,000個(gè)合并的字節(jié)對(duì)編碼。主要應(yīng)用在自然語(yǔ)言的推理中,將句子對(duì)標(biāo)記為蘊(yùn)含、矛盾或中性。

BERT是預(yù)訓(xùn)練編碼器,使用掩碼語(yǔ)言建模,將輸入中的一部分單詞替換為特殊的[MASK]標(biāo)記,然后嘗試預(yù)測(cè)這些單詞。因此,只需要在預(yù)測(cè)的掩碼單詞上計(jì)算損失。兩種BERT模型大小都有大量的編碼器層(該論文稱為Transformer塊)-Base版本有12個(gè),Large版本有24個(gè)。這些也具有比初始論文中Transformer參考實(shí)現(xiàn)中的默認(rèn)配置(6個(gè)編碼器層,512個(gè)隱藏單元和8個(gè)注意頭)更大的前饋網(wǎng)絡(luò)(分別為768和1024個(gè)隱藏單元)和更多的注意頭(分別為12和16)。BERT模型很容易進(jìn)行微調(diào),通??梢栽趩蝹€(gè)GPU上完成。BERT可以用在NLP中進(jìn)行翻譯,特別是低資源語(yǔ)言翻譯。

Transformer的一個(gè)性能缺點(diǎn)是,它們?cè)谧晕谊P(guān)注方面的計(jì)算時(shí)間是二次的,而RNN只是線性增長(zhǎng)。

6.2 Transformer的用例

6.2.1 語(yǔ)言領(lǐng)域

在傳統(tǒng)的語(yǔ)言模型中,相鄰的單詞會(huì)首先被分組在一起,而Transformer則能夠并行處理,使得輸入數(shù)據(jù)中的每個(gè)元素都能夠連接或關(guān)注到每個(gè)其他元素。這被稱為“自我注意力”。這意味著Transformer一開始訓(xùn)練時(shí)就可以看到整個(gè)數(shù)據(jù)集的內(nèi)容。

在Transformer出現(xiàn)之前,AI語(yǔ)言任務(wù)的進(jìn)展在很大程度上落后于其他領(lǐng)域的發(fā)展。實(shí)際上,在過去的10年左右的深度學(xué)習(xí)革命中,自然語(yǔ)言處理是后來者,而NLP在某種程度上落后于計(jì)算機(jī)視覺。然而,隨著Transformers的出現(xiàn),NLP領(lǐng)域得到了極大的推動(dòng),并且推出了一系列在各種NLP任務(wù)中取得佳績(jī)的模型。

例如,為了理解基于傳統(tǒng)語(yǔ)言模型(基于遞歸架構(gòu),如RNN、LSTM或GRU)與Transformer之間的區(qū)別,我們可以舉個(gè)例子:“The owl spied a squirrel. It tried to grab it with its talons but only got the end of its tail.”第二個(gè)句子的結(jié)構(gòu)很令人困惑:那個(gè)“it”是指什么??jī)H關(guān)注“it”周圍單詞的傳統(tǒng)語(yǔ)言模型會(huì)遇到困難,但是將每個(gè)單詞與每個(gè)其他單詞相連的Transformer可以分辨出貓頭鷹抓住了松鼠,而松鼠失去了部分尾巴。

6.2.2 視覺領(lǐng)域

在CNN中,我們從局部開始,逐漸獲得全局視角。CNN通過從局部到全局的方式構(gòu)建特征,逐像素識(shí)別圖像,以識(shí)別例如角落或線條等特征。然而,在transformer中,通過自我注意力,即使在信息處理的第一層上,也會(huì)建立遠(yuǎn)程圖像位置之間的連接(就像語(yǔ)言一樣)。如果CNN的方法就像從單個(gè)像素開始縮放,那么transformer會(huì)逐漸將整個(gè)模糊的圖像聚焦。

圖片

CNN通過反復(fù)應(yīng)用輸入數(shù)據(jù)的局部補(bǔ)丁上的濾鏡,生成局部特征表示,并逐步增加它們的感受視野并構(gòu)建全局特征表示。正是因?yàn)榫矸e,照片應(yīng)用程序才能將梨與云彩區(qū)分開來。在transformer架構(gòu)之前,CNN被認(rèn)為是視覺任務(wù)不可或缺的。

Vision Transformer模型的架構(gòu)與2017年提出的第一個(gè)transformer幾乎相同,只有一些微小的變化使其能夠分析圖像而不是單詞。由于語(yǔ)言往往是離散的,因此需要將輸入圖像離散化,以使transformer能夠處理視覺輸入。在每個(gè)像素上完全模仿語(yǔ)言方法并執(zhí)行自我關(guān)注將計(jì)算時(shí)間變得極為昂貴。因此,ViT將更大的圖像分成方形單元或補(bǔ)丁(類似于NLP中的令牌)。大小是任意的,因?yàn)楦鶕?jù)原始圖像的分辨率,token可以變大或變?。J(rèn)為16x16像素)。但是通過處理組中的像素并對(duì)每個(gè)像素應(yīng)用自我注意力,ViT可以快速處理巨大的訓(xùn)練數(shù)據(jù)集,輸出越來越準(zhǔn)確的分類。

6.2.3 多模態(tài)任務(wù)

與 Transformer 相比,其他深度學(xué)習(xí)架構(gòu)只會(huì)一種技巧,而多模態(tài)學(xué)習(xí)需要在一個(gè)流暢的架構(gòu)中處理具有不同模式的模態(tài),并具有相當(dāng)高的關(guān)系歸納偏差,才能達(dá)到人類智能的水平。換句話說,需要一個(gè)單一多用途的架構(gòu),可以無縫地在閱讀/觀看、說話和聽取等感官之間轉(zhuǎn)換。

對(duì)于多模態(tài)任務(wù),需要同時(shí)處理多種類型的數(shù)據(jù),如原始圖像、視頻和語(yǔ)言等,而 Transformer 提供了通用架構(gòu)的潛力。

圖片

由于早期架構(gòu)中采用的分立方法,每種類型的數(shù)據(jù)都有自己特定的模型,因此這是一項(xiàng)難以完成的任務(wù)。然而,Transformer 提供了一種簡(jiǎn)單的方法來組合多個(gè)輸入來源。例如,多模態(tài)網(wǎng)絡(luò)可以為系統(tǒng)提供動(dòng)力,讀取人的嘴唇動(dòng)作并同時(shí)使用語(yǔ)言和圖像信息的豐富表示來監(jiān)聽他們的聲音。通過交叉注意力,Transformer 能夠從不同來源派生查詢、鍵和值向量,成為多模態(tài)學(xué)習(xí)的有力工具。

因此,Transformer 是實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)架構(gòu)“融合”的一大步,從而可以幫助實(shí)現(xiàn)對(duì)多種模態(tài)數(shù)據(jù)的通用處理。

6.3 Transformer對(duì)比RNN/GRU/LSTM的優(yōu)缺點(diǎn)

與RNN/GRU/LSTM相比,Transformer可以學(xué)習(xí)比RNN和其變體(如GRU和LSTM)更長(zhǎng)的依賴關(guān)系。

然而,最大的好處來自于Transformer如何適用于并行化。與在每個(gè)時(shí)間步驟處理一個(gè)單詞的RNN不同,Transformer的一個(gè)關(guān)鍵屬性是每個(gè)位置上的單詞都通過自己的路徑流經(jīng)編碼器。在自我注意力層中,由于自我注意層計(jì)算每個(gè)輸入序列中的其他單詞對(duì)該單詞的重要性,這些路徑之間存在依賴關(guān)系。但是,一旦生成了自我注意力輸出,前饋層就沒有這些依賴關(guān)系,因此各個(gè)路徑可以在通過前饋層時(shí)并行執(zhí)行。這在Transformer編碼器的情況下是一個(gè)特別有用的特性,它可以在自我注意力層后與其他單詞并行處理每個(gè)輸入單詞。然而,這個(gè)特性對(duì)于解碼器并不是非常重要,因?yàn)樗淮沃簧梢粋€(gè)單詞,不使用并行單詞路徑。

Transformer架構(gòu)的運(yùn)行時(shí)間與輸入序列的長(zhǎng)度呈二次方關(guān)系,這意味著當(dāng)處理長(zhǎng)文檔或?qū)⒆址鳛檩斎霑r(shí),處理速度可能會(huì)很慢。換句話說,在進(jìn)行自我注意力形成期間,需要計(jì)算所有交互對(duì),這意味著計(jì)算隨著序列長(zhǎng)度呈二次增長(zhǎng),即O(T^2 d),其中T序列長(zhǎng)度,D是維度。例如,對(duì)應(yīng)一個(gè)簡(jiǎn)單的句子d=1000,T≤30?T^2≤900?T^2d≈900K。而對(duì)于循環(huán)神經(jīng),它僅以線性方式增長(zhǎng)。

如果Transformer不需要在句子中的每一對(duì)單詞之間計(jì)算成對(duì)的交互作用,那豈不是很好?有研究表明可以在不計(jì)算所有單詞對(duì)之間的交互作用(例如通過近似成對(duì)關(guān)注)的情況下實(shí)現(xiàn)相當(dāng)高的性能水平。

與CNN相比,Transformer的數(shù)據(jù)需求極高。CNN仍然具有樣本效率,這使它們成為低資源任務(wù)的絕佳選擇。這對(duì)于圖像/視頻生成任務(wù)尤其如此,即使對(duì)于CNN架構(gòu),需要大量數(shù)據(jù)(因此暗示Transformer架構(gòu)需要極高的數(shù)據(jù)需求)。例如,Radford等人最近提出的CLIP架構(gòu)是使用基于CNN的ResNets作為視覺骨干進(jìn)行訓(xùn)練的(而不是類似ViT的Transformer架構(gòu))。雖然Transformer在滿足其數(shù)據(jù)需求后提供了準(zhǔn)確性提升,但CNN則提供了一種在可用數(shù)據(jù)量不是異常高的任務(wù)中提供良好準(zhǔn)確性表現(xiàn)的方式。因此,兩種架構(gòu)都有其用途。

由于Transformer 架構(gòu)的運(yùn)行時(shí)間與輸入序列的長(zhǎng)度呈二次方關(guān)系。也就是說,在所有單詞對(duì)上計(jì)算注意力需要圖中邊的數(shù)量隨節(jié)點(diǎn)數(shù)呈二次方增長(zhǎng),即在一個(gè) n 個(gè)單詞的句子中,Transformer 需要計(jì)算 n^2 個(gè)單詞對(duì)。這意味著參數(shù)數(shù)量巨大(即內(nèi)存占用高),從而導(dǎo)致計(jì)算復(fù)雜度高。高計(jì)算要求對(duì)電源和電池壽命都會(huì)產(chǎn)生負(fù)面影響,特別是對(duì)于可移動(dòng)設(shè)備而言。總體而言,為了提供更好的性能(例如準(zhǔn)確性),Transformer需要更高的計(jì)算能力、更多的數(shù)據(jù)、電源/電池壽命和內(nèi)存占用。

7. 推理偏差

實(shí)踐中使用的每個(gè)機(jī)器學(xué)習(xí)算法,從最近鄰到梯度提升,都帶有自己關(guān)于哪些分類更容易學(xué)習(xí)的歸納偏差。幾乎所有學(xué)習(xí)算法都有一個(gè)偏差,即學(xué)習(xí)那些相似的項(xiàng)(在某些特征空間中“接近”彼此)更可能屬于同一類。線性模型,例如邏輯回歸,還假設(shè)類別可以通過線性邊界分離,這是一個(gè)“硬”偏差,因?yàn)槟P蜔o法學(xué)習(xí)其他內(nèi)容。即便對(duì)于正則化回歸,這幾乎是機(jī)器學(xué)習(xí)中經(jīng)常使用的類型,也還存在一種偏差,即傾向于學(xué)習(xí)涉及少數(shù)特征,具有低特征權(quán)重的邊界,這是“軟”偏差,因?yàn)槟P涂梢詫W(xué)習(xí)涉及許多具有高權(quán)重功能的類別邊界,但這更困難/需要更多數(shù)據(jù)。

即使是深度學(xué)習(xí)模型也同樣具有推理偏差,例如,LSTM神經(jīng)網(wǎng)絡(luò)對(duì)自然語(yǔ)言處理任務(wù)非常有效,因?yàn)樗蛴谠陂L(zhǎng)序列上保留上下文信息。

圖片

了解領(lǐng)域知識(shí)和問題難度可以幫助我們選擇適當(dāng)?shù)乃惴☉?yīng)用。例如,從臨床記錄中提取相關(guān)術(shù)語(yǔ)以確定患者是否被診斷為癌癥的問題。在這種情況下,邏輯回歸表現(xiàn)良好,因?yàn)橛泻芏嗒?dú)立有信息量的術(shù)語(yǔ)。對(duì)于其他問題,例如從復(fù)雜的PDF報(bào)告中提取遺傳測(cè)試的結(jié)果,使用LSTM可以更好地處理每個(gè)單詞的長(zhǎng)程上下文,從而獲得更好的性能。一旦選擇了基礎(chǔ)算法,了解其偏差也可以幫助我們執(zhí)行特征工程,即選擇要輸入到學(xué)習(xí)算法中的信息的過程。

每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差,幫助理解數(shù)據(jù)中的模式,從而實(shí)現(xiàn)學(xué)習(xí)。例如,CNN表現(xiàn)出空間參數(shù)共享、平移/空間不變性,而RNN表現(xiàn)出時(shí)間參數(shù)共享。

8. 小結(jié)

老碼農(nóng)嘗試對(duì)比分析了深度學(xué)習(xí)架構(gòu)中的Transformer、CNN、RNN/GRU/LSTM,理解到Transformer可以學(xué)習(xí)更長(zhǎng)的依賴關(guān)系,但需要更高的數(shù)據(jù)需求和計(jì)算能力;Transformer適用于多模態(tài)任務(wù),可以無縫地在閱讀/觀看、說話和聽取等感官之間轉(zhuǎn)換;每個(gè)模型結(jié)構(gòu)都有一種內(nèi)在的推理偏差,幫助理解數(shù)據(jù)中的模式,從而實(shí)現(xiàn)學(xué)習(xí)。

【參考資料】

  • CNN vs fully connected network for image recognition?,https://stats.stackexchange.com/questions/341863/cnn-vs-fully-connected-network-for-image-recognition
  • https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/lectures/lecture12.pdf
  • Introduction to LSTM Units in RNN,https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn
  • Learning Transferable Visual Models From Natural Language Supervision,https://arxiv.org/abs/2103.00020
  • Linformer: Self-Attention with Linear Complexity,https://arxiv.org/abs/2006.04768
  • Rethinking Attention with Performers,https://arxiv.org/abs/2009.14794
  • Big Bird: Transformers for Longer Sequences,https://arxiv.org/abs/2007.14062
  • Synthesizer: Rethinking Self-Attention in Transformer Models,https://arxiv.org/abs/2005.00743
  • Do Vision Transformers See Like Convolutional Neural Networks?,https://arxiv.org/abs/2108.08810
  • Illustrated Transformer,https://jalammar.github.io/illustrated-transformer/
責(zé)任編輯:武曉燕 來源: 半吊子全棧工匠 喔家ArchiSelf
相關(guān)推薦

2017-05-05 10:15:38

深度學(xué)習(xí)框架對(duì)比分析

2018-01-26 14:29:01

框架

2018-01-21 14:11:22

人工智能PaddlePaddlTensorflow

2010-06-08 11:15:43

OpenSUSE Ub

2010-08-04 15:47:24

NFS版本

2016-10-18 21:10:17

GitHubBitbucketGitLab

2010-07-20 16:16:21

SDH

2010-07-14 10:26:58

IMAP協(xié)議

2010-06-24 21:35:33

2017-03-20 14:32:57

2013-01-17 16:11:11

數(shù)據(jù)中心交換機(jī)網(wǎng)絡(luò)虛擬化

2018-06-07 09:45:08

2021-05-18 10:18:15

Java

2015-11-16 15:37:13

編排工具集群管理對(duì)比

2019-07-03 10:58:22

Kubernetes網(wǎng)絡(luò)插件

2019-12-26 16:21:59

ReactJSAngularJSVue.js

2009-02-16 17:21:46

2010-01-15 16:22:03

交換機(jī)技術(shù)發(fā)展趨勢(shì)

2020-11-18 09:33:03

數(shù)據(jù)分析業(yè)務(wù)問題

2025-01-17 09:29:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线国产一区二区 | 91免费在线播放 | av在线伊人 | 精品国产乱码久久久久久丨区2区 | 日p视频免费看 | 99福利| 黑人精品欧美一区二区蜜桃 | 国产在线观看一区二区 | 一区二区三区四区在线 | 成人免费视频网站 | www.日韩欧美 | 欧美三级在线 | 中文字幕一区二区三区四区五区 | 综合久久av | 国内精品一区二区三区 | 国产精品揄拍一区二区 | 中文字幕亚洲视频 | av在线播放网址 | 欧美黄视频 | 欧美 日韩 国产 成人 在线 | 久艹网站 | 亚洲视频中文 | 欧美成人在线免费 | 男人的天堂久久 | 久久99精品久久久久久 | 国产a级黄色录像 | 色综合一区 | 成人亚洲一区 | 黄视频网站在线 | 免费99视频| 99精品视频一区二区三区 | 日日干干 | 天天曰天天干 | 91免费在线 | av手机免费在线观看 | 亚洲第一在线 | 日本黄色免费大片 | 欧美日韩综合一区 | 在线观看中文字幕视频 | 国产乱码精品一品二品 | 91aiai|