成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="o4w6c"></input>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

架構(gòu)瓶頸原則：用注意力probe估計神經(jīng)網(wǎng)絡組件提供多少句法信息

作者：機器之心 2022-12-02 15:26:27

開發(fā) 新聞

本文中，劍橋和 ETH Zurich 的研究者從一個新的角度探討了 probing，不關(guān)心模型編碼了多少信息，而是關(guān)心它的組件可以提取多少信息。

預訓練語言模型在各種自然語言處理任務上的驚人表現(xiàn)，引起了人們對其分析的興趣。Probing 是進行此類分析所采用的最普遍的方法之一。在典型的 probing 研究中，probing 是一個插在中間層的淺層神經(jīng)網(wǎng)絡，通常是一個分類器層。其有助于探查不同層捕獲的信息。使用輔助任務對 probing 進行訓練和驗證，以發(fā)現(xiàn)是否捕獲了此類輔助信息。

一般來講，研究者首先凍結(jié)模型的權(quán)重，然后在模型的上下文表示的基礎上訓練probe，從而預測輸入句子的屬性，例如句法解析（其對句子結(jié)構(gòu)進行分析，理清句子中詞匯之間的連接規(guī)則）。不幸的是，關(guān)于如何設計此類 probe 的最佳實踐仍然存在爭議。

一方面，有研究者傾向于使用簡單的 probe，這樣就可以將 probe 與 NLP 任務區(qū)分開來；另一方面，一些人認為需要復雜的 probe 才能從表示中提取相關(guān)信息。此外，還有一些人考慮折中的方法，主張將復雜性 - 準確性帕累托曲線上的 probe 考慮在內(nèi)。

本文中，來自劍橋大學、蘇黎世聯(lián)邦理工學院的研究者提出架構(gòu)瓶頸原則 (ABP，architectural bottleneck principle) 作為構(gòu)建有用 probe 的指南，并試圖測量神經(jīng)網(wǎng)絡中的一個組件可以從饋送到它的表示中提取多少信息。為了估計給定組件可以提取多少信息，該研究發(fā)現(xiàn) probe 應該與組件完全相同。根據(jù)這一原理，該研究通過注意力 probe 來估計有多少句法信息可用于 transformer。

論文地址：https://arxiv.org/pdf/2211.06420.pdf

舉例來說，該研究假設 transformer 的注意力頭是其使用句法信息的瓶頸，因為這是 transformer 中唯一可以同時訪問多個 token 的組件。根據(jù) ABP，該研究提出注意力 probe，就像注意力頭一樣。該 probe 回答了這樣一個問題：transformer 在計算其注意力權(quán)重時可以使用多少句法信息？

結(jié)果表明，大多數(shù)（盡管不是全部）句法信息都可以通過這種簡單的注意力頭架構(gòu)提?。河⒄Z句子平均包含 31.2 bit 的句法樹結(jié)構(gòu)信息，而注意力 probe 可以提取 28.0 bits 信息。更進一步，在 BERT、ALBERT 和 RoBERTa 語言模型上，一個句子的語法樹大部分是可以被 probe 提取的，這表明這些模型在組成上下文表示時可以訪問句法信息。然而，這些模型是否真的使用了這些信息，仍然是一個懸而未決的問題。

注意力 Probe

目前，有許多方法用來設計有效的 probe，分類原則大致包括：線性原則、最大信息原則、易提取原則，此外還包括本文提出的 ABP 原則。

可以說 ABP 將前三個原則聯(lián)系起來。最重要的是，ABP 泛化了線性原則、最大信息原則，此外，ABP 還通過限制 probe 的容量來隱式控信息制提取的難易程度。

該研究重點關(guān)注 transformer 注意力機制。此前研究人員曾斷言，在計算注意力權(quán)重時，transformer 會使用句法信息。此外，注意力頭是 transformer 中唯一可以同時訪問多個單詞的組件。因此，在注意力頭的背景下探索 ABP 是一個自然的起點。具體而言，根據(jù) ABP，我們可以研究 transformer 的注意力頭可以從輸入表示中提取多少信息。

實驗結(jié)果

對于數(shù)據(jù)，研究者使用了通用依賴（UD）樹庫。他們分析了四種不同類型的語言，包括巴斯克語、英語、泰米爾語和土耳其語。此外，研究者將分析重點放在未標記的依賴樹上，并注意到 UD 使用特定的句法形式，這可能會對結(jié)果造成影響。

對于模型，研究者探討了以上四種語言的多語言 BERT 以及僅支持英語的 RoBERTa 和 ALBERT。根據(jù) ABP，他們保持 probe 的隱藏層大小與 probed 架構(gòu)中的相同。最后，他們還將一個具有與 BERT 相同架構(gòu)的未訓練 transformer 模型作為基線。

下圖 1 展示了主要結(jié)果。首先，研究者的 probe 估計大多數(shù)句法信息可以在中間層提取。其次，大量句法信息在饋入注意力頭的表示中進行編碼。雖然他們估計使用英語、泰米爾語和巴斯克語句子編碼的信息接近 31 bits，但使用土耳其句子編碼的信息約為 15 bits。研究者懷疑這是因為土耳其語在語料庫中的句子最短。

研究者還發(fā)現(xiàn)，句子中的幾乎所有句法信息都可用于考慮中的基于 transformer 的模型。例如在英語中，他們發(fā)現(xiàn)信息量最大的層在 BERT、RoBERTa 和 ALBERT 中的 V 系數(shù)分別為 90%、82% 和 89%，具體如下表 1 所示。這意味著這些模型可以訪問一個句子中約 85% 的句法信息。不過未訓練的 BERT 表示并不適合這種情況。

最后，研究者將 BERT 的注意力權(quán)重（通過其預訓練的注意力頭計算）直接插入到原文公式 (8) 并分析產(chǎn)生的未標記附件分數(shù)。英語相關(guān)的 BERT 結(jié)果如下圖 2 所示。簡言之，雖然注意力頭可以使用大量的句法信息，但沒有一個實際的頭可以計算與句法樹非常相似的權(quán)重。

但是，由于 BERT 有 8 個注意力頭，因此可能以分布式方式使用句法信息，其中每個頭依賴該信息的子集。

責任編輯：張燕妮

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：热99在线| 56pao在线| 亚洲精品久久久久久下一站 | 国产一区二区自拍 | 日韩视频在线观看一区二区 | 日韩视频三区 | 成人超碰 | 精品免费在线 | 亚洲国产一区二区三区四区 | 国产三级一区二区 | 欧美一a一片一级一片 | 欧美8一10sex性hd | 成人免费视频播放 | 欧美一区视频在线 | 日韩在线 | 成人av片在线观看 | 日韩成人在线视频 | 国产精品视频免费观看 | 国产成人免费视频网站视频社区 | 欧美精品综合在线 | 欧美日韩在线不卡 | 国产超碰人人爽人人做人人爱 | 国产a视频 | 一二三区在线 | 99久久精品免费视频 | 不卡在线视频 | 久久久久久久亚洲精品 | 欧美性生活一区二区三区 | 色婷婷久久久久swag精品 | 国产网站在线免费观看 | 精品欧美一区二区在线观看欧美熟 | 91国内在线观看 | 国产精品毛片一区二区在线看 | 亚洲三区在线观看 | 91在线观看| 午夜精品一区二区三区在线视频 | 日韩精品1区2区3区国产精品国产成人国产三级 | 91九色婷婷 | 国产我和子的乱视频网站 | 精品欧美一区免费观看α√ | m豆传媒在线链接观看 |

<samp id="uuoga"></samp>

<bdo id="uuoga"><optgroup id="uuoga"></optgroup></bdo>