成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌提出Transformer架構中,表示崩塌、過度壓縮的五個解決方法

人工智能 新聞
谷歌DeepMind 和牛津大學的研究人員發(fā)布了一篇論文,深度研究了在解碼器Transformer架構中的“表示崩塌”和“過度壓縮”兩大難題,同時提供了幾個簡單的解決方案。

Transformer架構的出現(xiàn)極大推動了生成式AI的發(fā)展,在此基礎之上開發(fā)出了ChatGPT、Copilot、訊飛星火、文心一言、Midjourney等一大批知名產品。

但Transformer架構并非完美還存在不少問題,例如,在執(zhí)行需要計數(shù)或復制輸入序列元素的任務經常會出錯。而這些操作是推理的基本組件,對于解決日常任務至關重要。

所以,谷歌DeepMind和牛津大學的研究人員發(fā)布了一篇論文,深度研究了在解碼器Transformer架構中的“表示崩塌”和“過度壓縮”兩大難題,同時提供了幾個簡單的解決方案。

圖片

表示崩塌

表示崩潰是指在某些情況下,輸入給大模型的不同序列在經過處理后,會生成非常相似甚至幾乎相同的表示,并導致模型無法具體區(qū)分它們。

這是因為Transformer架構中的自注意力機制和位置編碼的設計,使得隨著序列的增長,信息的表示越來越集中,從而導致信息的損失。

圖片

為了更好地解釋這種表示崩潰,研究人員定義了兩個序列的表示差異,并在Gemma 7B大語言模型中進行了實驗。

圖片

一組是逐漸增長的1的序列,另一組是在1的序列末尾添加了一個額外的1。通過觀察這兩組序列在Transformer模型中的表示。

研究人員發(fā)現(xiàn),隨著序列長度的增加,兩組序列的表示差異逐漸減小,直至低于機器的浮點精度,這時大模型已經無法精準區(qū)分這兩個序列了。

過度壓縮

過度壓縮現(xiàn)象的出現(xiàn)與表示崩塌有很大關系。在Transformer模型中,過度壓縮的表現(xiàn)為早期輸入的token在模型的最終表示中的影響力減弱,特別是當這些token距離序列的末尾較遠時。

圖片

由于Transformer模型的自注意力機制和層疊結構,數(shù)據(jù)在每一層都會經過多次的壓縮和重新分配,這可能導致一些重要的信息在傳播過程中被稀釋或變得非常不明顯。

圖片

為了展示過度壓縮在Transformer中的詳細表現(xiàn),研究人員深度分析了如何通過模型的每一層傳遞并最終影響下一個token的預測。

研究人員發(fā)現(xiàn),對于序列中較早的token,由于它們可以通過更多的路徑影響最終的表示,因此它們的影響力會隨著序列長度的增加而減少。這種影響力隨著token在序列中的位置而變化,序列開始的token比序列末尾的token更容易在模型的表示中保留其信息。

圖片

同樣為了驗證該現(xiàn)象的存在,研究人員在Gemini 1.5和Gemma 7B模型中進行了復制和計數(shù)任務實驗。

結果顯示,當序列長度增加時,模型在復制序列末尾的token時表現(xiàn)不佳,而在復制序列開始的token時表現(xiàn)較好,這基本驗證了過度壓縮的現(xiàn)象確實存在。

五個解決方案

為了解決Transformer架構中的表示崩塌和過度壓縮兩大難題,研究人員提出了5個簡單有效的解決方法。

  • 改進注意力機制:最直接的方法就是改進Transformer架構中的自注意力機制。通過調整注意力權重的分配,可以增強模型對序列中早期token的關注。這可以通過修改注意力分數(shù)的計算方式來實現(xiàn),例如,通過增加對早期token的權重,或者重新設計一種機制,使得模型在處理長序列時不會忽略這些token。
  • 改進位置編碼:位置編碼是Transformer模型中用于捕捉序列中token位置信息的關鍵組件。可以改進這個模塊,例如,使用相對位置編碼或可學習的動態(tài)位置編碼,有助于模型更好地保持序列中各個token的獨特性,從而減少表示崩潰的發(fā)生。
  • 增加大模型深度和寬度:增加模型的深度和寬度可以提供更多的參數(shù)來學習復雜的表示,有助于模型更好地區(qū)分不同的輸入序列。但是對AI算力的需求也非常大,不適合小型企業(yè)和個人開發(fā)者。
  • 使用正則化:例如,使用權重衰減可以幫助模型避免過擬合,有助于減少表示崩潰現(xiàn)象。通過在訓練過程中引入噪聲或限制權重的大小,能抵抗輸入序列的微小變化。
  • 引入外部記憶組件:可以使用外部記憶組件,例如,差分記憶或指針網絡,可以幫助模型存儲和檢索長序列中的信息。這種外部記憶可以作為模型內部表示的補充,提供一種機制來保持序列中關鍵信息的活躍度。

圖片

為了驗證方法的有效性,研究人員在谷歌的Gemini 1.5和Gemma 7B大語言模型中行了綜合評測。結果顯示,改進注意力機制和引入外部記憶組件等方法,確實能有效緩解這兩大難題。

責任編輯:張燕妮 來源: AIGC開放社區(qū)
相關推薦

2022-04-06 10:09:17

云服務云計算

2013-06-20 09:14:43

2009-08-24 10:37:11

Silverlight

2021-07-13 17:59:13

人工智能機器學習技術

2020-06-09 10:15:21

模型人工智能自然語言

2010-07-15 14:01:12

telnet亂碼

2023-11-03 10:32:58

物聯(lián)網IOT

2021-03-26 11:38:29

云計算

2021-03-25 11:25:43

云計算云計算產業(yè)云應用

2010-07-29 15:44:54

Flex安全沙箱

2011-12-02 14:00:21

JavaOOM

2016-09-23 20:46:53

2009-12-25 10:01:23

WinForm程序

2024-03-26 10:38:47

模塊CommonJSES

2020-03-27 14:20:55

谷歌Android開發(fā)者

2020-10-04 13:29:00

SQL數(shù)據(jù)庫工具

2011-03-01 13:40:45

500 OOPS

2009-09-10 09:35:25

Linq語句

2010-10-13 17:22:12

MySQL查詢亂碼

2009-07-03 18:14:27

Servlet線程安全
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人一区 | 成人片网址 | 欧美在线一区二区三区四区 | 久久精品国产一区老色匹 | 中文字幕日韩欧美一区二区三区 | 美女黄色在线观看 | 一区二区三区四区不卡 | 毛片久久久 | 亚洲欧美自拍偷拍视频 | 欧美精品a∨在线观看不卡 国产精品久久国产精品 | 欧美日韩在线成人 | 久久精品这里 | 精品国产久 | 欧美一区二区视频 | 一区二区不卡高清 | 香蕉一区 | 亚洲精品在线免费 | 精品在线一区 | 一区二区三区四区在线 | 欧美vide | 亚洲网址| 精品国产乱码久久久久久蜜退臀 | 天天草av | 国产精品久久久 | 91精品亚洲 | 亚洲精品久久久一区二区三区 | 亚洲精品国产成人 | 久久国产成人午夜av影院武则天 | 日韩在线不卡 | 国产三级国产精品 | 91免费福利在线 | 精品久久成人 | 欧美成人高清 | 91黄在线观看 | 伊人天堂网 | 91精品久久久久久综合五月天 | 日韩乱码一二三 | 91影院在线观看 | 在线观看成人小视频 | 亚洲1区 | 亚洲综合一区二区三区 |