成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖與代碼不一致,Transformer論文被發現錯誤,網友:早該被指出1000次

人工智能 新聞
論文中的圖有時會出現與實現代碼不對應的情況,這會讓讀者頭大,不知是有意還是無意為之。這次,沒想到大名鼎鼎的 Transformer 論文也「翻車」了。

2017 年,谷歌大腦團隊在其論文《Attention Is All You Need》中創造性的提出 Transformer 這一架構,自此這一研究一路開掛,成為當今 NLP 領域最受歡迎的模型之一,被廣泛應用于各種語言任務,并取得了許多 SOTA 結果。

不僅如此,在 NLP 領域一路領先的 Transformer,迅速席卷計算機視覺(CV)、語音識別等領域,在圖像分類、目標檢測、語音識別等任務上取得良好的效果。

圖片

論文地址:https://arxiv.org/pdf/1706.03762.pdf

從推出至今,Transformer 已經成為眾多模型的核心模塊,比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就連近段時間爆火的 ChatGPT 也依賴 Transformer,而后者早已被谷歌申請了專利。

圖片

圖源:https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 發布的系列模型 GPT(Generative Pre-trained Transformer),名字中帶有 Transformer,可見 Transformer 是 GPT 系列模型的核心。

與此同時,最近 OpenAI 聯合創始人 Ilya Stutskever 在談到 Transformer 時表示,當 Transformer 剛發布之初,實際上是論文放出來的第二天,他們就迫不及待的將以前的研究切換到 Transformer ,后續才有了 GPT。可見 Transformer 的重要性不言而喻。

6 年時間,基于 Transformer 構建的模型不斷發展壯大。然而現在,有人發現了 Transformer 原始論文中的一處錯誤。

Transformer 架構圖與代碼「不一致」

發現錯誤的是一位知名機器學習與 AI 研究者、初創公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出,原始 Transformer 論文中的架構圖有誤,將層歸一化(LN)放置在了殘差塊之間,而這與代碼不一致。

圖片

Transformer 架構圖如下左,圖右為 Post-LN Transformer 層(出自論文《On Layer Normalization in the Transformer Architecture》[1])。

不一致的代碼部分如下,其中 82 行寫了執行順序「layer_postprocess_sequence="dan"」,表示后處理依次執行 dropout、residual_add 和 layer_norm。如果上圖左中的 add&norm 理解為:add 在 norm 上面,即先 norm 再 add,那確實代碼和圖不一致。

代碼地址:

https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…

接下來,Sebastian 又表示,論文《On Layer Normalization in the Transformer Architecture》認為 Pre-LN 表現更好,能夠解決梯度問題。這是很多或者大多數架構在實踐中所采用的,但它可能導致表示崩潰。

當層歸一化在注意力和全連接層之前被放置于殘差連接之中時,能夠實現更好的梯度。

圖片

因此,雖然關于 Post-LN 或 Pre-LN 的爭論仍在繼續,但另一篇論文結合了這兩點,即《ResiDual: Transformer with Dual Residual Connections》[2]。

對于 Sebastian 的這一發現,有人認為,我們經常會遇到與代碼或結果不一致的論文。大多數是無心之過,但有時令人感到奇怪。考慮到 Transformer 論文的流行程度,這個不一致問題早就應該被提及 1000 次。

Sebastian 回答稱,公平地講,「最最原始」的代碼確實與架構圖一致,但 2017 年提交的代碼版本進行了修改,同時沒有更新架構圖。所以,這實在令人困惑。

圖片

正如一位網友所說,「讀代碼最糟糕的是,你會經常發現這樣的小變化,而你不知道是有意還是無意。你甚至無法測試它,因為你沒有足夠的算力來訓練模型。」

不知谷歌之后會更新代碼還是架構圖,我們拭目以待!

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-10 09:42:39

代碼開源

2018-07-15 08:18:44

緩存數據庫數據

2024-05-11 07:37:43

數據Redis策略

2025-04-03 09:51:37

2017-06-20 09:42:52

網絡安全法數據隱私法網絡安全

2017-08-25 17:59:41

浮點運算C語言

2021-05-27 18:06:30

MySQL編碼數據

2010-06-02 10:53:28

MySQL版本

2024-04-07 09:00:00

MySQL

2022-03-18 10:53:49

數據系統架構

2018-07-08 07:38:28

數據庫緩存數據

2020-07-20 14:06:38

數據庫主從同步服務

2021-12-26 14:32:11

緩存數據庫數據

2025-04-08 09:00:00

數據庫緩存架構

2021-04-18 15:01:56

緩存系統數據

2024-11-18 08:00:00

數據倉庫通用語義層商業智能

2022-03-16 15:54:52

MySQL數據format

2013-03-29 11:16:17

2021-01-19 10:39:03

Redis緩存數據

2013-12-13 14:46:55

OSPFMTU鄰接關系
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久一区 | 亚洲一区在线日韩在线深爱 | 一级毛片网 | 九九99靖品| 91国内外精品自在线播放 | 久久综合伊人一区二区三 | 久久激情网| 激情视频中文字幕 | 久久精品国产免费 | 91在线精品视频 | 91在线视频免费观看 | 午夜天堂精品久久久久 | 男女一区二区三区 | 亚洲91精品 | 久久国产精品视频 | 亚洲国产精品自拍 | 亚洲久在线 | 91看片在线观看 | 成av在线 | 精国产品一区二区三区四季综 | 在线观看中文视频 | 密色视频| 欧美精品一区二区三区在线四季 | 一级毛片中国 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 亚洲高清一区二区三区 | 91色站 | 精品国产乱码久久久久久蜜臀 | 黑人巨大精品欧美一区二区免费 | 欧美一区视频 | 成人免费淫片aa视频免费 | 国产免费一区 | 欧美日韩三区 | 久久99这里只有精品 | 日日操视频 | 国产精品欧美一区二区 | 中文字幕伊人 | 精品国产免费人成在线观看 | 亚洲精品一区二区三区蜜桃久 | 成人在线视频一区 | 国产在线拍偷自揄拍视频 |