成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Transformer開山論文驚天「翻車」?圖與代碼不一致,神秘Bug看傻了

人工智能 新聞
圖與代碼不一致的論文,很「常見」,不過提出了Transformer的開山鼻祖論文,竟然也出現了同樣的錯誤?

今天,AI圈被一個驚天「翻車」刷屏了。

谷歌大腦的NLP奠基之作、提出Transformer架構的開山鼻祖級論文 《Attention Is All Your Need》 中的圖,被網友扒出與代碼并不一致。

圖片

論文地址:https://arxiv.org/abs/1706.03762

自2017年問世以來,Transformer已經成為AI領域的基石王者。就連大紅大紫的ChatGPT真正的幕后大佬也是它。

2019年,谷歌還專門為它申請了專利。

圖片

歸宗溯源,現在各類層出不窮的GPT(Generative Pre-trained Transformer),都起源于這篇17年的論文。

據Google Scholar,截止目前,這篇奠基之作已有7萬多次的引用。

圖片

所以,ChatGPT的奠基石都不穩了?

作為「開山鼻祖」的論文,結構圖竟是錯的?

Lightning AI創始人、機器學習研究者Sebastian Raschka發現,這篇論文中Transformer的圖是錯誤的。

圖片

圖中被圈出的地方,LayerNorms是在注意力和全連接層之后。在殘差塊之間放置層歸一化,會導致輸出層附近參數的預期梯度很大。

而且,這也與代碼不一致。

圖片

圖片

代碼地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

不過有網友指出,Noam shazeer在幾周后對代碼進行了糾正。

圖片

隨后,Sebastian稱,在論文Layer Normalization in the Transformer Architecture中,Pre-LN表現得更好,可以解決梯度問題。

圖片

這是很多或者大多數架構在實踐中所采用的,但它可能導致表征崩潰。

如果層歸一化在注意力和全連接層之前被放置在殘差連接之中,就會實現更好的梯度。

圖片

Sebastian提出,雖然關于使用Post-LN或Pre-LN的討論仍在進行中,但也有一篇新論文提議把二者結合起來。

圖片

論文地址:https://arxiv.org/abs/2304.14802

在這種雙殘差Tranformer中,表征崩潰和梯度消失的問題都得到了解決。

圖片

網友熱議

針對論文中的疑點,有網友指出:中間不是已經有了PreLN和PostLN了嗎?

Sebastian回答說,自己也覺得有點奇怪。或許2nd LN指的是最后一個輸出層,而不是每個transformer塊,但他對此也不確定。

圖片

有網友表示:「我們經常遇到與代碼或結果不匹配的論文。大多數就是出于錯誤,但有時也會讓人很奇怪。而這篇論文已經流傳甚久了,為什么這種問題此前從沒被人提出過,這真的很奇怪。」

圖片

Sebastian表示,公平地講,最原始的代碼是和圖片一致的,但他們在2017年修改了代碼版本,卻沒有更新圖片。所以,這很令人困惑。

圖片

有網友表示,已經有論文在NormFormer中展示了一個不太復雜的架構,而他的團隊最近也證實了他們的結果。而ResiDual論文沒有在任何地方提到NormFormer,這讓人很驚訝。

圖片

同時,評論區不斷出現網友證實:Transformers中使用的LN,與CNN中使用的方式并不同。

圖片

圖片

所以,論文真的存在漏洞,還是烏龍事件?

讓我們靜觀后續。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-09 17:18:35

代碼AI

2018-07-15 08:18:44

緩存數據庫數據

2024-05-11 07:37:43

數據Redis策略

2025-04-03 09:51:37

2017-06-20 09:42:52

網絡安全法數據隱私法網絡安全

2020-04-26 21:57:46

etcd3元數據存儲

2017-08-25 17:59:41

浮點運算C語言

2010-06-02 10:53:28

MySQL版本

2024-04-07 09:00:00

MySQL

2021-05-27 18:06:30

MySQL編碼數據

2018-07-08 07:38:28

數據庫緩存數據

2022-03-18 10:53:49

數據系統架構

2020-07-20 14:06:38

數據庫主從同步服務

2021-12-26 14:32:11

緩存數據庫數據

2025-04-08 09:00:00

數據庫緩存架構

2024-11-18 08:00:00

數據倉庫通用語義層商業智能

2021-04-18 15:01:56

緩存系統數據

2022-03-16 15:54:52

MySQL數據format

2011-02-22 14:02:48

vsftpd

2021-01-19 10:39:03

Redis緩存數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色成人在线 | 欧美精品一区在线发布 | 日韩中文字幕免费在线观看 | 亚洲精品一区中文字幕 | 精品久久久久久久久久久久久久 | 欧美a在线 | 免费观看的av毛片的网站 | 国产探花在线观看视频 | 国产欧美精品区一区二区三区 | 日日操视频 | 视频一区二区三区中文字幕 | 久久久91精品国产一区二区三区 | 日本韩国欧美在线观看 | 久久国产精品一区二区三区 | 99re视频在线观看 | 综合色在线 | 久久亚洲一区二区三区四区 | 国产精品视频一二三区 | 婷婷毛片| 99精品欧美一区二区蜜桃免费 | av黄色在线 | 欧美乱做爰xxxⅹ久久久 | 国产免费又色又爽又黄在线观看 | 久草免费福利 | 国产精品视频久久久 | 综合久久久久 | 亚洲天堂色 | 国产ts人妖一区二区三区 | 91av大全 | 日本不卡一区二区三区在线观看 | 一级黄色日本片 | 一区二区在线不卡 | 九九精品在线 | 国产成人高清 | 精品视频一区二区 | 国产一区二区三区免费视频 | 久久久久久久久久久久91 | 狠狠草视频 | 欧美xxxx黑人又粗又长 | 久久这里有精品 | 久久久亚洲一区 |