成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華為改進Transformer架構!盤古-π解決特征缺陷問題,同規模性能超LLaMA

人工智能 新聞
目前常見大模型基本都采用Transformer架構,比如GPT、LLaMA等。它的核心構成包括多頭自注意力機制(MSA)和前饋網絡(FFN)。

華為盤古系列,帶來架構層面上新!

量子位獲悉,華為諾亞方舟實驗室等聯合推出新型大語言模型架構:盤古-π。

圖片

它通過增強非線性,在傳統Transformer架構上做出改進,由此可以顯著降低特征塌陷問題。

帶來的直接效果就是模型輸出表達能力更強。

在使用相同數據訓練的情況下,盤古-π(7B)在多任務上超越LLaMA 2等同規模大模型,并能實現10%的推理加速。

在1B規模上可達SOTA。

同時還基于這一架構煉出了一個金融法律大模型“云山”。

該工作由AI大牛陶大程領銜。

具體如何實現?一起來看。

利用非線性解決特征塌陷

目前常見大模型基本都采用Transformer架構,比如GPT、LLaMA等。

它的核心構成包括多頭自注意力機制(MSA)和前饋網絡(FFN)。

圖片

MSA的主要功能是計算輸入序列中每個token和其他所有token之間的相關性,通過學習輸入序列中的依賴關系,可以增強對語言的理解能力。FFN主要對輸入進行非線性轉換,增強模型表達能力,使其可以逼近更復雜的函數。

不過,華為諾亞方舟實驗室發現,特征崩潰(feature collapse)會影響Transformer架構的表現,降低其表達能力,使模型難以區分不同輸入。

以LLaMA為例,在更深層的神經網絡上,特征等級顯著降低,導致了所有token之間的相似性更強。

從機制上來看,自注意力模塊可以看做在完全圖上進行信息聚合,連續堆疊多層注意力就像連續多層圖卷積一樣,會產生過度特征平滑效應。

另一方面,多層感知器(MLP)中的激活函數提供的非線性還不夠,抑制特征崩潰的作用有限。

由此,團隊想要提高模型的非線性表達能力,避免特征崩潰,進而提出了本次工作盤古-π

如下是盤古-π的結構示意:

圖片

在FFN中加入串聯激活函數,在MSA中集成一種增強快捷連接(Aug-S),可以更有效地在Transformer架構中引入更多非線性。

圖片

使用了增強快捷連接(Aug-S)的MSA,能將每個token的特征轉換為不同表示形式。

基于這一新架構,通過大規模訓練和微調,研究團隊開發了一個盤古-π基礎模型。

實驗結果顯示,該模型在多任務中表現超越其他同規模模型(分別測試了7B和1B規模)。

而且盤古-π-7B可以達到約10%的推理加速。

圖片

圖片

同時團隊還以此為基礎開發了一個金融法律領域大模型“云山”,它同樣在多個benchmark中成績超越其他模型。

圖片
圖片

通訊作者為陶大程

值得關注的是,本項研究的團隊陣容也非常亮眼。

通訊作者為陶大程。

他是歐洲科學院外籍院士、澳大利亞科學院院士。本科就讀于中科大,說是畢業于港中文MMLab、師從湯曉鷗。

2007年從博士畢業后,先后在中國香港理工大學、新加坡南洋理工大學,澳大利亞悉尼科技大學、悉尼大學任教。目前是清華大學智能產業研究院AIR團隊卓越訪問教授。

與此同時,他還先后加盟過優必選、京東,曾是京東最高級別AI科學家、擔任京東探索研究院院長。

圖片

一作為王云鶴。

他是2012實驗室諾亞方舟實驗室高級研究員,現任算法應用部部長。

王云鶴在華為負責高效AI算法的創新研發以及在華為業務中的應用。他和團隊開發了高效AI算法,其衍生應用在中國天眼FAST觀測工作中,協助中科院國家天文臺專家找到了數百個新的快速射電暴樣本。

圖片

論文地址:http://arxiv.org/abs/2312.17276

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-23 14:01:29

模型開源

2025-02-14 01:00:00

LLaMALLM模型

2024-02-04 12:22:28

模型數據

2017-09-11 16:13:57

2024-11-25 08:54:41

2024-11-11 10:40:00

模型訓練

2024-11-26 13:30:00

2024-09-19 13:04:03

2024-06-26 13:15:40

2018-02-08 08:29:08

NFV網絡分層解耦

2024-09-13 09:14:32

2020-11-01 17:13:22

DotNET 5語言gRPC

2021-05-21 10:06:01

人工智能神經網絡技術

2024-07-29 09:10:00

模型數據

2025-06-03 17:37:10

模型訓練數據

2024-08-16 12:46:08

2014-07-29 09:11:17

華為

2024-06-06 13:26:15

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 福利片在线 | 国产综合精品一区二区三区 | 一区二区三区高清 | 日日网 | 亚洲精品国产成人 | 黄色大片在线免费观看 | 国产在线91| 日日天天| 91成人精品 | 亚洲女人的天堂 | 日韩av在线一区二区三区 | av小说在线 | 日日夜夜精品视频 | 久久久精品一区二区 | 国产999精品久久久久久 | 9久久婷婷国产综合精品性色 | 欧美日韩国产综合在线 | 欧美精品在线一区二区三区 | 国产在线一区二区三区 | jizz视频 | 免费在线色 | 欧美成人免费在线 | 91精品国产综合久久精品 | 一级毛片视频 | 国产精品久久久久久久免费观看 | 国产成人久久精品 | 精品1区2区 | 91天堂| 一区二区三区四区国产 | 中文字幕电影在线观看 | 日本久久一区二区三区 | 久久亚洲国产精品日日av夜夜 | 久久久黑人 | 亚洲精品一区二区三区蜜桃久 | 天天综合网天天综合色 | 欧美精品一区二区三区蜜桃视频 | 成人精品一区二区三区中文字幕 | 精品一区二区三区不卡 | 欧美激情综合 | 国产精品99久久久久久宅男 | 亚洲国产精品一区 |