成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<delect id="wqyik"></delect>

<code id="wqyik"></code>

<cite id="wqyik"></cite>

<li id="wqyik"><dl id="wqyik"></dl></li>

<dl id="wqyik"><acronym id="wqyik"></acronym></dl>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升

發(fā)布于 2024-4-7 10:01

瀏覽

0收藏

谷歌終于更新了Transformer架構。

最新發(fā)布的Mixture-of-Depths（MoD），改變了以往Transformer計算模式。

它通過動態(tài)分配大模型中的計算資源，跳過一些不必要計算，顯著提高訓練效率和推理速度。

結果顯示，在等效計算量和訓練時間上，MoD每次向前傳播所需的計算量更小，而且后訓練采樣過程中步進速度提高50%。

這一方法剛剛發(fā)布，就馬上引發(fā)關注。

MoE風頭正盛，MoD已經來后浪拍前浪了？

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

還有人開始“算賬”：

聽說GPT-4 Turbo在Blackwell上提速30倍，再加上這個方法和其他各種加速，下一代生成模型可以走多遠？

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

所以MoD如何實現？

迫使大模型關注真正重要信息

這項研究提出，現在的大模型訓練和推理中，有很多計算是沒必要的。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

比如預測下一個句子很難，但是預測句子結束的標點符號很簡單。如果給它們分配同樣的計算資源，那么后者明顯浪費了。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

在理想情況下，模型應該只給需要準確預測的token分配更多計算資源。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

所以研究人員提出了MoD。

它在輸入序列中的特定位置動態(tài)分配FLOPs（運算次數或計算資源），優(yōu)化不同層次的模型深度中的分配。

通過限制給定層的自注意力和MLP計算的token數量，迫使神經網絡學會主要關注真正重要的信息。

因為token數量是事先定義好的，所以這個過程使用一個已知張量大小的靜態(tài)計算圖，可以在時間和模型深度上動態(tài)擴展計算量。

下圖右上圖中的橙色部分，表示沒有使用全部計算資源。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

這種方法在節(jié)省計算資源的同時，還能提高效率。

這些模型在等效的FLOPS和訓練時間上與基線性能相匹配，但每次前向傳播所需的FLOP更少，并且在訓練后采樣時提速50%。

對比來看，如果為每一個token生成一個概率分布，每個token根據最高概率被送去對應的“專家”，可能會導致負載不平衡。

如果反過來，這能保障負載平衡，但是可能導致某些token被過度處理或處理不足。

最后來看論文中使用的Expert-choice MoD，router輸出的權重被用于確定哪些token將使用transformer虧啊計算。權重較大的token將參與計算，權重較小的token將通過殘差連接繞過計算，從而解決每次向前傳播的FLOPs。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

最后，研究團隊展示了MoD在不同實驗中的性能表現。

首先，他們使用相對較小的FLOP預算（6e18），以確定最佳超參數配置。

通過這些實驗，作者發(fā)現MoD方法能夠“拉低并向右推移”isoFLOP基線曲線，這意味著最優(yōu)的MoD方法在更低的損失水平上擁有更多的參數。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

通過isoFLOP分析，比較6e18、2e19和1e20 FLOPs的總計算預算下的模型性能。

結果顯示，在更多FLOP預算下，FLOP最優(yōu)的MoD仍然比基線模型有更多的參數。

存在一些MoD變體，在步驟速度上比isoFLOP最優(yōu)基線模型更快，同時實現更低的損失。這表明在訓練之外，MoD的計算節(jié)省仍然有效。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

同時，研究團隊還探討了MoD和MoE結合的可能性——MoDE。

結果表明而這結合能提供更好的性能和更快的推理速度。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

網友：聯想到了ResNet

MoD推出后馬上引發(fā)了不小關注。

有人感慨，MoE還沒有弄清楚呢，MoD都已經來了！

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

這么高效的方法，讓人馬上聯想到了ResNet。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

不過和ResNet不同，MoD跳過連接是完全繞過層的。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

還有人表示，希望這種方法是完全動態(tài)的，而不是每個層固定百分比。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

這項研究由DeepMind和麥吉爾大學共同帶來。

主要貢獻者是David Raposo和Adam Santoro。

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

谷歌更新Transformer架構，更節(jié)省計算資源！50%性能提升-AI.x社區(qū)

他們二人都是DeepMind的研究科學家。此前共同帶來了神作《Relational inductive biases, deep learning, and graph networks》。

這篇論文目前被引次數超過3500次，論文核心定義了Inductive bias（歸納偏置）概念。

論文地址：???https://arxiv.org/abs/2404.02258??

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/Xqnv2L9X4KRkfpTaw7B0SA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

無性能損失！讓SAM加速近50倍！EfficientViT-SAM來了！

angel ? 4196瀏覽 ? 0回復
CVPR‘24：與任務無關的多模態(tài)數據也能提升Transformer性能｜港中文&騰訊

Crystalcxt ? 2793瀏覽 ? 0回復
Altman首提GPT-7設想：每個人都可以訪問其計算資源！

51CTO技術棧 ? 3020瀏覽 ? 0回復
比Transformer更快更省，Mamba終于卷到網絡領域了

arnoldzhw ? 6972瀏覽 ? 0回復
再戰(zhàn)Transformer！原作者帶隊的Mamba 2來了，新架構訓練效率大幅提升

輕薄滴假象 ? 2884瀏覽 ? 0回復
新Transformer架構效率效果雙提升

海因斯DK ? 5060瀏覽 ? 0回復
谷歌推出全新模型，將Transformer與NAR相結合

Aceryt ? 2734瀏覽 ? 0回復
谷歌：Transformer在音樂推薦中的實踐

Syrupup ? 2722瀏覽 ? 0回復
谷歌發(fā)布Gemini模型重大更新，OpenAI、Anthropic反擊，競爭仍在繼續(xù)

Syrupup ? 3172瀏覽 ? 0回復
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語言模型論文跟蹤 ? 2851瀏覽 ? 0回復
剛剛，OpenAI發(fā)布sCM提升50倍效率，擴散模型重大技術突破！

玄姐聊AGI ? 2326瀏覽 ? 0回復
線上RAG應用pdf文檔頻繁更新，老板下了死命令要節(jié)省預算，不能重復做embedding，我這么做.....

AI博物院 ? 2751瀏覽 ? 0回復
LLM合集：谷歌推出逆向思維RevThink框架，大模型零樣本性能提升13.53%

AIPaperDaily ? 3123瀏覽 ? 0回復
DeepSeek AI發(fā)布DeepSeek-V2.5-1210：DeepSeek-V2.5的更新版本，模型性能顯著提升

Halo咯咯 ? 1.5w瀏覽 ? 0回復
微軟開源AI Agent大更新，重塑智能體！多層級更強架構

Aceryt ? 2433瀏覽 ? 0回復
算力租賃新趨勢揭秘：如何高效利用云計算資源賦能未來

AI算力補給站 ? 2820瀏覽 ? 0回復
ViDoRAG：提升視覺RAG性能10%

大語言模型論文跟蹤 ? 2371瀏覽 ? 0回復
Transformer架構的情境學習泛化能力

頓數AI ? 1554瀏覽 ? 0回復
性能提升90%，Anthropic 首次公開多智能體架構構建全流程

玄姐聊AGI ? 1764瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計算效率提高4000倍，首次實現高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

我把DeepSeek微調參數扒光了，顯存和性能優(yōu)化的秘密都在這 0回復

上一篇： 10萬美元訓出Llama-2級大模型！全華人打造新型MoE，賈揚清SD前CEO圍觀

下一篇：中科大等意外發(fā)現：大模型不看圖也能正確回答視覺問題！

社區(qū)精華內容

目錄

主站蜘蛛池模板：国产一区视频在线 | 免费性视频 | 91九色在线观看 | 国产在线观看一区二区三区 | 国产综合av | 日本手机看片 | 手机在线一区二区三区 | 欧美日韩精品专区 | 青青草华人在线视频 | 日韩成人免费av | 丝袜一区二区三区 | 黑人巨大精品欧美黑白配亚洲 | 久久99网 | 日本中文字幕日韩精品免费 | 亚洲人成在线观看 | 成人精品系列 | 国产精品久久久乱弄 | 国产精品成人久久久久 | 99亚洲国产精品 | 国产精品久久久久久久久久三级 | 国产亚洲成av人片在线观看桃 | 一级二级三级黄色 | 99久久精品免费看国产四区 | 夜夜草| 在线一区二区国产 | 日韩网站在线 | 日韩激情一区 | 亚洲成人在线免费 | 黄视频网站免费观看 | 天天干视频 | 精品视频一区二区三区在线观看 | 91天堂网| 四虎影院免费在线播放 | 日本久久黄色 | 成人一区二区在线 | 综合精品 | 精品在线播放 | 国产精品久久亚洲7777 | 日韩在线视频播放 | 91精品国产色综合久久 | 麻豆91精品91久久久 |

<dl id="uaegw"></dl>

<center id="uaegw"></center>

<bdo id="uaegw"></bdo>

<li id="uaegw"><dl id="uaegw"></dl></li>

<tfoot id="uaegw"></tfoot>

<center id="uaegw"><acronym id="uaegw"></acronym></center><rt id="uaegw"><delect id="uaegw"></delect></rt>

<code id="uaegw"></code>

<code id="uaegw"><wbr id="uaegw"></wbr></code>