成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人民大學&字節(jié)Seed:利用μP實現(xiàn)Diffusion Transformers高效擴展

人工智能 新聞
人大高瓴李崇軒團隊和字節(jié)跳動Seed團隊的研究員引入了大語言模型訓練中的μP理論,并將其擴展到diffusion Transformers的訓練中。

本文由中國人民大學高瓴人工智能學院李崇軒團隊和字節(jié)跳動Seed團隊共同完成。第一作者鄭晨宇是中國人民大學高瓴人工智能學院二年級博士生,主要研究方向為基礎模型的優(yōu)化、泛化和可擴展性理論,導師為李崇軒副教授,論文為其在字節(jié)跳動Seed實習期間完成。第二作者張新雨是字節(jié)跳動研究員,主要研究方向為視覺生成模型。李崇軒副教授為唯一通訊作者。

近年來,diffusion Transformers已經成為了現(xiàn)代視覺生成模型的主干網絡。隨著數(shù)據(jù)量和任務復雜度的進一步增加,diffusion Transformers的規(guī)模也在快速增長。然而在模型進一步擴大的過程中,如何調得較好的超參(如學習率)已經成為了一個巨大的問題,阻礙了大規(guī)模diffusion Transformers釋放其全部的潛能。

為此,人大高瓴李崇軒團隊和字節(jié)跳動Seed團隊的研究員引入了大語言模型訓練中的μP理論,并將其擴展到diffusion Transformers的訓練中。μP通過調整網絡不同模塊的初始化和學習率,實現(xiàn)不同大小diffusion Transformers共享最優(yōu)的超參,使得小模型上搜到的超參可以直接遷移到最終大模型上進行訓練,從而極大地減小了超參搜索的耗費。

團隊在DiT,PixArt和MMDiT(Stable Diffusion的基座)上進行了系統(tǒng)的大規(guī)模實驗驗證。在MMDiT的實驗中,0.18B小模型上搜得的超參成功被用在18B大模型的訓練中,并擊敗了人工專家的手調基線。其中,小模型超參搜索的計算量(FLOPs)僅是專家手調的3%左右。

團隊已在近期開放在線論文,并開源代碼。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.15270
  • 代碼倉庫:https://github.com/ML-GSAI/Scaling-Diffusion-Transformers-muP

μP的背景和問題

μP全稱為最大更新參數(shù)化(Maximal Update Parametrization),是Tensor Program無窮寬網絡理論系列中的里程碑之作,相關結果已被理論證明適用于標準的Transformer架構。μP的算法實現(xiàn)簡潔,對于應用最為廣泛的AdamW優(yōu)化器而言,μP只需要調整隱藏層權重的學習率,和輸出層權重的系數(shù)以及初始化。μP在實際中被廣泛發(fā)現(xiàn)能夠實現(xiàn)不同大小的標準Transformer共享最優(yōu)的超參,使得小模型上搜到的超參可以直接遷移到大模型,極大地減小了超參搜索的耗費。由于μP帶來了穩(wěn)定的超參遷移性質,它近年來已經被成功使用在大語言模型(標準Transformer)的預訓練中。

然而,diffusion Transformers和標準Transformer存在較大的差異。從架構上來看,diffusion Transformers引入了額外的模塊來處理并整合文本信息,如DiT中的adaLN block。從任務目標上來看,diffusion Transformers處理的是視覺的擴散學習任務,而標準Transformer主要處理的是語言的自回歸學習任務。這兩點差異意味著已有的μP形式及其超參遷移律在視覺diffusion Transformers中不一定成立。針對這一問題,團隊從理論和實踐上進行了系統(tǒng)的研究。

Diffusion Transformers的μP形式

團隊首先從理論上研究了主流diffusion Transformers的μP形式,包括DiT,U-ViT,PixArt-α和MMDiT。Tensor Program理論系列中的結果表明,如果網絡架構能夠被Tensor Program中定義的算子表示,那么現(xiàn)有的μP形式就能成立。基于這個理論技術,我們證明了:即使主流diffusion Transformers的結構不同于標準Transformer,它們也能夠被Tensor Program表示,因此現(xiàn)有的μP理論和相關實踐可以被無痛遷移到這些主流diffusion Transformers上。我們的證明技術也可以被遷移到其它的diffusion Transformers做類似的分析。

總之,diffusion Transformers的μP方法論可以由下圖總結。我們首先基于μP理論,調節(jié)不同權重的系數(shù)、初始化和學習率。然后,我們在一系列小模型上搜索得到最優(yōu)的超參。最后,我們將最優(yōu)的超參直接遷移到大模型的訓練。

圖片

基于μP擴展Diffusion Transformers:初探

首先,我們使用DiT網絡在ImageNet數(shù)據(jù)集上系統(tǒng)地驗證了:當網絡寬度,數(shù)據(jù)批量大小和訓練步數(shù)足夠大時(如寬度達到144,批量大小達到256),超參便可以較為穩(wěn)定地沿著不同的網絡寬度,數(shù)據(jù)批量大小和訓練步數(shù)進行遷移。這意味著我們能在網絡寬度,數(shù)據(jù)批量大小和訓練步數(shù)都更小的代理任務上搜索超參,然后遷移到最終大網絡大數(shù)據(jù)的訓練。

圖片

然后,為了驗證μP超參遷移的有效性,我們將最優(yōu)的超參(學習率2^-10)直接遷移到DiT-XL-2的訓練中,我們發(fā)現(xiàn),當模型訓練到2.4M步時,F(xiàn)ID-50K就已經超過了原論文7M步最終的FID-50K結果,DiT-XL-2-μP的收斂速度是原論文的2.9倍。這向我們展現(xiàn)了利用μP遷移超參做擴展的良好前景。

圖片

基于μP擴展Diffusion Transformers:大規(guī)模驗證

圖片

我們進一步在大規(guī)模的文生圖任務上驗證了μP擴展diffusion Transformers的有效性。我們首先考慮了流行的開源文生圖模型PixArt-α,我們在0.04B的代理模型上搜索學習率,并遷移到最終0.61B大小PixArt-α的訓練。其中,小模型搜索超參的計算量總和(FLOPs)僅為一次訓練的5.5%。利用搜索得到的學習率,PixArt-α-μP在訓練的過程中穩(wěn)定地取得了比基線更好的效果。

圖片

最后,我們考慮了SD3的基座模型MMDiT,并將驗證的規(guī)模提高到了18B的量級。為了能夠給社區(qū)帶來更多的可信的實踐經驗,我們在 4個超參(學習率,梯度裁剪值,REPA loss的權重以及warmup的步數(shù))上進行了多達80次的隨機搜索,總搜索計算量(FLOPs)約是人工手調的3%。在0.18B模型上的超參搜索結果表明,我們學習率,梯度裁剪值,REPA loss都對結果有影響,其中學習率的影響仍是最為關鍵的。而warmup的步數(shù)則對結果影響不大。

圖片

我們將0.18B模型上搜索的超參應用在了18B模型的訓練上,不論從訓練loss的變化還是從人工評測的結果,MMDiT-μP都穩(wěn)定地超過了人工專家手調的基線,而μP的超參搜索FLOPs僅是人工手調的3%!

圖片

經過這一系列系統(tǒng)的實驗探索,我們證明了μP是科學擴展diffusion Transformers的有效手段,我們也相信μP會是未來基礎模型擴展的必備利器。通過本工作的大量努力,我們希望讓社區(qū)了解μP理論,擁抱μP實踐,思考理論上最優(yōu)的智能擴展范式(模型大小,數(shù)據(jù)量,推理時間)。我們也相信,放眼人工智能的長遠未來,類似μP的底層理論的發(fā)展仍然是必不可少的,也必將會在未來的大規(guī)模實踐中有著不可或缺的一席之地。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2013-06-26 10:25:45

人民大學服務器癱瘓流量

2015-03-12 10:53:56

SSL VPN深信服

2022-04-08 14:52:31

模型谷歌方法

2020-11-26 17:04:02

騰訊實驗室系統(tǒng)

2018-01-11 10:15:14

速途網

2015-03-25 13:49:10

無線網絡Aruba

2017-08-15 16:29:05

商學院

2023-04-03 10:21:05

模型技術

2025-04-29 09:10:00

2025-01-23 17:07:07

2011-03-28 17:07:14

海量數(shù)據(jù)庫

2021-04-08 10:06:38

數(shù)字人民幣數(shù)字貨幣區(qū)塊鏈

2025-01-21 09:15:00

2025-06-18 08:47:00

2015-05-07 11:45:07

鳳凰科技

2024-02-26 00:35:00

模型數(shù)據(jù)

2023-11-20 15:26:18

人工智能GenAI模型

2011-11-10 15:55:05

校園實踐

2010-03-21 19:05:19

微軟MSF

2023-11-03 12:55:00

數(shù)據(jù)文本
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲福利网 | 欧美不卡一区二区 | 欧美一区二区免费电影 | 午夜精品久久久久久久久久久久久 | 亚洲视频免费在线观看 | 99精品一区二区三区 | 最新超碰 | 91色站| 日本网站在线看 | 中国黄色毛片视频 | 免费观看的av毛片的网站 | 深夜福利影院 | 伊人网99 | av一级久久 | 九色 在线 | av中文字幕在线观看 | 日韩成人免费在线视频 | www.天天操 | 成人免费观看男女羞羞视频 | 免费在线观看黄色av | 久久成人国产 | 日韩欧美在线视频观看 | 91精品久久久久久久久久入口 | 伊人超碰在线 | 97精品超碰一区二区三区 | 欧美成人一区二免费视频软件 | 国产一区二区在线观看视频 | 久久91| 玖玖玖在线| 久久国产精品一区二区三区 | 国产乱码精品1区2区3区 | 国产激情91久久精品导航 | 精品久久久久久久久久 | 亚洲激情视频在线 | 欧美天堂 | 一区二区三区欧美在线 | 国产一区二区三区四 | 亚洲成人精品在线 | 午夜精品一区二区三区免费视频 | 在线中文字幕av | 亚洲一区二区三区免费 |