成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

出圈的Sora帶火DiT,連登GitHub熱榜,已進化出新版本SiT

人工智能 新聞
Sora 研發負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術基礎之一。

雖然已經發布近一周時間,OpenAI 視頻生成大模型 Sora 的影響仍在繼續!

其中,Sora 研發負責人之一 Bill Peebles 與紐約大學助理教授謝賽寧撰寫的 DiT(擴散 Transformer)論文《Scalable Diffusion Models with Transformers》被認為是此次 Sora 背后的重要技術基礎之一。該論文被 ICCV 2023 接收。


  • 論文地址:https://arxiv.org/pdf/2212.09748v2.pdf
  • GitHub 地址:https://github.com/facebookresearch/DiT

這兩天,DiT 論文和 GitHub 項目的熱度水漲船高,重新收獲大量關注。

論文出現在 PapersWithCode 的 Trending Research 榜單上,星標數量已近 2700;還登上了 GitHub Trending 榜單,星標數量每日數百增長,Star 總量已超 3000。

來源:https://paperswithcode.com/

來源:https://github.com/facebookresearch/DiT

這篇論文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。當時,擴散模型在圖像生成方面取得了驚人的成果,幾乎所有這些模型都使用卷積 U-Net 作為主干。

因此,論文的目的是探究擴散模型中架構選擇的意義,并為未來的生成模型研究提供經驗基線。該研究表明,U-Net 歸納偏置對擴散模型的性能不是至關重要的,并且可以很容易地用標準設計(如 transformer)取代。

具體來說,研究者提出了一種基于 transformer 架構的新型擴散模型 DiT,并訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主干網絡。他們通過以 Gflops 衡量的前向傳遞復雜度來分析擴散 Transformer (DiT) 的可擴展性。

研究者嘗試了四種因模型深度和寬度而異的配置:DiT-S、DiT-B、DiT-L 和 DiT-XL。

他們發現,通過增加 Transformer 深度 / 寬度或增加輸入 token 數量,具有較高 Gflops 的 DiT 始終具有較低的 FID。

除了良好的可擴展性之外,DiT-XL/2 模型在 class-conditional ImageNet 512×512 和 256×256 基準上的性能優于所有先前的擴散模型,在后者上實現了 2.27 的 FID SOTA 數據。

質量、速度、靈活性更好的 SiT

此外,DiT 還在今年 1 月迎來了升級!謝賽寧及團隊推出了 SiT(Scalable Interpolant Transformer,可擴展插值 Tranformer),相同的骨干實現了更好的質量、速度和靈活性。

謝賽寧表示,SiT 超越了標準擴散并通過插值來探索更廣闊的設計空間。

該論文標題為《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。


  • 論文地址:https://arxiv.org/pdf/2401.08740.pdf
  • GitHub 地址:https://github.com/willisma/SiT

簡單來講,SiT 將靈活的插值框架集成到了 DiT 中,從而能夠對圖像生成中的動態傳輸進行細微的探索。SiT 在 ImageNet 256 的 FID 為 2.06,將基于插值的模型推向了新的高度。

論文一作、紐約大學本科生 Nanye Ma 對這篇論文進行了解讀。本文認為,隨機插值為擴散和流提供了統一的框架。但又注意到, 基于 DDPM(去噪擴散概率模型)的 DiT 與較新的基于插值的模型之間存在性能差異。因此,研究者想要探究性能提升的來源是什么?

他們通過設計空間中的一系列正交步驟,逐漸地從 DiT 模型過渡到 SiT 模型來解答這一問題。同時仔細評估了每個遠離擴散模型的舉措對性能的影響。

研究者發現,插值和采樣器對性能的影響最大。當將插值(即分布路徑)從方差保留切換到線性以及將采樣器從確定性切換到隨機性時,他們觀察到了巨大的改進。

對于隨機采樣,研究者表明擴散系數不需要在訓練和采樣之間綁定,在推理時間方面可以有很多選擇。同時確定性和隨機采樣器在不同的計算預算下各有其優勢。

最后,研究者將 SiT 描述為連續、速度可預測、線性可調度和 SDE 采樣的模型。與擴散模型一樣,SiT 可以實現性能提升,并且優于 DiT。

更多關于 DiT 和 SiT 的內容請參閱原始論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-12-04 15:00:04

GitHub 技術開源

2024-07-31 15:10:31

2013-12-10 16:00:46

金和移動OA

2022-09-20 15:24:09

程序員項目

2020-12-10 15:07:56

Windows 10Windows微軟

2011-08-01 15:35:51

GlassFishJava 7

2023-12-21 14:18:42

統信UOS操作系統

2023-10-20 12:45:00

AI數據

2023-02-22 15:02:52

GitHub指南

2009-06-17 09:24:34

學習strutsStruts新版本

2010-02-23 17:44:48

Python 3.0

2023-10-10 07:19:07

Github開源庫系統

2011-03-21 13:51:28

FirefoxMozilla進度

2023-04-19 08:14:24

2015-03-13 11:26:57

兩會云計算云概念

2015-07-22 16:29:06

2024-01-04 14:46:10

AI開發者GPT

2019-12-26 15:31:17

騰訊框架開源

2015-02-05 16:59:36

平安WiFiiOS

2022-12-12 09:01:03

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色毛片免费 | 亚洲精品1区 | 国产精品久久久亚洲 | 天天做日日做 | 日韩一区二区三区av | 国产日韩一区二区 | 日本高清视频在线播放 | 91精品久久久久久久久久 | 欧美v免费| 日本一区二区三区在线观看 | 久久久精品网站 | 久久男人 | 国产精品视频一 | 91麻豆精品国产91久久久更新资源速度超快 | 国产精品一区久久久 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 久久国产精品-久久精品 | 日本免费在线看 | 国产最好的av国产大片 | 女女百合av大片一区二区三区九县 | 狠狠狠色丁香婷婷综合久久五月 | 欧美大片在线观看 | 一区二区在线免费观看 | 久久久久久久亚洲精品 | 亚洲区视频 | 久久大陆| 国产农村妇女毛片精品久久麻豆 | 美国十次成人欧美色导视频 | 国产一区二区精品 | 国产精品亚洲第一 | 91欧美精品成人综合在线观看 | 亚洲不卡在线观看 | 欧美日韩国产不卡 | 日本久久久久久久久 | 不卡一区二区在线观看 | 欧美成年网站 | 国产一区二区麻豆 | 午夜视频在线播放 | 亚洲精品成人在线 | 精品不卡 | 欧美激情网站 |