成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達開源4K圖像生成模型Sana,可在16G顯存電腦部署,支持ComfyUI和LoRA訓練

人工智能 新聞
Sana是一個文本到圖像的框架,可以高效地生成分辨率高達 4096 × 4096 的圖像。

英偉達開源了一個可以直接生成 4K 圖片的模型 Sana。 Sana-0.6B 可以在 16GB 的筆記本電腦 GPU 上部署。生成 1024 × 1024 分辨率的圖像只需不到 1 秒鐘。官方已經支持了 Comfyui,而且放出了 Lora 訓練工具。

圖片

相關鏈接

  • 論文:https://arxiv.org/pdf/2410.10629
  • 主頁:https://nvlabs.github.io/Sana

論文介紹

圖片

Sana是一個文本到圖像的框架,可以高效地生成分辨率高達 4096 × 4096 的圖像。Sana 可以以極快的速度合成具有強大文本-圖像對齊功能的高分辨率、高質量圖像,可在筆記本電腦的 GPU 上部署。

核心設計包括:

  • 深度壓縮自動編碼器:與僅將圖像壓縮 8 倍的傳統 AE 不同,我們訓練了一個可以將圖像壓縮 32 倍的 AE,從而有效減少了潛在標記的數量。 - 線性 DiT:我們用線性注意力取代了 DiT 中的所有原始注意力,這在高分辨率下效率更高,且不會犧牲質量。
  • 僅解碼器的文本編碼器:我們用現代僅解碼器的小型 LLM 取代了 T5 作為文本編碼器,并設計了具有上下文學習的復雜人工指令以增強圖像-文本對齊。 高效的訓練和采樣:我們提出了 Flow-DPM-Solver 來減少采樣步驟,并通過高效的字幕標記和選擇來加速收斂。

因此,Sana-0.6B 與現代巨型擴散模型(例如 Flux-12B)相比極具競爭力,其體積小 20 倍,測量吞吐量快 100 多倍。此外,Sana-0.6B 可以部署在 16GB 筆記本電腦 GPU 上,生成 1024 × 1024 分辨率圖像只需不到 1 秒。Sana 可以以低成本實現內容創建。

圖片

提高效率的幾個核心設計細節

  • 深度壓縮自動編碼器: 我們引入了一種新的 深度壓縮自動編碼器 (DC-AE),將縮放因子大幅增加到 32。與 AE-F8 相比,我們的 AE-F32 輸出的潛在標記減少了 16 倍,這對于高效訓練和生成超高分辨率圖像(例如 4K 分辨率)至關重要。

圖片

  • 高效的線性 DiT: 我們引入了一種新的線性 DiT,取代了香草二次注意力,并將復雜度從 O(N2) 降低到O(N)。Mix-FFN 在 MLP 中使用 3×3 深度卷積,增強了 token 的局部信息。線性注意力實現與香草相當的結果,將 4K 生成的延遲提高了 1.7 倍。Mix-FFN 還消除了位置編碼 (NoPE) 的需要,并且沒有質量損失,標志著第一個沒有位置嵌入的 DiT。
  • 僅解碼器的小型 LLM 作為文本編碼器: 我們使用僅解碼器的 LLM Gemma 作為文本編碼器,以增強提示中的理解和推理。與 CLIP 或 T5 不同,Gemma 提供了卓越的文本理解和指令遵循能力。我們解決了訓練不穩定性問題,并設計了復雜的人工指令 (CHI) 來利用 Gemma 的上下文學習,改善圖像-文本對齊。

圖片

  • 高效的訓練和推理策略: 我們提出了自動標記和訓練策略來提高文本與圖像的一致性。多個 VLM 生成不同的重新字幕,基于 CLIPScore 的策略選擇高 CLIPScore 字幕以增強收斂和對齊。此外,與 Flow-Euler-Solver 相比,我們的Flow-DPM-Solver將推理步驟從 28-50 減少到 14-20,性能更佳。

圖片

總體表現

我們在表 1 中將 Sana 與最先進的文本到圖像擴散模型進行了比較。對于 512 × 512 分辨率,Sana-0.6 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍,并且在 FID、Clip Score、GenEval 和 DPG-Bench 中的表現明顯優于它。對于 1024 × 1024 分辨率,Sana 比大多數具有 <3B 參數的模型要強得多,并且在推理延遲方面表現出色。即使與最先進的大型模型 FLUX-dev 相比,我們的模型也能實現具有競爭力的性能。例如,雖然 DPG-Bench 上的準確率相當,GenEval 上的準確率略低,但 Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍。

圖片

ComfyUI 使用

作者已經開發了插件來將 Sana 與 ComfyUI 集成。

  • 插件:https://github.com/Efficient-Large-Model/ComfyUI_ExtraModels
  • GitHub:https://github.com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui.md

圖片

  • ComfyUI:https://github.com/NVlabs/Sana/blob/main/asset/docs/ComfyUI/comfyui.md

Sana-LoRA Dreambooth

Sana-LoRA 由 diffusers 支持。查看我們的指南來訓練您的自定義模型。我們在下面展示了 Sana-LoRA 微調過程中的一些示例。

圖片

  • 鏈接:https://github.com/NVlabs/Sana/blob/main/asset/docs/sana_lora_dreambooth.md
責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2024-10-17 13:50:00

英偉達AI

2013-02-19 14:35:00

GitHubBoxenPuppet 配置

2024-06-17 08:55:00

2015-07-01 13:48:04

華曦達

2017-08-07 15:43:42

2017-12-15 18:12:38

2013-01-21 15:03:23

華為存儲

2024-12-12 13:00:00

2025-03-24 08:06:00

2023-11-02 12:49:00

AI模型

2022-03-23 10:44:02

圖像訓練框架

2011-04-28 11:00:50

上網本iPad

2011-04-28 10:52:10

上網本蘋果iPad 2

2024-04-30 08:28:44

開源大模型Llama

2020-10-04 13:12:53

開源技術 數據

2024-06-19 13:02:01

2025-04-17 14:11:10

視覺AI模型

2025-06-27 15:50:36

2G顯存谷歌模型

2023-02-06 10:25:13

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕在线看人 | 亚洲精品一区二区三区蜜桃久 | 久久亚洲国产精品 | 欧美精品网站 | 久久久久久国产 | 综合九九 | 超碰激情 | 久久久成人精品 | 国产成人精品一区二区三区视频 | 亚洲国产精品人人爽夜夜爽 | 亚洲欧美日韩精品 | 精品久| 久久综合香蕉 | 欧美精品日韩 | 国产剧情一区 | 玖玖色在线视频 | 午夜不卡一区二区 | 国产精品久久一区二区三区 | 中国黄色毛片视频 | 91国内产香蕉| 国产综合av | 成人精品高清 | 久久精品av麻豆的观看方式 | 久久国产免费看 | 午夜电影合集 | 911网站大全在线观看 | 国产高清精品在线 | 久久爱综合| 91精品久久久久久久久 | 久久久久久国产精品免费免费男同 | 天堂一区二区三区四区 | 久草在线视频中文 | 亚洲午夜在线 | 午夜午夜精品一区二区三区文 | 户外露出一区二区三区 | av一级| 自拍偷拍av | 福利久久 | 国产美女一区 | 国产亚洲精品综合一区 | 国产精品福利在线 |