成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達超快StyleGAN回歸,比Stable Diffusion快30多倍,網友:GAN好像只剩下快了

人工智能 新聞
同等算力下,擴散模型中的Stable Diffusion生成一張圖片需要3秒鐘,Imagen甚至需要接近10秒。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

擴散模型的圖像生成統治地位,終于要被GAN奪回了?

就在大伙兒喜迎新年之際,英偉達一群科學家悄悄給StyleGAN系列做了個升級,變出個PLUS版的StyleGAN-T,一下子在網上火了。

圖片

無論是在星云爆炸中生成一只柯基:

圖片

還是基于虛幻引擎風格渲染的森林:

圖片

都只需要接近0.1秒就能生成!

同等算力下,擴散模型中的Stable Diffusion生成一張圖片需要3秒鐘,Imagen甚至需要接近10秒。

不少網友的第一反應是:

GAN,一個我太久沒聽到的名字了。

圖片

很快谷歌大腦研究科學家、DreamFusion第一作者Ben Poole趕來圍觀,并將StyleGAN-T與擴散模型做了個對比:

在低質量圖像(64×64)生成方面,StyleGAN-T要比擴散模型做得更好。

圖片

但他同時也表示,在256×256圖像生成上,還是擴散模型的天下。

所以,新版StyleGAN生成質量究竟如何,它又究竟是在哪些領域重新具備競爭力的?

StyleGAN-T長啥樣?

相比擴散模型和自回歸模型多次迭代生成樣本,GAN最大的優勢是速度

因此,StyleGAN-T這次也將重心放在了大規模文本圖像合成上,即如何在短時間內由文本生成大量圖像。

StyleGAN-T基于StyleGAN-XL改進而來。

StyleGAN-XL的參數量是StyleGAN3的3倍,基于ImageNet訓練,能生成1024×1024高分辨率的圖像,并借鑒了StyleGAN2和StyleGAN3的部分架構設計。

它的整體架構如下:

圖片

具體到細節上,作者們對生成器、判別器和文本對齊權衡機制進行了重新設計,用FID對樣本質量進行量化評估,并采用CLIP來對文本進行對齊。

在生成器上,作者們放棄了StyleGAN3中能實現平移同變性(equivariance)的架構,轉而采用了StyleGAN2的部分設計,包括輸入空間噪聲以及跳層連接等,以提升細節隨機變化的多樣性。

在判別器上,作者們也重新進行了設計,采用自監督學習對ViT-S進行訓練。

隨后,作者采用了一種特殊的截斷(truncation)方法來控制圖像生成的效果,同時權衡生成內容的多樣性。

只需要控制參數ψ,就能在確保CLIP分數(用于評估圖像生成效果)變動不大的情況下,改善生成圖像的風格多樣性。

圖片

隨后,作者們用64個英偉達A100訓練了4周,最終得到了這版StyleGAN-T。

那么它的生成效果如何呢?

超快生成低分辨率圖像

作者們對當前最好的幾種GAN、擴散模型和自回歸模型進行了評估。

在微軟的MS COCO數據集上,StyleGAN-T實現了64×64分辨率下最高的FID。

(其中,FID是計算真實圖像和生成圖像特征向量距離的評估用值,數值越低,表示生成的效果越接近真實圖像)

圖片

但在更高的256×256分辨率生成上,StyleGAN-T還是沒有比過擴散模型,只是在生成效果上比同樣用GAN的LAFITE要好上不少:

圖片

如果進一步將生成時間和FID分別作為縱軸和橫軸,放到同一張圖上來對比,還能更直觀地對比生成質量和速度。

可見StyleGAN-T能保持在10FPS的速度下生成256×256分辨率圖像,同時FID值逼近LDM和GLIDE等擴散模型:

圖片

而在文本生成圖像功能上,作者們也從文本特征、風格控制等方面對模型進行了測試。

在增加或改變特定的形容詞后,生成的圖像確實符合描述:

圖片

即便是快速生成的圖像,也能迅速控制風格,如“梵高風格的畫”or“動畫”等:

圖片

當然,偶爾也有失敗案例,最典型的就是生成帶字母要求的圖像時,顯示不出正常字母來:

圖片

作者們正在努力整理代碼,表示不久之后就會開源。

圖片

作者介紹

作者們均來自圖賓根大學和英偉達。

圖片

一作Axel Sauer,圖賓根大學博士生,此前在卡爾斯魯厄理工學院(KIT)獲得本碩學位。目前感興趣的研究方向是深度生成模型、神經網絡架構和實證研究。

圖片

二作Tero Karras,英偉達杰出研究科學家,對英偉達RTX技術有重要貢獻,也是StyleGAN系列的主要作者,主要研究方向是計算機圖形學和實時渲染。

圖片

不過在這波GAN掀起的“文藝復興”浪潮下,也出現了“StyleGAN時代迎來終結”的聲音。

有網友感慨:

在這之前,最新StyleGAN生成的圖像總能讓我們大吃一驚,然而現在它給我們的印象只剩下“快”了。

圖片

你認為GAN還能撼動擴散模型的統治地位嗎?

論文地址:https://arxiv.org/abs/2301.09515

項目地址:https://github.com/autonomousvision/stylegan-t

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-01-08 13:22:03

模型

2010-01-18 08:59:13

Windows 7系統速度

2021-09-01 22:59:31

Canvas標簽語法

2024-02-26 10:30:27

Biome開發前端

2024-01-22 06:55:09

BiomeWeb 應用Prettier

2025-04-15 09:24:00

芯片AI技術

2023-01-05 13:11:20

模型

2021-12-06 09:35:38

英偉達人工智能軟件

2022-10-27 08:31:31

架構

2022-06-08 09:20:58

Python基準測試編程語言

2025-03-18 12:30:00

RubyJava語言

2025-07-10 14:54:13

AI模型圖像生成

2024-04-10 09:28:23

2024-04-10 12:58:00

數據訓練

2009-08-08 08:56:15

Chrome瀏覽器Chrome 3.0google

2021-06-11 09:21:20

開源SQL Parser詞法語法分析器

2011-08-29 10:02:27

iPadaPad亞馬遜

2020-01-07 10:14:38

Python程序員腳本語言

2025-06-13 11:24:39

英偉達AI芯片

2016-12-14 12:02:01

StormHadoop大數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天看天天干 | 日本精品免费在线观看 | 天天综合永久入口 | 久久综合伊人 | 欧美精品成人 | 极品在线 | 久国久产久精永久网页 | 毛片一区二区三区 | 一区二区视频 | 手机av在线 | 91高清视频在线观看 | 日韩影院一区 | 久久精品免费观看 | 欧美一区二区 | 91久久国产精品 | 高清国产一区二区 | 成人高清视频在线观看 | 精品久久99 | 亚洲欧美精品 | 欧美中文字幕一区二区 | 国产一区二区三区色淫影院 | 免费观看毛片 | www.操.com| 欧州一区二区 | 91日韩| 久久9999久久 | 人人澡人人射 | 色综合一区二区三区 | 精品免费 | 性做久久久久久免费观看欧美 | 日韩理论电影在线观看 | 成人av网站在线观看 | 自拍偷拍一区二区三区 | 亚洲精品在线播放 | 欧美激情一区二区三级高清视频 | 亚洲区一区二 | 免费观看成人鲁鲁鲁鲁鲁视频 | 观看av| 免费av在线 | 91麻豆精品国产91久久久更新资源速度超快 | 欧美综合视频在线 |