成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

清華朱軍團隊開源首個基于Transformer的多模態擴散大模型,文圖互生、改寫全拿下

人工智能 新聞
該論文提出了一個為多模態設計的概率建模框架 UniDiffuser,除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能。

據悉 GPT-4 將于本周發布,多模態將成為其一大亮點。當前的大語言模型正在成為理解各種模態的通用接口,能夠根據不同模態信息來給出回復文本,但大語言模型生成的內容也僅僅局限于文本。另一方面,當前的擴散模型 DALL?E 2、Imagen、Stable Diffusion 等在視覺創作上掀起一場革命,但這些模型僅僅支持文到圖的單一跨模態功能,離通用式生成模型還有一定距離。而多模態大模型將能夠打通各種模態能力,實現任意模態之間轉化,被認為是通用式生成模型的未來發展方向。

清華大學計算機系朱軍教授帶領的 TSAIL 團隊近期公開的一篇論文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先發布了對多模態生成式模型的一些探索工作,實現了任意模態之間的相互轉化。

圖片


論文鏈接:https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

開源代碼:https://github.com/thu-ml/unidiffuser

該論文提出了一個為多模態設計的概率建模框架 UniDiffuser,并采用該團隊提出的基于 transformer 的網絡架構 U-ViT,在開源的大規模圖文數據集 LAION-5B 上訓練了一個十億參數量的模型,使得一個底層模型能夠高質量地完成多種生成任務(圖 1)。簡單來講,除了單向的文生圖,還能實現圖生文、圖文聯合生成、無條件圖文生成、圖文改寫等多種功能,大幅提升文圖內容的生產效率,也進一步提升了生成式模型的應用想象力。

該論文一作鮑凡目前博士在讀,是此前 Analytic-DPM 的提出者,憑借在擴散模型方面的優秀工作榮獲 ICLR 2022 的 outstanding paper award(目前唯一一篇大陸單位獨立完成的獲獎論文)。

此外,機器之心之前還報道過 TSAIL 團隊提出的 DPM-Solver 快速算法,目前仍是擴散模型最快的生成算法。多模態大模型正是該團隊在深度概率模型的算法和原理方面上長期深入積累的一個集中展示。該工作的合作者包括人民大學高瓴人工智能學院的李崇軒、北京智源研究院的曹越等。

圖片

值得注意的是,該項目的論文和代碼均已開源。

效果展示

如下的圖 8 展示了 UniDiffuser 在圖文聯合生成的效果:

圖片

如下的圖 9 展示了 UniDiffuser 在文到圖上的效果:

圖片

如下的圖 10 展示了 UniDiffuser 在圖到文上的效果:

圖片

如下的圖 11 展示了 UniDiffuser 在無條件圖像生成上的效果:

圖片

如下的圖 12 展示了 UniDiffuser 在圖像改寫上的效果:

圖片

如下的圖 15 展示了 UniDiffuser 能夠實現在圖文兩個模態之間的來回跳躍 :

圖片

如下圖 16 展示了 UniDiffuser 能對真實的兩張圖像進行插值:

方法概覽

研究團隊將針對通用生成式模型的設計劃分成了兩個子問題:

  • 概率建模框架:是否能尋找到一個概率建模框架,能同時建模出模態之間所有的分布,例如圖文之間的邊緣分布、條件分布、聯合分布等?
  • 網絡架構:是否能設計出一個統一的網絡架構,來支持各種不同模態的輸入?

概率建模框架

針對概率建模框架,研究團隊提出 UniDiffuser,一個基于擴散模型的概率建模框架。UniDiffuser 能夠顯示地建模多模態數據中包括邊緣分布、條件分布、聯合分布在內的所有分布。研究團隊發現,關于不同分布的擴散模型學習都可以統一成一個視角:首先向兩個模態的數據分別加入某種大小的噪聲,然后再預測兩個模態數據上的噪聲。其中兩個模態數據上的噪聲大小決定了具體的分布。例如,將文本的噪聲大小設置為 0,則對應了文生圖的條件分布;將文本噪聲大小設置為最大值,則對應了無條件圖像生成的分布;將圖文噪聲大小設置為相同,則對應了圖文的聯合分布。根據該統一的視角,UniDiffuser 只需要將原始擴散模型的訓練算法做少許的修改,便能同時學習上述的所有分布 — 如下圖所示,UniDiffuser 同時向所有模態加噪而非單個模態,輸入所有模態對應的噪聲大小,以及預測所有模態上的噪聲。

圖片

以雙模態為例子,最終的訓練目標函數如下所示:

圖片

其中

圖片

代表數據,

圖片

代表加入到兩個模態中的標準高斯噪聲,

圖片

代表兩個模態加入噪聲的大小(即時間),兩者獨立的從 {1,2,…,T} 中采樣,

圖片

為噪聲預測網絡,同時預測兩個模態上的噪聲。

在訓練后,通過向噪聲預測網絡設置兩個模態合適的時間,UniDiffuser 能夠實現無條件、條件以及聯合生成。例如將文本的時間設置為 0,可以實現文到圖生成;將文本的時間設置為最大值,可以實現無條件圖像生成;將圖文時間設置為相同值,可以實現圖文聯合生成。

下面羅列了 UniDiffuser 的訓練和采樣算法,可見這些算法相對原始的擴散模型均只做了微小的改動,易于實現。

圖片

此外,由于 UniDiffuser 同時建模了條件分布和無條件分布,因此 UniDiffuser 天然地支持 classifier-free guidance。下面的圖 3 展示了 UniDiffuser 的條件生成和聯合生成在不同的 guidance scale 下的效果:

圖片

網絡架構

針對網絡架構,研究團隊提出使用基于 transformer 的架構來參數化噪聲預測網絡。具體地,研究團隊采用了最近提出的 U-ViT 架構。U-ViT 將所有的輸入都視作 token,并在 transformer 塊之間加入了 U 型連接。研究團隊也采用了 Stable Diffusion 的策略,將不同模態的數據都轉換到了隱空間再進行擴散模型的建模。值得注意的是,U-ViT 架構同樣來自該研究團隊,并且已被開源在 https://github.com/baofff/U-ViT。

圖片

實驗結果

UniDiffuser 首先和 Versatile Diffusion 進行了比較。Versatile Diffusion 是過去的一個基于多任務框架的多模態擴散模型。首先 UniDiffuser 和 Versatile Diffusion 進行了文到圖上的效果比較。如下面的圖 5 所示,在不同的 classifier-free guidance scale 下,UniDiffuser 在 CLIP Score 和 FID 指標上均要好于 Versatile Diffusion。

圖片

然后 UniDiffuser 和 Versatile Diffusion 進行了圖到文上的效果比較。如下面的圖 6 所示,UniDiffuser 在圖到文上有更好的 CLIP Score。

圖片

UniDiffuser 也和專用的文到圖模型在 MS-COCO 上進行了 zero-shot FID 的比較。如下面的表 1 所示,UniDiffuser 可以和專用的文到圖模型取得可比的效果。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-23 23:08:21

語音數據

2024-09-23 08:20:00

模型訓練

2024-03-25 12:30:18

AI訓練開源

2023-07-03 16:27:24

模型AI

2023-10-17 12:34:04

2024-11-13 09:39:13

2025-02-18 09:10:00

2025-01-08 08:21:16

2023-07-03 09:41:12

算法AI

2024-10-14 14:10:00

大模型AI開源

2024-04-02 09:17:50

AI數據開源

2025-05-28 03:30:00

AI人工智能大數據

2024-10-25 14:30:00

模型AI

2025-05-27 15:35:02

大模型技術AI

2024-07-01 10:19:22

2024-07-23 10:34:57

2025-03-12 09:05:02

2025-05-14 08:51:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品在线看 | 在线国产精品一区 | 日韩中文字幕在线视频 | 国产精品久久久久久久久久 | 97国产一区二区精品久久呦 | 在线欧美亚洲 | 精品综合网| 精品九九九 | 成年人在线观看视频 | 免费国产成人av | 欧美一区二区三 | 三级黄片毛片 | gav成人免费播放视频 | 一本大道久久a久久精二百 欧洲一区二区三区 | 亚洲国产午夜 | 爱爱爱av| 日本中文字幕在线观看 | 中文亚洲视频 | 久久精品超碰 | 成年网站在线观看 | 亚洲码欧美码一区二区三区 | av黄色在线 | 日日草夜夜草 | 在线观看免费av网 | 亚洲协和影视 | 欧美日韩亚洲国产 | 欧美黄在线观看 | 欧美一区二区三区高清视频 | 欧美一区二区三区在线观看视频 | 久久成人人人人精品欧 | 懂色一区二区三区免费观看 | 国产乱码精品一品二品 | 在线观看国产 | 日本不卡一区 | 福利视频大全 | 亚洲 欧美 日韩 在线 | 亚州春色| 国产一区二区三区四区 | 欧美日韩亚洲三区 | 国产福利在线免费观看 | 一级a性色生活片久久毛片 午夜精品在线观看 |