成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擴散模型生成帶漢字圖像,一鍵輸出表情包:OPPO等提出GlyphDraw

人工智能 新聞
為了讓 AI 生成的圖像里帶有真正的文字,人們想盡了辦法。

近來,文本生成圖像領域取得了很多意想不到的突破,很多模型都可以實現(xiàn)基于文本指令創(chuàng)建高質(zhì)量和多樣化圖像的功能。雖然生成的圖像已經(jīng)很逼真,但當前模型往往善于生成風景、物體等實物圖像,但很難生成帶有高度連貫細節(jié)的圖像,例如帶有漢字等復雜字形文本的圖像。

為了解決這個問題,來自 OPPO 等機構的研究者們提出了一個通用學習框架 GlyphDraw,旨在讓模型能夠生成嵌入連貫文本的圖像,這是圖像合成領域首個解決漢字生成問題的工作。

圖片

  • 論文地址:https://arxiv.org/abs/2303.17870
  • 項目主頁:https://1073521013.github.io/glyph-draw.github.io/

我們先來看一下生成效果,例如為展覽館生成警示標語:

圖片

生成廣告牌:

圖片

為圖片配上簡要的文本說明,文字樣式也可多樣化:

圖片

還有,最有趣也最實用的例子是生成表情包:

圖片

雖然結果存在一些瑕疵,但是整體生成效果已經(jīng)很好了??傮w來說,該研究的主要貢獻包括:


  • 該研究提出了首個漢字圖像生成框架 GlyphDraw,其中利用一些輔助信息,包括漢字字形和位置在整個生成過程中提供細粒度指導,從而使?jié)h字圖像高質(zhì)量無縫嵌入到圖像中;
  • 該研究提出了一種有效的訓練策略,限制了預訓練模型中可訓練參數(shù)的數(shù)量,以防止過擬合和災難性遺忘(catastrophic forgetting),有效地保持了模型強大的開放域生成性能,同時實現(xiàn)了準確的漢字圖像生成。
  • 該研究介紹了訓練數(shù)據(jù)集的構建過程,并提出了一個新的基準來使用 OCR 模型評估漢字圖像生成質(zhì)量。其中,GlyphDraw 獲得了 75% 的生成準確率,明顯優(yōu)于以前的圖像合成方法。

圖片

模型介紹

該研究首先設計了復雜的圖像 - 文本數(shù)據(jù)集構建策略,然后基于開源圖像合成算法 Stable Diffusion 提出了通用學習框架 GlyphDraw,如下圖 2 所示。

圖片

Stable Diffusion 的整體訓練目標可以表示為如下公式:

圖片

GlyphDraw 基于 Stable Diffusion 中的交叉注意力機制,原始輸入潛在向量 z_t 被圖像潛在向量的 z_t、文本掩碼 l_m 和字形圖像 l_g 的級聯(lián)替代。

圖片

此外,通過使用特定領域的融合模塊,條件 C 配備了混合字形和文本特征。文本掩碼和字形信息的引入,讓整個訓練過程實現(xiàn)了細粒度的擴散控制,是提高模型性能的關鍵組成部分,最終得以生成帶有漢字文本的圖像。

具體來說,文本信息的像素表征,特別是象形漢字這種復雜的文本形式,與自然物體有明顯的不同。例如,中文詞語「天空(sky)」是由二維結構的多個筆畫組成,而其對應的自然圖像是「點綴著白云的藍天」。相比之下,漢字有非常細粒度的特性,甚至是微小的移動或變形都會導致不正確的文本渲染,從而無法實現(xiàn)圖像生成。

在自然圖像背景中嵌入字符還需要考慮一個關鍵問題,那就是在避免影響相鄰自然圖像像素的同時,還要精確地控制文本像素的生成。為了在自然圖像上呈現(xiàn)完美的漢字,作者精心設計了兩個集成到擴散合成模型中的關鍵組件,即位置控制和字形控制。

與其他模型的全局條件輸入不同,字符生成需要更多地關注圖像的特定局部區(qū)域,因為字符像素的潛在特征分布與自然圖像像素的潛在特征分布有很大差異。為了防止模型學習崩潰,該研究創(chuàng)新性地提出了細粒度位置區(qū)域控制來解耦不同區(qū)域之間的分布。

除了位置控制,另一個重要的問題是漢字筆畫合成的精細控制??紤]到漢字的復雜性和多樣性,在沒有任何明確先驗知識的情況下,僅僅只是從大量的圖像 - 文本數(shù)據(jù)集中學習是極其困難的。為了準確地生成漢字,該研究將顯式字形圖像作為額外的條件信息納入模型擴散過程。

圖片

實驗及結果

由于此前沒有專門用于漢字圖像生成的數(shù)據(jù)集,該研究首先構建了一個用于定性和定量評估的基準數(shù)據(jù)集 ChineseDrawText,然后在 ChineseDrawText 上測試比較了幾種方法的生成準確率(由 OCR 識別模型評估)。

圖片

該研究提出的 GlyphDraw 模型通過有效地使用輔助字形和位置信息達到了 75% 的平均準確率,從而證明了該模型出色的字符圖像生成能力。幾種方法的可視化比較結果如下圖所示:

圖片

此外,GlyphDraw 還可以通過限制訓練參數(shù)來保持開放域圖像合成性能,在 MS-COCO FID-10k 上一般圖像合成的 FID 僅下降了 2.3。

圖片

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究細節(jié)。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-29 13:30:00

2024-12-30 07:11:00

大型視覺語言模型VLMs人工智能

2025-05-12 09:31:44

2024-04-08 14:07:51

Animagine開源

2024-10-30 14:10:00

圖像生成模型

2024-10-29 14:40:00

圖像生成模型

2025-02-18 09:27:20

2025-01-13 09:17:41

2024-11-25 14:30:00

2024-01-16 17:17:30

模型訓練

2025-07-02 09:21:30

2024-07-04 10:13:18

2023-10-11 12:32:26

模型訓練

2024-03-07 12:31:29

AI技術

2011-01-27 10:40:08

2019-10-11 11:00:53

Nginx神器前端

2024-04-08 13:59:03

大模型Replicate

2022-08-02 14:27:01

HDF驅(qū)動框架驅(qū)動開發(fā)

2024-03-15 14:34:12

Oracle數(shù)據(jù)庫一鍵巡檢
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品极品视频在线观看免费 | 香蕉一区二区 | 欧美九九九| 日韩成人 | 国产剧情一区 | 欧美一区二区成人 | 欧美性乱| 婷婷久久五月天 | 久草在线青青草 | 久久久久一区二区三区四区 | 成人在线观看亚洲 | jvid精品资源在线观看 | 日本免费在线观看视频 | 免费在线黄 | 成人av在线网站 | 亚洲欧洲综合av | 久久久视 | 国产成人午夜精品影院游乐网 | 亚洲精品视频在线 | 精品国产一区二区三区久久久蜜月 | 国产日韩精品一区二区三区 | 一二三四在线视频观看社区 | 亚洲国产精品一区二区三区 | 免费视频成人国产精品网站 | 亚洲精品乱码久久久久久黑人 | 99re在线视频 | 亚洲一级毛片 | 成人免费视频7777777 | 超碰在线国产 | 毛片韩国 | 国产亚洲欧美在线 | 国产高清在线视频 | 国产精品久久久久永久免费观看 | 久久精品一区二区三区四区 | 亚洲精品中文字幕av | 久久毛片 | 日韩欧美视频 | 在线观看国产精品视频 | 少妇无套高潮一二三区 | 99久久婷婷国产综合精品电影 | 国产精品一区二区不卡 |