成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深度解析Recraft V3:突破文本渲染限制,「文生圖」黑馬是怎樣煉成的?

人工智能
Recraft團隊通過結合TextDiffuser-2技術和自訓練的大型語言模型,提升了文本到圖像渲染的質量和準確性,不過現有模型在處理復雜語言如中文和未明確指定的文本時,仍存在渲染不準確的問題。

在當前的圖像生成技術中,文本渲染的能力已逐漸成為衡量其先進性的重要標準。不論是學術界的最新研究還是市場上的先進產品,都在競相展示其處理復雜文本的能力,這不僅標志著技術的進步,更是成為一種創新的分水嶺。

實際上,字圖生成技術在多個領域內顯示出顯著的實用性,例如在設計海報、書籍封面、廣告和LOGO等方面,已成為不可或缺的工具。

圖片

此外,隨著社交媒體和數字營銷的興起,能夠快速生成視覺吸引力強的圖像變得尤為重要。這些圖像往往需要結合富有創意的文本,以更好地與目標觀眾溝通,從而在短時間內吸引用戶注意力,提高品牌識別度。

圖片

圖1 現有文生圖方法的生成結果。Prompt: a cat holds a paper saying text rendering is important

在圖1中,我們可以直觀地看到文生圖模型技術的飛速進步。然而,盡管技術日益成熟,部分方法在處理復雜文本時仍顯示出一些局限性。

例如,生成的圖像有時會遺漏prompt中的關鍵詞,這可能會影響最終圖像的可用性。而像Ideogram和Recraft V3這樣的產品在文本渲染方面表現出色。

它們能夠更精確地捕捉和呈現文本中的細節和語境,從而生成與輸入文本高度匹配的圖像。

值得一提的是,Recraft V3作為文生圖領域的黑馬,已經在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO評分獲得了第一名(圖2)。Recraft的新模型展示出的質量超過了Midjourney、OpenAI以及其他所有主要圖像生成公司的模型。

圖片

圖2 在文生圖排行榜上,Recraft V3排名第一

最近,Recraft團隊在其官方網站上分享了其在文本渲染技術方面的一些實現細節。接下來的部分,我將詳細分析這些技術細節,探討Recraft如何實現其出色的文本到圖像渲染效果。

圖片

圖3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft團隊首先嘗試使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成圖像,結果發現文本渲染效果不佳(圖3)。基于此Recraft團隊總結分析了幾個關鍵點:

1. 訓練數據的限制:文本到圖像的生成模型主要是在包含圖像及其對應簡要描述的數據集上進行優化的。這些描述通常只涵蓋圖像的大致內容,而不提供具體細節,尤其是圖像中的文字內容。因此,當需要生成包含具體文字的圖像時,模型因為缺乏詳細的條件或例子而表現不佳。

2. 文本錯誤的易識別性:人類的大腦對于處理和識別文本非常擅長,因此在圖像生成中的任何文本錯誤都很容易被我們發現。

為了解決圖像生成模型在處理圖像中的文本問題,Recraft團隊采用了一種方法,使用文本布局圖作為更詳細的輸入條件。此策略的靈感來源于TextDiffuser-2論文(圖4),該論文提供了有效處理文本表征技術。

圖片

圖4 Recraft團隊采用TextDiffuser-2技術構造兩階段文本渲染框架

論文鏈接:https://arxiv.org/pdf/2311.16465

在搜集數據的過程中,Recraft團隊借鑒了TextDiffuser-2的方法,采用了兩階段生成框架:首先生成文本布局,然后基于這些布局生成圖像。

盡管文本布局可以通過使用OCR技術從現有的字圖圖像中檢測獲得,Recraft團隊發現現有的開源OCR工具難以生成完美的OCR結果,這主要是由于數據分布的差異。

因此,Recraft團隊參考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》論文(圖5),開發了一種新的文本檢測和識別方法。

圖片

圖5 Recraft團隊采用此論文提取文本layout

論文鏈接:https://arxiv.org/abs/2404.04624

最終,Recraft團隊基于大語言模型訓練了兩個「雙向」的模型:一個模型基于OCR結果生成caption,另一個模型則可以根據用戶的prompt生成模型想象的OCR caption,從而完成文本布局的生成。這樣的方法有效地提升了生成圖像的質量和文本的準確性。

圖片

圖片

圖6 Recraft團隊使用OCR模型提取圖像的文本layout,采用大語言模型得到caption,并訓練另外一個大語言模型由prompt得到layout用于圖像生成

在構建文本信息的過程中,Recraft團隊采用了TextDiffuser-2的表征方式,每一行文本首先記錄了文本的內容,隨后通過坐標來指明文本的具體區域。

與TextDiffuser-2不同,Recraft團隊使用了三個坐標點來表示文本(圖7),使得模型能夠支持渲染傾斜的文本。

此外,Recraft團隊最終選擇了類似ControlNet的架構來渲染白底黑字的圖像,用作模型生成的輔助條件。這種方法增加了文本渲染的可控性,允許用戶自定義想要渲染的文本區域。這與僅使用prompt作為條件的flux和ideogram方法形成了對比,提供了更高的靈活性和控制度。

圖片

圖片

圖7 Recraft團隊采用TextDiffuser-2的表征方式得到文本layout,并將其渲染為圖片作為condition進行圖像生成

由于Recraft團隊開放了測試接口,我對模型進行了一些測試,效果十分驚艷

圖片

圖8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz

圖片

圖9 prompt: a graphic design with monkey music festival poster

圖片

圖10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world

圖片

圖11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."

然而Recraft依然存在一些問題,例如模型盡管能支持中文prompt,但對于中文渲染不是特別好:

圖片

圖12 prompt: 下雨的夜晚,天空中的閃電構成了“天空”兩個字

另外Recraft也很難渲染未明確指定的文本:

圖片

圖13 prompt: a man stands in front of a huge newspaper。可以發現小字部分的筆畫是扭曲的。

圖片

圖14 prompt: keyboard。鍵盤上的文本是錯亂的。

圖片

圖15 prompt: ruler。刻度是錯亂的。

總之,文本渲染在文本生成圖像領域扮演了至關重要的角色,它不僅關系到圖像的視覺呈現,還影響到文本信息的準確傳達和語義理解。盡管近年來技術有了顯著的進步,但文本渲染依然面臨諸多挑戰,需要進一步的研究和改進。

參考資料:

https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights

Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023. 

Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al. 

Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.

責任編輯:武曉燕 來源: 新智元
相關推薦

2015-08-13 10:38:30

2010-03-24 15:40:39

網管運維管理摩卡軟件

2015-11-10 09:09:23

代碼程序員成長

2024-03-28 08:13:51

GPTsOpenAI人工智能

2013-08-19 16:17:48

CIO

2011-11-25 09:48:04

天線無線

2015-09-06 09:09:13

2014-06-20 10:34:42

開源

2024-10-07 13:29:26

2010-12-28 10:40:50

admin

2021-02-08 23:52:17

CISO安全主管首席信息安全官

2012-05-28 16:30:27

Web

2018-02-26 18:54:37

2012-11-15 12:01:39

iPhone 5

2015-08-27 15:06:42

全能渠道華為

2012-08-29 09:58:34

JavaScriptJavaScript模

2024-12-30 09:25:00

數據訓練摩擦

2021-06-29 08:45:55

邏輯變量法函數

2012-12-03 10:22:24

程序員

2009-02-23 13:05:32

程序員學習方法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久99精品久久久久久琪琪 | 看黄在线| 久久久久久亚洲精品 | 国产乱精品一区二区三区 | 丝袜美腿av| 少妇精品亚洲一区二区成人 | 在线国产精品一区 | 99精品国产一区二区三区 | 欧美不卡在线 | 成人高潮片免费视频欧美 | 欧美日韩一区二区电影 | 国产精品久久久久久久久久久久 | 久久久久久久久中文字幕 | 日本aⅴ中文字幕 | 污视频免费在线观看 | av天天看 | 99久久免费观看 | 91精品一区二区三区久久久久 | 久久精品久久久 | av黄色在线 | 免费一区| 欧美日韩精品一区二区三区四区 | 久久99精品久久久久蜜桃tv | 亚洲第一天堂 | 成人午夜网站 | 精品毛片 | 精品欧美一区二区精品久久 | 男人视频网站 | 亚洲一区二区久久 | 欧美久久一区二区 | 成人福利影院 | 国产探花在线精品一区二区 | 成人影院在线 | 精国产品一区二区三区 | 在线看av网址 | 久久久久精 | 国产精品久久久久久一区二区三区 | 免费日本视频 | 91资源在线观看 | 欧美www在线 | 日本精品一区二区三区视频 |