字體控狂喜!Liblib AI 黑科技 RepText:無(wú)需理解文字,AI就能 1:1 復(fù)刻多國(guó)語(yǔ)言視覺(jué)效果
Liblib AI提出了 RepText,可以使預(yù)訓(xùn)練的單語(yǔ)文本轉(zhuǎn)圖像生成模型能夠以用戶(hù)指定的字體準(zhǔn)確渲染,或者更準(zhǔn)確地說(shuō),復(fù)制多語(yǔ)種視覺(jué)文本,而無(wú)需真正理解這些字體。這樣不管是中文、日文、韓文還是其他語(yǔ)言都可以精準(zhǔn)的生成!從某種意義上說(shuō)也算是打破了AI圖文生成語(yǔ)言的壁壘!
相關(guān)鏈接
- 文章:https://arxiv.org/abs/2504.19724
- 主頁(yè):https://reptext.github.io/
- 代碼:https://github.com/Shakker-Labs/RepText
- 試用:https://huggingface.co/spaces/Shakker-Labs/RepText
論文介紹
盡管當(dāng)代的文本到圖像生成模型在生成視覺(jué)吸引力方面取得了顯著突破,但它們生成精確靈活的排版元素(尤其是非拉丁字母)的能力仍然受到限制。這種固有限制主要源于文本編碼器無(wú)法有效處理多語(yǔ)言輸入或訓(xùn)練集中多語(yǔ)言數(shù)據(jù)分布的偏差。為了滿(mǎn)足特定語(yǔ)言需求的文本渲染,一些研究采用專(zhuān)用文本編碼器或多語(yǔ)言大型語(yǔ)言模型來(lái)替換現(xiàn)有的單語(yǔ)言編碼器,并從頭開(kāi)始重新訓(xùn)練模型,以增強(qiáng)基礎(chǔ)模型的原生渲染能力,但這不可避免地會(huì)造成高資源消耗。其他研究通常利用輔助模塊對(duì)文本和字形進(jìn)行編碼,同時(shí)保持基礎(chǔ)模型的完整性以實(shí)現(xiàn)可控的渲染。然而,現(xiàn)有研究大多基于 UNet 模型構(gòu)建,而非近期基于 DiT 模型(SD3.5、FLUX),這限制了它們的整體生成質(zhì)量。
為了解決這些限制,論文從一個(gè)樸素的假設(shè)出發(fā),即文本理解只是文本渲染的充分條件,而非必要條件。基于此提出了 RepText,旨在賦能預(yù)訓(xùn)練的單語(yǔ)文本轉(zhuǎn)圖像生成模型,使其能夠以用戶(hù)指定的字體精準(zhǔn)渲染(更準(zhǔn)確地說(shuō),是復(fù)制)多語(yǔ)種視覺(jué)文本,而無(wú)需真正理解這些字體。具體而言,作者借鑒了 ControlNet 的設(shè)置,并額外集成了語(yǔ)言無(wú)關(guān)的字形和渲染文本位置,從而能夠生成協(xié)調(diào)一致的視覺(jué)文本,允許用戶(hù)根據(jù)自身需求自定義文本內(nèi)容、字體和位置。
為了提高準(zhǔn)確率,RepText結(jié)合了文本感知損失和擴(kuò)散損失。此外,為了穩(wěn)定渲染過(guò)程,在推理階段直接使用帶噪聲的字形潛在向量進(jìn)行初始化,而非隨機(jī)初始化,并采用區(qū)域掩碼將特征注入限制在文本區(qū)域,以避免其他區(qū)域的失真。大量的實(shí)驗(yàn)驗(yàn)證 RepText 相對(duì)于現(xiàn)有方法的有效性。
方法
RepText 旨在通過(guò)復(fù)制字形來(lái)實(shí)現(xiàn)基于最新單語(yǔ)基礎(chǔ)模型的文本渲染。并未使用額外的圖像或文本編碼器來(lái)理解單詞,而是通過(guò)使用以 Canny 和位置圖像為條件的文本控制網(wǎng)絡(luò) (ControlNet) 來(lái)訓(xùn)練模型復(fù)制字形。此外,作者創(chuàng)新性地在初始化過(guò)程中引入了字形潛在復(fù)制,以提高文本準(zhǔn)確性并支持色彩控制。最后采用區(qū)域遮罩方案來(lái)確保良好的生成質(zhì)量并防止背景區(qū)域受到干擾。論文的貢獻(xiàn)主要有三方面:
- 提出了 RepText,一個(gè)用于可控多語(yǔ)言可視化文本渲染的有效框架。
- 創(chuàng)新性地引入了字形潛在復(fù)制,以提高排版準(zhǔn)確性并實(shí)現(xiàn)色彩控制。此外還采用了區(qū)域遮罩,以獲得良好的視覺(jué)保真度且不受背景干擾。
- 定性實(shí)驗(yàn)表明,提出的方法優(yōu)于現(xiàn)有的開(kāi)源方法,并取得了與原生多語(yǔ)言閉源模型相當(dāng)?shù)慕Y(jié)果。
RepText 的推理框架及其突出策略:(1)從無(wú)噪聲字形潛在特征進(jìn)行復(fù)制,提高文本準(zhǔn)確率并實(shí)現(xiàn)色彩控制。(2)對(duì)文本區(qū)域采用區(qū)域遮罩,避免非文本區(qū)域的干擾,確保整體質(zhì)量。