Seedream 3.0技術細節重磅發布!中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva! 精華
文章鏈接:https://arxiv.org/pdf/2504.11346 官方鏈接:https://team.doubao.com/tech/seedream3_0
亮點直擊
- 相比Seedream 2.0能力全面增強:在用戶偏好測試中表現出色,在圖文對齊、構圖結構、美學質量和文字渲染等關鍵能力方面有重大突破。
- 文本渲染性能提升顯著:在中英文小尺寸字符生成和高美學長文本排版方面表現優異。小文本生成與美學排版難題的開創性方案,在圖文設計輸出上超越 Canva 等平臺的人設模板。
- 圖像美學提升:圖像美學質量顯著提升,在電影場景和人像寫實度方面表現卓越。
- 原生高分辨率輸出:支持 2K 分辨率的原生輸出,免除后處理需求,同時兼容更高分辨率并可適配多種長寬比。
- 推理成本高效:多項模型加速技術,3.0 秒內生成一張 1K 分辨率圖像(不含位置編碼),推理速度遠超其他商用模型。
解決的問題
- 復雜提示詞對齊不佳:在處理多目標、多關系的復雜提示詞時,精確性和一致性不足。
- 精細文字生成能力弱:在生成小尺寸字體、多行排版、復雜文字排版方面存在明顯短板。
- 圖像美學與真實感不足:特別是在電影感畫面和人像肌理的生成方面表現欠佳。
- 原生分辨率限制:此前只能生成 512×512px 小圖,需要后處理進行超分辨率提升。
提出的方案
- 數據層改進:使用缺陷感知訓練機制和雙軸協同采樣框架,將數據集規模提升至原來的兩倍。
- 預訓練階段改進:引入四項關鍵訓練策略:
- 混合分辨率訓練(Mixed-Resolution Training)
- 跨模態 RoPE(Cross-Modality Rotary Position Embedding)
- 表征對齊損失(Representation Alignment Loss)
- 分辨率感知時間步采樣(Resolution-Aware Timestep Sampling)
- 后訓練階段優化:在 SFT 中引入多樣化審美描述,并利用基于視覺語言模型(VLM)的獎勵機制進行調優。
- 推理加速策略:通過一致噪聲預期與重要性感知采樣策略,在保持畫質的同時實現 4-8 倍速度提升。
Seedream 3.0 已于 2025 年 4 月初集成進多個平臺,包括豆包和即夢。殷切希望 Seedream 3.0 能成為提升工作與生活各方面生產力的實用工具。
技術細節
數據
在 Seedream 2.0 中,采用了一種嚴格的數據過濾策略,系統性地剔除包含輕微缺陷(如水印、覆蓋文字、字幕、馬賽克等)的圖像數據。這種嚴格的過濾顯著限制了訓練所用數據量,尤其考慮到此類缺陷樣本約占原始數據集的 35%。為解決這一問題,Seedream 3.0 引入了一種創新的“缺陷感知訓練范式”。該范式包含一個專門訓練的缺陷檢測器,基于 15,000 張由主動學習引擎挑選并人工標注的樣本構建。該檢測器可通過邊界框預測精確定位缺陷區域。
當檢測出的缺陷區域總面積小于圖像空間的 20%(可配置閾值)時,我們保留這些此前被剔除的樣本,同時實施掩碼潛空間優化。具體來說,在潛空間的擴散損失計算中,我們采用空間注意力掩碼機制,將來自缺陷區域的特征梯度排除在外。這種創新方法在保持模型穩定性的同時,將有效訓練數據集擴展了 21.7%。
為優化數據分布,我們提出了一種“雙軸協同數據采樣框架”,從視覺形態和語義分布兩個維度聯合優化。在視覺模態方面,我們繼續采用分層聚類方法,確保不同視覺模式的平衡表達。在文本語義層面,我們通過詞頻-逆文檔頻率(TF-IDF)實現語義平衡,有效解決描述文本的長尾分布問題。為進一步增強數據生態的協同性,我們開發了一個跨模態檢索系統,為圖文對構建聯合嵌入空間。該系統在所有基準測試中均達到最先進水平。
該檢索增強框架通過以下方式動態優化數據集:
- 通過目標概念檢索注入專家知識;
- 通過相似度加權采樣進行分布校準;
- 利用檢索到的鄰近對進行跨模態增強。
模型預訓練
模型架構
核心架構設計延續自 Seedream 2.0,該版本采用 MMDiT 處理圖像和文本 token,并捕捉兩種模態之間的關系。在 Seedream 3.0 中,擴大了基礎模型的總參數量,并引入了多項改進,從而提升了模型的可擴展性、泛化能力以及圖文對齊效果。
混合分辨率訓練。 Transformer原生支持可變長度 token 輸入,并已在基于 ViT 的視覺識別任務中被證實有效。在 Seedream 3.0 中,在每次訓練階段將不同長寬比和分辨率的圖像打包在一起進行混合分辨率訓練。具體來說,我們首先以平均分辨率為 2562(含多種長寬比)進行預訓練,然后在更高分辨率圖像(5122 到 20482)上進行微調。同時,引入尺寸嵌入作為附加條件,使模型感知目標分辨率。混合分辨率訓練顯著提升了數據多樣性,提高了模型對未見分辨率的泛化能力。
跨模態旋轉位置編碼(RoPE)。 在 Seedream 2.0 中,引入了可縮放 RoPE,使模型更好地泛化至未訓練的長寬比與分辨率。在 Seedream 3.0 中,將該技術擴展為“跨模態 RoPE”,進一步提升視覺-文本 token 的對齊效果。我們將文本 token 視為形狀為 [1, L] 的二維 token,并對其應用二維 RoPE [22]。文本 token 的列向位置 ID 被順序賦值于圖像 token 之后??缒B RoPE 有效建模了模態內和模態間的關系,對提升圖文對齊與文本渲染精度至關重要。
模型訓練細節
訓練目標 在 Seedream 3.0 中,采用了 Flow Matching訓練目標,以及表示對齊損失(REPA):
其中使用線性插值形式:
一般來說,在高分辨率訓練時,我們會將分布向低信噪比(SNR)方向偏移以增加其采樣概率。在訓練過程中,計算數據集??的平均分辨率以確定偏移后的時間步分布。在推理階段,根據目標分辨率和寬高比計算偏移因子。
模型后訓練
審美描述生成器(Aesthetic Caption)
為 CT 和 SFT 階段中的數據特別訓練了多個版本的描述生成模型。如圖 4 所示,這些描述模型在審美、風格和布局等專業領域提供了準確的描述。這確保了模型可以更有效地響應相關提示,從而提升模型的可控性以及經過提示詞工程處理后的表現。
模型訓練細節
為了確保模型在不同分辨率下都能取得良好表現,在訓練過程中采用了一種分辨率平衡策略。這種方法確保了不同分辨率訓練數據的充分采樣,從而增強了模型在各種場景中跟隨提示的能力。
獎勵模型擴展
與之前 Seedream 2.0 使用 CLIP 作為獎勵模型不同,現在采用視覺-語言模型(VLMs)作為獎勵建??蚣?。這一改變利用了 VLM 更強大的基礎能力和獎勵擴展潛力。受大語言模型(LLMs)中生成式獎勵建模(RM)技術啟發,我們將指令明確地表述為查詢,并從“Yes”響應 token 的歸一化概率中導出獎勵。
這種方法有效地利用了預訓練 LLM 中的知識,并自然受益于 LLM 的擴展效應,從而提升了獎勵質量。我們系統性地將獎勵模型從 1B 參數規模擴展到超過 20B。實驗證明了獎勵模型擴展的顯著效果,表明增加獎勵模型容量能夠提升獎勵建模表現。
模型加速
本文加速框架建立在 Hyper-SD 和 RayFlow基礎上。重新思考了擴散過程,使得每個樣本可以遵循其自身自適應的生成軌跡,而不是強制所有樣本都經過一個共同路徑最終收斂到標準高斯先驗。在傳統的擴散模型中,所有樣本都會被逐步轉換為各向同性的高斯噪聲,導致在概率空間中的軌跡重疊。這種重疊增加了隨機性,降低了可控性,并在反向過程引入了不穩定性。本文改為將每個數據點引導到特定的目標分布,從而實現每個樣本軌跡的個性化定制。這顯著減少了路徑沖突,并提升了生成穩定性和樣本多樣性。
穩定采樣的一致性噪聲期望
為了確保采樣過程中平滑且一致的過渡,引入了一個統一的噪聲期望向量,該向量從預訓練模型中估計得出。這個期望向量作為所有時間步的全局參考,使去噪過程在時間上保持一致。通過保持期望的一致性,我們能夠在不降低圖像質量的前提下壓縮采樣步數。理論分析進一步表明,我們的設計最大化了從數據到噪聲再返回的數據-噪聲正反路徑的概率,從而帶來了更穩定的采樣和更可靠的重建效果。
學習關鍵時間步的采樣
除了重新設計生成路徑,還著力提升訓練效率。擴散模型的標準訓練過程通常對時間步進行均勻采樣,這會引入高方差損失,并在非關鍵信息步驟上浪費計算資源。
為了解決這一問題,引入了一個重要性采樣機制,學習聚焦于訓練中最關鍵的時間步。將隨機 Stein 偏差(SSD)與一個神經網絡相結合,該網絡學習一個依賴數據的時間步分布。該網絡預測哪些時間索引對減少訓練損失的貢獻最大,從而使我們在優化過程中優先考慮這些時間步。結果是更快的收斂速度和更高效的訓練資源利用。
本文框架支持在極少步驟下進行高效采樣,同時不犧牲生成質量。其遵循一個迭代去噪日程,采樣步驟遠少于未加速的基線方法。盡管步驟減少,本文方法在美學質量、文本-圖像對齊和結構保真度等關鍵方面達到了或超過了需要 50 次函數評估(NFE)才能實現的基線結果。這些結果表明,我們的軌跡設計與噪聲一致性機制在實現高質量合成與最小計算代價方面的有效性。對于其他加速方法,如量化,直接采用 Seedream 2.0 的方案。
模型性能
在一次公開進行的評測中,Seedream 3.0 在全球頂級文本生成圖像模型中排名第一,超越了 GPT-4o、Imagen 3、Midjourney v6.1、FLUX1.1 Pro、Ideogram 3.0 等模型。
還進行了嚴格的專家評估,包括人工評估和自動評估。結果顯示,Seedream 3.0 在所有關鍵性能指標上相較于前一版本均有顯著提升,并在與行業領先模型的比較中表現出色。
值得注意的是,Seedream 3.0 在兩個方面表現尤為卓越:密集文本渲染和逼真人像生成。此外,還在下面提供了與 GPT-4o的系統對比分析,探討兩個模型在不同領域的能力邊界。總體結果展示在圖 1 中。
Artificial Analysis 競技場
Artificial Analysis 是一個領先的 AI 模型評測平臺,專注于圖像和視頻生成。該平臺提供動態排行榜,基于關鍵指標如輸出質量、生成速度和成本,對模型進行評估,從而實現對最先進 AI 系統的客觀比較。
該平臺的文本生成圖像排行榜允許用戶匿名比較不同模型生成的圖像。為了保證公平性,用戶對相同提示下生成的圖像進行投票,且不知曉圖像來自哪個模型。模型的排名基于 ELO 評分系統,該系統在一定程度上反映了用戶的偏好。
Seedream 3.0 參與了 Artificial Analysis 的排名評測,并在整體評分中取得了第一名,擊敗了 GPT-4o,在 Recraft V3、HiDream、Reve Image、Imagen 3(v002)、FLUX1.1 Pro 和 Midjourney v6.1 等其他模型中建立了顯著優勢。
此外,它還在多個子維度中表現最佳,包括以下風格類別:通用 & 寫實風、動漫、卡通 & 插畫、傳統藝術;以及以下主題類別:人物:肖像、人物:群體 & 活動、奇幻、未來主義和物理空間。
綜合評估
人工評估
建立了一個更大規模的評測基準,以便在不同場景下對 Seedream 3.0 進行更全面的評估。該基準被命名為 Bench-377,由 377 個提示詞構成。除了考察文本到圖像對齊、結構合理性和審美感等基本維度外,提示詞的設計還考慮了使用場景。我們主要考慮了五大類場景:電影化、美術、娛樂、美學設計和實用設計。我們提出了“實用設計”這一類別,因為 Seedream 3.0 已被證明在輔助日常工作和學習方面具有顯著作用。例如,它可以在幻燈片中的圖標排布、手抄報插圖設計等任務中提供支持。
基于 Bench-377,文本到圖像模型的系統性人工專家評估是通過三個基本標準進行的:文本圖像對齊、結構正確性以及審美質量。圖 6 展示了五種使用場景的具體結果。Seedream 3.0 在文本圖像對齊和結構保真度方面顯著優于 Seedream 2.0 和其他競品模型。值得注意的是,它在美學表現方面整體得分超過了 Midjourney。此外,在設計類場景中,其表現也明顯優于 Midjourney,盡管在藝術類場景中略遜一籌。Imagen 3 在文本圖像對齊和結構方面也展現出較好的表現,但在美學評估中表現欠佳。Midjourney 雖然具有出色的審美能力,但在功能對齊和結構保真度方面表現有限。
圖 7、8、9 和 10 展示了基礎能力提升如何促進多樣場景的生成。文本圖像對齊能力的提升使得用戶意圖能夠被更精準地表達。例如,對微表情的生動描繪提升了電影氛圍的表現力。對復雜描述和專業術語(如“三視圖”)的精準理解與表達,能更好地滿足用戶的設計需求。這些能力的基礎支撐來自于結構穩定性和審美質量的增強。例如,動態動作中四肢的完整性、小物體的細節呈現,以及在顏色、光照、材質和構圖方面的提升,都是 Seedream 3.0 高可用性的關鍵因素。
自動評估
根據上一版本的自動評估方式,對文本到圖像生成模型進行了兩項標準的評估:文本圖像對齊和圖像質量。Seedream 3.0 在所有基準中持續排名第一。
在文本圖像對齊的自動評估中,主要關注 EvalMuse,它在多個基準中與人工評估具有較好的一致性。如表 1 所示,Seedream 3.0 的表現優于其他模型。更精細的維度分析顯示,與 Seedream 2.0 相比,Seedream 3.0 在大多數維度上都有所提升,尤其是在物體、活動、位置、食物和空間等方面。為了與此前報告的結果保持一致,此處及后續章節中也納入了對 Ideogram 2.0 的評估。
在圖像質量評估方面,復用了兩個外部指標 HPSv2和 MPS,以及兩個內部評估模型:Internal-Align 和 Internal-Aes。如表 1 所示,Seedream 3.0 在所有指標上均排名第一。
在包含 MPS 和我們內部審美評估模型的審美評估中,Seedream 3.0 的表現優于 Midjourney,而 Seedream 2.0 在先前評估中未能做到這一點。同時,在 HPSv2 指標方面,Seedream 3.0 首次突破了 0.3,表明我們的模型與人類偏好具有極高的一致性。
文本渲染
Seedream 2.0 在文本渲染方面(特別是中文字符)獲得了用戶的廣泛好評。在 Seedream 3.0 中,進一步優化了這一能力并進行了全面評估。我們的文本評估基準包含 180 條中文提示和 180 條英文提示,覆蓋了包括 logo 設計、海報、電子顯示、印刷文本和手寫文本在內的多種類別。
采用一個基于感知的指標(可用率)以及兩個基于統計的指標(文本準確率和命中率)來評估文本渲染能力??捎寐手傅氖窃谖谋句秩净菊_的前提下,考慮文本與其他內容的融合及整體審美質量后,被認為可接受的圖像比例。具體的客觀指標定義如下:
文本準確率 定義為:
文本命中率定義為:
圖 11 顯示,Seedream 3.0 在文本渲染性能方面優于包括其前代版本(Seedream 2.0)在內的現有模型。該系統對中英文字符均實現了 94% 的文本可用率,基本消除了文本渲染作為圖像生成限制因素的問題。值得注意的是,中文文本可用率相較于 Seedream 2.0 提升了 16%??捎寐逝c命中率接近的數值進一步表明,布局或媒介相關的渲染錯誤發生頻率極低。這些結果驗證了我們原生文本渲染方法相比于后期合成方式和外部插件解決方案的有效性。
除了整體可用率的提升,Seedream 3.0 在密集文本渲染方面的卓越表現也尤為值得關注。密集文本指的是字符密度高、內容較長的段落,如包含眾多祝福語的文字內容,一直是此前模型的挑戰所在。相比之下,Seedream 3.0 在處理此類細字符時展現出了顯著的進步。如圖 12 和圖 13 所示,Seedream 3.0 在小字符的精度生成以及文本布局的自然性方面均表現出色。為進行對比,將在后續章節中評估另一個在密集文本渲染方面也表現突出的模型 GPT-4o。
擬真肖像
AI 生成圖像(尤其是肖像)過于合成的外觀,一直是文本生成圖像模型的批評焦點。諸如過于光滑的皮膚和油膩的質感等問題,使得生成圖像看起來很不自然。
為了全面評估 Seedream 3.0 在該領域的表現,構建了一個包含 100 條提示詞的肖像評估集。這些提示詞聚焦于肖像生成的多個方面,包括表情、姿態、角度、發型特征、皮膚紋理、服飾和配飾等。評估采用 Elo 對戰方式,參與者需在不同模型生成的肖像中選出更優者,并說明理由。評估標準主要關注兩個維度:真實感與情感表達。
參評模型包括 Seedream 3.0、Seedream 2.0、Midjourney v6.1、FLUX-Pro 1.1,以及以擬真著稱的新版 Ideogram 3.0。為了確保公平比較,Midjourney v6.1 會進行多輪圖像生成,以排除那些過于藝術化或抽象的結果,保留更具現實感的作品。
經過超過 50,000 輪公開對戰評估后,結果如圖 14 所示(部分模型變體未顯示)。
Seedream 3.0 與 Midjourney v6.1 并列第一,顯著優于其他模型。圖 15 中的示例展示了 Seedream 3.0 成功去除了人像中的合成感。生成的人臉紋理如今具備諸如皺紋、細小面部毛發和疤痕等真實特征,逼近自然人類皮膚的外觀。同時,Seedream 3.0 仍可根據提示生成完美無瑕的皮膚質感。
此外,雖然 Midjourney v6.1 在紋理表現方面略遜于 Seedream 3.0,但在情感表達上的表現更為突出,這也為其贏得了高分排名。未來版本將進一步加強這兩個方面。
特別指出,Seedream 3.0 能夠直接生成高分辨率圖像,如 2048×2048,進一步提升了肖像紋理質量。圖 16 展示了部分 Seedream 3.0 的生成示例。生成肖像的質量正朝著專業攝影水準邁進,為應用場景帶來全新可能。
與 GPT-4o 的對比
近期,GPT-4o 推出了令人印象深刻的圖像生成功能,展現出極強的多模態能力。由于缺乏大規模圖像生成的 API,尚無法進行系統性評估。然而,通過選取部分案例進行對比分析發現,GPT-4o 與 Seedream 3.0 在不同場景中各具優勢與不足。
密集文本渲染
GPT-4o 展現出優秀的文本渲染能力,從多個示例中可見一斑。benw 生成了可比案例以便進行比較,如圖 17 所示。GPT-4o 在渲染英文小字符及部分 LaTeX 符號方面表現出色。然而,在中文字體渲染方面存在明顯不足。相比之下,Seedream 3.0 能輕松應對密集的中文文本生成,并在排版和美學構圖方面優于 GPT-4o。
圖像編輯
圖像編輯任務將生成能力與真實圖像結合,因其實際應用價值而備受關注。GPT-4o 能根據提示對給定圖像執行編輯操作。由 Seedream 派生出的 SeedEdit 同樣支持此類功能。此外,Gemini-2.0 近期在多模態圖像生成方面展現出強勁能力,尤其是在交替生成與多輪編輯方面。本研究聚焦于這些模型的單輪圖像生成能力,如圖 18 所示。展示了 SeedEdit 在保持 ID 和遵循提示方面表現更優。
這三種模型各具特點。GPT-4o 擅長滿足多樣的編輯需求,但在保留原始圖像(尤其是 IP 和 ID 一致性)方面表現欠佳。Gemini-2.0 雖然在像素層級上保留原始圖像,但常出現色彩不自然和圖像質量下降的問題。SeedEdit 1.6 實現了平衡的性能,能有效應對典型編輯需求,并保持較高的可用率。但在處理更復雜的任務(如多圖參考、多輪編輯)方面仍有局限。未來版本將針對這些問題進行改進。
主要對比了 SeedEdit 與 GPT-4o 在文本相關編輯任務中的表現。文本編輯本身具有挑戰性,它要求不僅能渲染文本,還能識別并理解圖像中的字符。能處理文本編輯任務,是可控圖像生成向真實圖像應用邁進的重要標志。圖 19 展示了文本寫入、刪除、修改等任務的示例。SeedEdit 繼承了 Seedream 3.0 的文本相關能力,表現令人滿意。它能夠精準識別圖像中的文本,從而實現準確刪除或修改。同時,在添加文本時,SeedEdit 能考慮排版,使文本與原圖無縫融合。相比之下,GPT-4o 雖能完成文本編輯任務,但在保留原圖方面表現不佳,限制了其實用性。
生成質量
生成質量(包括色彩、紋理、清晰度和美學吸引力)是評估文本生成圖像模型的重要指標。Seedream 系列在這些方面持續表現出色,而 GPT-4o 則存在一些短板。如圖 20 所示,GPT-4o 生成的圖像往往帶有偏黃暗調,且存在較多噪點,嚴重影響圖像在多場景中的使用價值。
結論
本文介紹了 Seedream 3.0,它通過多項創新策略應對了現有挑戰,包括圖像分辨率受限、復雜屬性依從性、細粒度排版生成,以及視覺美感和保真度不足等問題。通過在數據構建、模型預訓練、后訓練和模型加速等方面進行系統升級,Seedream 3.0 在多個維度上較前一版本取得了全面提升。
Seedream 3.0 提供原生高分辨率輸出、全能能力、更高的文本渲染質量、更佳的視覺效果和極致的生成速度。隨著其在豆包、即夢等平臺上的集成,Seedream 3.0 展現出強大的潛力,成為覆蓋各類工作與生活場景的高效生產力工具。
本文轉自AI生成未來 ,作者:AI生成未來
