成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

能量驅動注意力:提升文本到圖像擴散模型的語義對齊新范式

人工智能
當前的文本到圖像擴散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質量圖像方面取得了巨大成功。

一眼概覽

該論文提出了一種基于能量的跨注意力(Energy-Based Cross-Attention, EBCA) 機制,以解決文本到圖像擴散模型中的語義不對齊(semantic misalignment)問題。通過建模上下文向量的后驗分布,該方法能夠自適應地調整語義上下文,實現更精準的文本引導圖像生成,無需額外訓練,并在 多概念生成、文本引導修復、圖像編輯任務上取得了優異表現。

核心問題

當前的 文本到圖像擴散模型(Text-to-Image Diffusion Models)(如 Stable Diffusion、Imagen)在生成高質量圖像方面取得了巨大成功。然而,語義不對齊問題依然突出:

? 生成的圖像可能忽略文本中的某些概念(概念忽略問題)。

? 在多概念合成任務中,不同概念可能無法正確綁定(屬性綁定問題)。

? 在文本引導修復(Inpainting)任務中,模型可能無法準確填充缺失區域。

為解決這些問題,該研究引入了一種新的 貝葉斯框架,通過最小化層次化的能量函數,實現上下文語義的動態更新。

技術亮點

1. 能量驅動的上下文更新(Energy-Based Context Update, EBCU)

? 通過 能量函數 計算 上下文向量的最大后驗概率(MAP)估計,從而優化跨注意力機制。

? 通過梯度優化動態調整文本與圖像的語義匹配,提高文本到圖像的精準度。

2. 能量驅動的查詢組合(Energy-Based Composition of Queries, EBCQ)

? 通過多個上下文向量的 能量函數線性組合,實現 零樣本可組合生成(Zero-shot Compositional Generation)。

? 允許在無需訓練的情況下,以自然方式合成多個文本概念。

3. 無需額外訓練,即插即用

? 該方法可以直接應用于 Stable Diffusion 等主流擴散模型,無需額外訓練或微調,計算開銷幾乎為零。

方法框架

圖片圖片

EBCA 框架的核心思路:

1. 構建能量函數

? 在擴散模型的 跨注意力層 中,定義查詢(Query, Q)和鍵(Key, K)的 能量函數,并以此建模上下文向量的后驗分布:[p(\text{context} | \text{representations})]

? 通過 梯度下降 最小化能量函數,實現自適應的上下文優化。

2. 動態更新跨注意力層的上下文向量

   ? 計算 最大后驗估計(MAP),并將 更新后的上下文向量 級聯傳遞到后續的跨注意力層,逐步調整語義對齊。

3. 實現可組合生成

    ? 采用 能量組合策略,允許對不同的文本概念進行自然合成,實現更靈活的文本控制。

實驗結果速覽

圖片圖片

論文在多個文本到圖像任務上驗證了 EBCA 的有效性:

? 多概念生成(Multi-Concept Generation)

? 解決了 概念忽略 和 屬性綁定 問題,使多個文本概念能夠共存于生成圖像中。

? 例如,在 "A cat wearing a shirt"(一只穿著襯衫的貓)任務中,該方法確保貓和襯衫同時出現,而非忽略某一部分。

? 文本引導修復(Text-Guided Inpainting)

? 在 Stable Diffusion Inpaint 和 Stable Repaint 基礎上,應用 EBCU 顯著提升修復質量,無需額外微調。

? 例如,在修復 被遮擋的泰迪熊 任務中,該方法能夠精準填充缺失部分,并與上下文保持一致。

? 圖像編輯(Compositional Image Editing)

? 可用于 真實和合成圖像編輯,支持可控編輯(如修改圖像風格、添加或刪除特定元素)。

? 例如,在 "A castle next to a river (+ Monet, Boat)" 任務中,該方法能夠自然地合成莫奈風格的河邊城堡,并額外添加船只。

量化評估:

? CLIP 相似度(CLIP Accuracy):相比基線方法,EBCA 在文本-圖像匹配精度上更高。

? DINO-ViT 結構距離(Structure Distance):該方法在保持圖像原始結構的同時,實現更精準的編輯。

實用價值與應用

?? AI 生成藝術:可用于生成更加精準的 AI 藝術作品,使風格融合更自然。

?? 內容創作:適用于 游戲、美術、廣告 等創意內容生成,提升多概念融合能力。

?? 自動駕駛 & 監控:可用于增強計算機視覺模型的理解能力,提高對復雜場景的精準度。

?? 醫療影像:該方法可擴展至 醫學圖像分析,改善不確定性估計和視覺可解釋性。

開放問題

?? 如何適配更大規模的模型?EBCA 目前主要應用于 Stable Diffusion,未來如何擴展到 DALLE、Imagen 甚至 3D 生成模型?

?? 如何實現更細粒度的文本控制?目前的 EBCU 方法優化了上下文向量,但仍有改進空間,能否實現更加細粒度的文本到圖像映射?

?? 能否擴展到視頻生成?EBCA 通過逐層傳遞優化的上下文向量,如果將其應用到 擴散視頻生成,是否能改進時序一致性?


責任編輯:武曉燕 來源: 萍哥學AI
相關推薦

2017-10-15 21:43:36

2023-12-11 14:21:00

模型訓練

2024-12-17 14:39:16

2022-05-25 10:28:35

模型AI

2023-01-02 13:12:07

模型圖像

2024-06-28 08:04:43

語言模型應用

2022-03-25 11:29:04

視覺算法美團

2023-06-09 07:29:03

模型文本document

2024-09-19 10:07:41

2018-08-26 22:25:36

自注意力機制神經網絡算法

2023-05-05 13:11:16

2018-05-03 16:27:29

RNN神經網絡ResNet

2024-12-09 00:00:10

2023-09-04 12:59:03

AI數據

2024-11-04 10:40:00

AI模型

2025-07-03 09:49:43

2025-02-25 09:40:00

模型數據AI

2023-11-24 12:36:00

模型訓練

2025-01-15 09:28:42

訓練模型圖像生成

2025-06-09 09:32:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲 欧美 日韩在线 | 九九爱这里只有精品 | 久久久久久久网 | 好姑娘高清在线观看电影 | 99这里只有精品视频 | 午夜影院免费体验区 | 1级毛片| 国产一区二区三区在线 | 翔田千里一区二区 | 欧美日韩综合一区 | 久久91 | 成人免费观看男女羞羞视频 | 9999在线视频 | 日韩欧美一区二区三区 | 亚洲精品一区二区三区免 | 亚洲成在线观看 | 中日字幕大片在线播放 | 免费高清av | 一区二区三区四区在线播放 | 香蕉久久av | 国产精品久久久久一区二区三区 | 碰碰视频| 国产免费一区二区 | 成人99 | 日韩在线不卡 | 日韩三级电影在线看 | 日韩免费一区二区 | 美女福利视频网站 | 免费网站国产 | 亚洲一区 中文字幕 | 欧美成视频 | 免费一看一级毛片 | 亚洲电影第1页 | 国产精品99久久久久久久久久久久 | www.狠狠干 | 男人的天堂在线视频 | 免费看国产片在线观看 | 成人综合一区 | 国产91在线 | 亚洲 | 九九热精品视频在线观看 | 不卡一区二区在线观看 |