成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型 精華

發布于 2025-2-6 11:32
瀏覽
0收藏

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

論文鏈接:https://arxiv.org/pdf/2502.01993
代碼&模型鏈接:https://github.com/JianzeLi-114/FluxSR

亮點直擊

  • 開發了FluxSR,一種基于FLUX.1-dev的單步擴散Real-ISR模型。這是首個基于超過120億參數大模型的單步擴散Real-ISR模型。
  • 提出了一種流軌跡蒸餾(FTD)方法,明確建立了噪聲到圖像流與低分辨率到高分辨率流之間的關系。在噪聲到圖像流保持不變的情況下,能夠保留T2I模型中的高度逼真性,并有效地將其轉移到低分辨率到高分辨率的流中用于超分辨率。
  • 為了使訓練可行,提出了一種適合大型模型的訓練策略,該策略在訓練階段不包括額外的教師模型。將教師的知識融入到噪聲到圖像流中,并在離線模式下生成大量這樣的流,從而減少內存消耗和訓練成本。

總結速覽

解決的問題

  • 多步擴散模型的計算成本高,限制了其在真實世界圖像超分辨率(Real-ISR)任務中的應用。
  • 現有的單步擴散方法受教師模型性能限制,低質量的教師模型會導致生成的圖像出現偽影。
  • 大模型的訓練成本和內存消耗高,尤其在蒸餾過程中,使用額外教師模型會顯著增加計算負擔。

提出的方案

  • 提出了FluxSR,一種基于流匹配模型的單步擴散Real-ISR技術。
  • 引入了流軌跡蒸餾(FTD)方法,旨在將多步流匹配模型蒸餾為單步Real-ISR模型,解決生成分布偏移的問題。
  • 采用大模型友好的訓練策略,通過將教師模型的知識融入到噪聲到圖像流中,并通過離線模式生成流數據,避免在訓練過程中使用額外的教師模型,從而減少內存消耗和訓練成本。
  • 提出了TV-LPIPS感知損失,結合總變差(TV)思想,恢復圖像的高頻分量,減少偽影。
  • 引入了注意力多樣性損失(ADL),作為正則化項,解決了生成圖像中的重復模式問題。

應用的技術

  • Flux.1-dev作為基礎模型,結合流匹配理論來學習噪聲到圖像流與低分辨率到高分辨率流之間的關系。
  • 流軌跡蒸餾(FTD),通過保持原有T2I流不變,學習SR流軌跡。
  • TV-LPIPS感知損失,強調高頻成分的恢復,改善圖像真實感。
  • 注意力多樣性損失(ADL),改善Transformer模塊中不同token的多樣性,避免生成圖像中的重復模式。

達到的效果

  • 生成圖像質量顯著提高,能夠保留高照片逼真度,同時有效避免偽影。
  • 僅需一步采樣,大幅減少計算開銷和推理延遲。
  • 通過創新的訓練策略,顯著降低了內存消耗和訓練成本,使得大模型在資源有限的條件下仍能高效訓練。
  • 實驗結果表明,FluxSR在多個評估指標上超越了現有的單步擴散Real-ISR方法

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

方法

流軌跡蒸餾(FTD)

本文的目標是從預訓練的文本到圖像(T2I)流模型中蒸餾出一個單步擴散超分辨率模型。當前的大多數單步擴散ISR方法直接微調預訓練的T2I模型,并結合如VSD或GAN等模塊以提升性能。盡管這些方法已取得了不錯的結果,但仍面臨一些挑戰。如下圖2左側所示,預訓練的T2I模型的流軌跡與SR模型的流軌跡并不對齊。在微調過程中,這些方法沒有機制保持擴散終點分布不變。換句話說,圖中的真實數據分布(藍色)發生了偏移,轉換為生成分布(橙色)。對于已經很好擬合真實數據分布的大規模T2I模型,使用上述方法進行微調可能導致負面結果。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

大模型友好的訓練策略

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

通過結合上述方程,得到:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

模型的參數化可以表達為:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

其中:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

反偽影損失函數

在訓練過程中,觀察到生成器的預測在像素空間中會出現周期性的高頻偽影。如下圖4所示,偽影的周期為16像素,恰好是VAE縮放因子(8)與變換器補丁大小(2)的乘積。這表明每個token在某些維度上具有相似的成分。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

感知損失的改進。 目標是減少平坦區域中相鄰像素之間的變化,以抑制高頻偽影,同時保持銳利的邊緣。受到總變差(TV)損失的啟發,提出了TV-LPIPS作為訓練的感知損失。具體來說,TV-LPIPS計算如下:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

其中

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

TV-LPIPS度量了像素變化的程度,并計算了與真實值的LPIPS距離。這不僅可以防止平滑區域中相鄰像素之間的過度變化,還增強了LPIPS損失對高頻成分的敏感性。總之,用于訓練的重建損失可以表示為:

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

注意力多樣性損失(ADL)。 為了解決特征層次的周期性偽影問題,引入了Guo等人提出的注意力多樣性損失(ADL)。ADL旨在減少token之間的相似性并增強注意力的多樣性。將此損失引入以防止不同的token生成相同的特征組件。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

總之,FluxSR 的整體訓練過程如算法 1 所示。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

實驗

實驗設置

訓練數據集:本文的方法不需要任何真實數據集。使用 FLUX.1-dev 生成了 2400 對大小為 1024x1024 的噪聲-圖像對作為訓練數據。為了獲得相應的低分辨率(LR)圖像,使用了 RealESRGAN 提出的退化流程。


測試數據集:在合成數據集 DIV2K-val以及兩個真實數據集 RealSR和 RealSet65 上評估本文的模型。對于 DIV2K-val,使用 RealESRGAN 退化流程生成相應的 LR 圖像。在這些數據集上,使用全尺寸圖像進行評估,以評估模型在真實場景中的性能。


對比方法與評估指標:將本文的模型與其他基于擴散的圖像超分辨率(ISR)模型進行性能對比,包括多步擴散 ISR 模型:StableSR、DiffBIR、SeeSR、ResShift 和 AddSR;以及單步擴散 ISR 模型:SinSR、OSEDiff和 。使用 4 個全參考指標(PSNR、SSIM、LIPIS 和 DISTS)以及 4 個無參考指標(MUSIQ、MANIQA、TOPIQ 和 Q-Align)評估本文的模型和上述方法。PSNR 和 SSIM 在 YCbCr 空間的 Y 通道上計算。

與最先進方法的對比

定量對比:下表 1 和表 2 展示了 FluxSR 與其他基于擴散的真實圖像超分辨率(Real-ISR)方法的定量對比。在單步方法中,本文的方法在所有測試數據集上的所有無參考(NR)指標中均取得了最佳性能。對于 PSNR 和 SSIM 等全參考(FR)指標,最近的研究表明圖像保真度和感知質量之間存在權衡。在基于擴散的超分辨率方法中,PSNR 和 SSIM 的參考價值有限。與多步方法相比,FluxSR 在所有數據集上均優于 StableSR。與 DiffBIR、SeeSR 和 AddSR 相比,FluxSR 在 TOPIQ 上略低。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

定性對比
下圖 5 展示了 FluxSR 與其他方法的視覺對比。FluxSR 能夠在嚴重退化的情況下生成逼真的細節。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

例如,在圖 5 的第一行中,展示了一件外套圖像的恢復結果,DiffBIR、ResShift 和 SinSR 受到噪聲影響,導致生成的人工紋理。盡管 AddSR 和 TSD-SR 生成的圖像相對清晰,但它們未能準確恢復衣領的設計。相比之下,FluxSR 重建的衣領更接近真實外觀。圖 5 的第二行展示了數字的恢復結果。FluxSR 生成了最逼真的結果,而 TSD-SR 雖然也大致恢復了數字,但受到 Sinc 噪聲的影響,數字周圍產生了明亮的邊緣。

消融實驗

本節使用 RealSR 作為測試數據集,訓練迭代次數設置為 30k。


FTD 損失的有效性:為了驗證 FTD 的有效性,將其與僅使用重建損失的訓練進行了對比,結果如下表 3 所示。僅使用重建損失訓練單步流模型會導致性能較差,無法生成高頻細節并出現顯著的高頻偽影。使用提出的 FTD 損失不會破壞教師模型學習的數據分布,能夠有效恢復高頻細節并實現更高的真實感。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

ADL 和 TV-LPIPS 的有效性:為了驗證 ADL 和提出的 TV-LPIPS 損失的有效性,進行了相關的消融實驗,研究每個損失函數組件的影響。此外還使用了 DFOSD 提出的 EA-DISTS 作為感知損失。下表 4 展示了實驗結果,表明使用 TV-LPIPS 作為感知損失和 ADL 作為正則化項能夠實現最佳性能。

只需一步!上交&哈佛提出FluxSR:首個基于12B+大模型的單步擴散真實世界超分模型-AI.x社區

結論與局限性

本文提出了 FluxSR,一種基于 FLUX(最先進的 T2I 擴散模型)的高效單步 Real-ISR 模型。FluxSR 利用流軌跡蒸餾(FTD)將多步流匹配模型蒸餾為單步超分辨率模型。它通過固定多步模型生成的噪聲-圖像對進行訓練,不需要任何真實數據。本文采用 TV-LPIPS 和 ADL 來增強生成圖像中的高頻成分并減少周期性偽影。實驗表明,FluxSR 實現了前所未有的真實感。


局限性:盡管 FluxSR 表現出色,但其參數量大且計算成本高。此外,尚未完全消除周期性偽影。未來,計劃應用模型剪枝技術來壓縮模型,并開發更有效的算法以防止周期性偽影,旨在實現輕量級且高性能的 Real-ISR 模型。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/T3T2kijmsZrstQ94w5XPcA??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美中文字幕一区 | 成人免费视频播放 | 成人综合视频在线 | 美女福利网站 | 亚洲www. | 久久久www成人免费精品张筱雨 | 看羞羞视频免费 | 成人性生交大片 | 不卡的av在线 | 成人av网站在线观看 | 亚洲欧美激情国产综合久久久 | 日本精品网站 | 国产精品国产成人国产三级 | 亚洲在线| 国产在线观看一区二区 | 欧美美女二区 | 91精品国产91久久久久游泳池 | 91亚洲精选 | 日韩激情免费 | 91精品久久久久久久久久 | 超碰成人免费 | 国产成人av免费看 | 中文字幕国产视频 | 国产高清精品一区二区三区 | 女同av亚洲女人天堂 | 欧美午夜久久 | 国产电影一区二区 | 毛片视频免费观看 | 久久伊人操 | 天天综合网7799精品 | 国产不卡视频 | 亚洲福利一区 | 国产yw851.c免费观看网站 | 日韩高清一区 | 欧美日韩国产传媒 | 成人影院在线观看 | 久久久精品国产 | 91中文字幕在线观看 | 国产午夜精品久久久 | 成人黄视频在线观看 | av片免费|