ICML 2025|快手提出了基于殘差的超低碼率圖像壓縮方法ResULIC
計算機視覺領域頂級會議International Conference on Machine Learning (ICML 2025)將于7月13日至7月19日在加拿大溫哥華召開,快手音視頻技術團隊聯合南京大學發表的題為《Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion》——基于語義殘差編碼與壓縮感知擴散的超低碼率圖像壓縮的最新研究成果被會議收錄。
ICML是機器學習領域的頂級國際會議,其收錄的論文代表了機器學習基礎理論與算法創新的前沿進展,是該領域學術研究與技術突破的核心風向標。ICML 2025共收到12107篇有效投稿,其中有3260篇論文被接收,接收率為26.9%。
一、背景
近年來,基于學習的圖像壓縮技術[1,2,3]已在客觀指標和主觀評估上展現出優于傳統編解碼器(如 JPEG2000 和 VVC 幀內編碼)的性能。然而,在低碼率條件下,這些方法常面臨紋理過度平滑、細節和結構信息丟失等問題。隨著AIGC的發展,盡管擴散模型[4]的出現為這一困境提供了轉機,在極低碼率下實現了比GAN方法更出色的視覺重建效果,但現有方法[5,6,7]在一致性與保真度方面仍不理想,與原始輸入存在顯著差異。如何將這種生成能力與視頻保真進行結合,在極低碼率下大幅改善畫質,是一個亟待解決的問題。
二、方法
在該篇論文中,快手提出了基于殘差的超低碼率圖像壓縮方法ResULIC (Residual-guided Ultra Lowrate Image Compression)。該方法引入語義殘差編碼、壓縮感知擴散模型,改善了壓縮和重建的協同性,在超低碼率限制下,生成了相較于原圖具有超高保真度、細節紋理豐富的圖像。
?
圖1. 超低碼率下的效果對比,最左為原圖,最右為效果圖
?
算法的框架圖如2所示,主要包含三個部分:
(1)特征壓縮器(Feature compressor)
(2)語義殘差編碼(Semantic Residual Coding)
(3)壓縮感知的擴散模型(Compression-aware Diffusion Model)
圖2. ResULIC的算法框架
1.特征壓縮器
圖像首先經過特征壓縮將圖像映射到潛空間,得到其潛在特征表示。隨后,語義殘差編碼部分通過分析解碼圖像和原始圖像生成優化描述。這一過程中,為提升重建質量,還應用了感知保真優化器(Perceptual Fidelity Optimizer)。最后,我們提出了壓縮感知擴散模型CDM,將文本信息和壓縮后的圖像信息融合成條件信號,通過CDM擴散模型,獲取最終輸出的重建圖像。如下是具體的算法細節,包括語義殘差編碼和壓縮感知的擴散模型。
2.語義殘差編碼
現有的基于多模態大語言模型的壓縮方法通常只是融合文字和其他內容特征(如邊界,顏色、結構等)去重建圖像,往往忽略了其中已包含的語義信息。為了盡可能消除語義中的冗余,且保證重建圖像的質量,語義殘差編碼模塊主要包含語義殘差檢索模塊和感知保真優化器兩個模塊。
語義殘差檢索模塊( Semantic Residual Retrival, Srr)
圖3展示了我們重新設計的語義殘差檢索模塊。除了常規做法中使用原始圖像獲取完整標題外,我們還直接從解碼后的壓縮潛在特征獲取解碼圖像的標題。隨后,我們將兩個標題同時輸入一個大型語言模型(LLM),用于捕獲原始圖像中的殘差語義。這些殘差語義的獲取有助于進行碼率的自適應編碼,我們最終會綜合語義潛在表示的碼字(C_res)和圖像意義的潛在表示的碼率(圖2中R_Zc)。
圖3. 語義殘差檢索模塊流程
感知保真優化器 (Perceptual Fidelity Optimization, Pfo)
盡管多模態大語言模型(MLLM)生成的描述有助于重建,但它通常無法捕捉到細致的紋理和結構,從而在重建圖像與原始圖像之間產生了一致性差距。這一限制阻礙了保真度。為了解決這個問題,我們提出了一種專為擴散模型定制的差分優化方法,目標是找到最佳感知保真度的提示詞。
?
我們首先參照CLIP[8]中使用的預定義詞匯表,將輸入的描述轉換為token indices,其中
是模型的詞匯表大小,d是嵌入向量的維度。然后我們使用圖3中獲獲取的語義殘差
來初始化可學習的嵌入
,其中 M 是待優化的token數量。后續的優化過程如圖4中算法所示,并使用下述損失函數進行優化:
圖4. 算法流程圖
其中第一項表示用于預測在第n步的去噪損失,用于穩定優化過程。我們還引入了輔助損失函數,其中
是一個較小的權重因子。
和
分別表示CLIP模型的文本編碼器和圖像編碼器,S是兩個嵌入向量之間的余弦相似度。在優化過程中,
會被投影到 CLIP 嵌入空間中歐式距離最短的嵌入
,確保學習到的嵌入與 CLIP 模型的詞匯空間保持一致。最終優化后的文本可以通過如下方式經過數次迭代后獲得(
表示學習率):
圖5展示了通過保真優化器優化后的Prompt和重建圖,優化后的Prompt具備一定可讀性。
圖5. 通過感知保真優化器優化后的Prompt和重建圖
3.壓縮感知的擴散模型
基于壓縮感知的擴散模型旨在盡可能對齊壓縮和生成之間的目標,我們希望在擴散過程中,將壓縮比與噪聲尺度進行聯合建模,從而在不同壓縮率下實現高效且一致的重建效果。
?
如圖6所示,我們發現壓縮退化與擴散加噪過程有一個共同點:噪聲強度或壓縮比越高,圖像中保留的信息越少。因此,壓縮率與擴散時間步長天然形成對齊關系。在此基礎上,我們嘗試建模這種相關性,將潛在殘差融入擴散過程,提出了一種壓縮感知的擴散方法,從而在提升重建保真度的同時,大幅提高了解碼效率。
圖6?. 壓縮率和擴散步數的本質關系。更大的擴散步長對應更低的碼率
?
圖7中,我們更進一步分析了碼率(bpp)、擴散時間步長和質量三者的關系。數據顯示,在不同碼率下,達到最佳重建質量所需的擴散步長存在差異,自適應步長的效果會明顯優于固定步長。受此啟發,我們針對不同的碼率選擇了不同的噪聲添加終點,以保持其添加噪聲的方式。通過這種方式,CDM無需重新訓練即可實現視覺上較好的重建效果。
圖7. 碼率和擴散步長之間的相關性
(a)最佳重建質量在不同碼率下所需的擴散步長不同
(b)峰值投影曲線中,最優的N_r隨著碼率的增加而減少
(c)自適應性策略(紅色曲線)比固定擴散步驟表現明顯更好
三、實驗結果
我們選擇了有參考(PSNR、MS-SSIM、LPIPS、DISTS、FID、KID)的評價指標來衡量重建畫質。如圖8所示,ResULIC在公開數據集CLIC-2020上,性能大幅超過了前序的算法。
圖8. 在公開數據集下,ResULIC和其他算法性能對比
如表1所示,和前序同樣使用基于Diffusion的SOTA算法PerCo對比起來,ResULIC在LPIPS和FID性能上提升了80.7%和66.3%。
表1:和同樣使用基于Diffusion的SOTA算法的PerCo對比結果
四、總結與展望
在本篇論文中,快手提出了基于殘差的超低碼率圖像壓縮方法ResULIC。通過引入基于多模態大語言模型的語義先驗,并深度融合殘差編碼和壓縮任務,在超低碼率場景下,主客觀指標取得了業界領先的效果,為后續快手視頻壓縮和處理提供了算法支持。
目前,快手在視頻壓縮和處理應景應用在多個業務場景,如用戶體驗優化、基于內容的自適應處理和編碼、電商/商業化賦能等。未來,快手音視頻技術團隊將持續推動視頻壓縮算法的提升,探索更為廣泛的應用場景。
附錄:
[1] Chen, T., Liu, H., Ma, Z., Shen, Q., Cao, X., and Wang, Y. End-to-end learnt image compression via non-local attention optimization and improved context modeling. IEEE Transactions on Image Processing, 30:3179–3191, 2021.
[2] Lu, M., Guo, P., Shi, H., Cao, C., and Ma, Z. Transformer-based image compression. In 2022 Data Compression Conference (DCC), pp. 469–469. IEEE, 2022.
[3] Duan, Z., Lu, M., Ma, J., Huang, Y., Ma, Z., and Zhu, F. Qarv: Quantization-aware resnet vae for lossy image compression. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
[4] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 10684–10695, 2022.
[5] Careil, M., Muckley, M. J., Verbeek, J., and Lathuili` ere, S. Towards image compression with perfect realism at ultra-low bitrates. In The Twelfth International Conference on Learning Representations, 2024.
[6] Lei, E., Uslu, Y. B., Hassani, H., and Bidokhti, S. S. Text+sketch: Image compression at ultra low rates. In ICML 2023 Workshop Neural Compression: From Information Theory to Applications, 2023a.
[7] Li, Z., Zhou, Y., Wei, H., Ge, C., and Jiang, J. Towards extreme image compression with latent feature guidance and diffusion prior. arXiv preprint arXiv:2404.18820, 2024.
[8] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J.,et al. Learning transferable visual models from natural language supervision. In International conference on machine learning, pp. 8748–8763. PMLR, 2021.
?
