開源:基于可分離級聯查找表的實時圖像增強方法
ECCV全稱為European Conference on Computer Vision,即歐洲計算機國際會議,是計算機視覺領域的三大頂級會議之一。該會議每兩年在世界范圍內召開一次,討論內容涵蓋了與圖像或視頻模式提取或識別相關的廣泛主題,常見主題包括對象識別、目標檢測、圖像分割、圖像恢復和圖像增強等。今年的ECCV會議接受了來自世界各地總計5,803份有效論文投稿,經過會議主席和眾多審稿人的努力,共計1,650份論文投稿被會議接收,總接收率約為28%。
本次合作論文首次提出了一種通過深度學習對輸入圖像自適應地生成級聯的一維和三維查找表,將一個復雜的顏色變換解耦為顏色分量獨立以及顏色分量耦合的兩個子變換,從而對輸入圖像進行高效色彩增強的創新性技術。
解耦變換受啟發于傳統ISP中分治的思想,一維查找表負責顏色分量獨立的變換(如亮度、對比度調整),三維查找表負責顏色分量耦合的變換(如色度、飽和度調整);兩種子變換通過動態網絡范式下的聯合優化,可以優勢互補,從而解決單一類型查找表變換建模能力不足或計算/存儲開銷較大的問題。在多個學術界公開相片美化數據集上與現有方法的對比實驗表明,我們的方法可以在推理速度與現有最高效方法可比的同時取得最佳客觀質量指標。
論文地址:
https://arxiv.org/abs/2207.08351
項目地址:
https://github.com/ImCharlesY/SepLUT
背景
色彩增強是圖像處理的基本內容之一,是傳統圖像信號處理器ISP中不可或缺的關鍵環節,也是畫質增強的重要手段。它根據待處理圖像本身的內容以及增強圖像所面向的應用場景,對圖像中像素的顏色進行調整,增加不同像素之間的顏色對比度,提高顯著區域的顏色飽和度等等,從而最終提高圖像的視覺效果。
現有的研究工作和工業產品往往設計了類型多樣的顏色變換來針對顏色的不同屬性,如HSV模型中定義的亮度、色度、飽和度等,進行調整。在這其中,查找表(Lookup Tables,LUTs)是ISP設備中廣泛用于存儲和建模各類顏色變換的一種重要技術。
其本質為通過稀疏采樣、預計算、緩存和插值查詢等操作而實現的對一個復雜的函數變換的有損近似。具體而言,查找表通過對一個變換函數的輸入空間進行稀疏采樣,預先計算并以表格形式記錄采樣輸入的對應輸出,從而在實際推理過程中以廉價的查詢和插值操作來避免高昂的變換函數計算開銷。根據輸入空間維度的不同,常用的查找表有一維查找表(1D LUT)和三維查找表(3D LUT),分別適用于一維函數和三維函數的建模。
圖1 HSV顏色模型和典型ISP的流程框圖
典型的ISP設備遵循分治的基本設計思想,使用若干個不同的1D和3D LUTs分別實現各類顏色變換。其中,1D LUTs適用于顏色分量獨立(component-independent)的變換(如曝光補償、伽馬變換等),這類變換中不同的顏色通道/分量(如RGB)各自以一維輸入的形式獨立進行變換;3D LUTs則對建模顏色分量耦合(component-correlated)的變換(如色度、飽和度調整等)更具優勢,具備混合不同顏色分量間或調節混合比例的能力。
工作動機
傳統的查找表技術往往依賴于專業人員的人工調參,這需要大量的經驗分析和人力付出,且一次調參所得的查找表模式往往較為單一,難以適配復雜多變的應用場景。近年來,得益于深度神經網絡強大的數據特征提取能力,學術界一些最新的工作開始嘗試結合深度學習和傳統的查找表方法,來實現魯棒高效且具備場景適應能力的自動色彩增強技術。
它們采用了動態神經網絡的范式,在輸入圖像的低分辨率版本上利用深度網絡進行圖像內容理解,并自適應地預測或調節最終用于變換圖像的查找表的參數。
這些方法在利用數據驅動的深度網絡替代了傳統查找表技術繁重的人工調參的同時,巧妙緩解了深度網絡引入的較高的計算負擔(網絡僅在低分圖像上推理),從而兼具較強的圖像/場景自適應能力和較高的實時性。
然而,現有工作基本遵循了當今深度學習領域的主流趨勢——即通過單一模型來統一盡可能多的圖像變換,以追求模型的簡潔性和泛用性。它們將類型多樣的顏色變換編碼到單一類型的可學習查找表中,也即試圖使用單獨的一維或三維查找表來統一處理ISP中不同查找表所建模的不同變換。這種做法未能有效考慮到單一類型查找表在同時建模顏色分量獨立和顏色分量耦合變換這兩類變換時的模型容量不足,從而限制了這些方法的色彩增強能力。
具體而言:基于一維查找表的方法缺失了交互不同顏色分量信息這一重要的建模能力;而三維查找表盡管具備同時建模兩類變換的能力,但在深度學習數據驅動的訓練范式下,三維查找表需要依賴較大的參數量規模以提高其對不同圖像復雜多變的顏色分布的適應能力。現有工作大多采用33點甚至64點的三維查找表,而ISP設備中三維查找表的典型設置是17點甚至9點。大規模的三維查找表會造成較大的內存、儲存開銷和較高的模型訓練難度。
例如,當面對欠曝和過曝這兩種極端的具有“窄帶”顏色分布的待處理圖像時,如果模型缺乏類似典型ISP中必要的前置變換來將輸入圖像的顏色分布伸縮至一個感知均勻的顏色空間的話,相同的三維晶格需要對自己棱角處的色彩變換進行劇烈的調整以適應輸入圖像的顏色分布。這在大規模數據驅動的神經網絡訓練范式下會導致學習的不穩定。
方法介紹
? 核心思路
解決上述問題的思路是簡單而直觀的,我們提出基于可分離級聯查找表的自適應色彩增強方法,即Separable Lookup Tables (SepLUT)。具體而言,我們遵循本文背景小節所闡述的概念以及典型ISP流程中分治的基本設計思想,將一個完備的顏色變換函數分解為級聯的顏色分量獨立和顏色分量相關的兩種子變換,并分別使用一維和三維查找表來實例化它們。可分離的命名受啟發于通用卷積網絡中將單個大尺度卷積層分解成多個小尺度卷積的思路。
兩種類型的查找表可以相輔相成——其中,三維查找表可以有效補充前置一維查找表在顏色分量混合上的建模能力缺陷,而一維查找表則可以自適應地對輸入圖像的顏色分布進行預調整,使得后置的三維查找表可以被更加充分的利用,從而使小規模三維查找表的使用成為可能,減少模型整體的參數和計算復雜度,降低模型訓練難度。
? 具體框架
所提方法的整體模型框架如下圖所示。我們以待增強的圖像作為模型輸入,使用一個輕量的直筒型卷積網絡在輸入圖像的下采樣低分辨率版本上進行圖像理解,提取圖像的全局特征(如亮度、對比度等信息),并將全局特征饋入后續的雙分支全連接層結構,用于預測圖像自適應的一維和三維查找表。所得的查找表以級聯的形式對原始圖像進行色彩變換,得到經過顏色增強的高質圖像。最終,輸出圖像與經過人為美化的目標圖像計算MSE重建損失,并通過梯度反向傳播機制對網絡參數進行更新,從而實現整個方法框架的端到端學習。
? 量化優化
我們方法中一維和三維查找表元素的生成是通過全連接層進行的。由于全連接層的本質是矩陣乘法,基于全連接層的查找表元素預測實際上可以等價于在全連接層中編碼若干可學習的Basis LUTs,全連接層的輸入則可以類比為用于線性組合這些Basis LUTs的自適應加權系數。注意到在所提框架中,模型最終輸出圖像上各個像素的值實質上也是所得查找表中元素的線性組合。
因此,我們方法中全連接層的可學習參數實質上是與模型的最終輸出同空間、語義一致的,都屬于顏色空間。由于在數字圖像處理領域顏色空間是天然需要量化,因此,我們的方法還可以通過參數量化和浮點計算定點化技術進一步降低模型內存/儲存開銷和計算加速。相比于模型壓縮領域的其它參數量化技術,我們的方法可以在訓練完畢的測試階段直接進行參數量化而不會引起顯著的性能下降,這得益于模型參數空間和最終輸出空間之間的語義一致性。
實驗結果
我們設計了一系列的消融實驗分析所提方法中部分關鍵設計細節的有效性。針對一維查找表,考慮到我們工作動機中對其顏色分量獨立變換和顏色分布伸縮變換能力的期待,我們比較了一維查找表和經典灰度分布變換算法——直方圖均衡化(Histogram Equalization,HE)的優劣。
下表結果可以看出,HE基于最大熵理論的分布均衡化機制并不能很好地適應不同的圖像內容和不同的目標美化風格。而可學習的一維查找表可以通過端到端數據驅動的學習來取得更優的圖像自適應的顏色分布調整策略。
我們還通過將網絡對不同輸入圖像生成的1D和3D LUTs進行可視化,來直觀地對網絡行為進行分析。如下圖所示,模型針對不同輸入圖像預測的一維查找表傾向于對輸入圖像的顏色分布進行預調整,使其“對齊”于目標增強圖像的顏色分布(一維查找表輸出圖像的顏色分布直方圖已經比較接近GroundTruth圖像的直方圖)。
后續三維查找表的變換則更多對圖像的色相、飽和度進行調整(如第二行圖像中天空區域前后的顏色變化)。這一觀察驗證了我們工作動機中分治的基本設計思想。
我們也驗證了推理階段的直接參數量化和浮點計算定點化對所提方法性能的影響。由下表結果可以看出,得益于參數空間和輸出空間之間的語義一致性,直接的量化處理在可以顯著減少模型參數量和提高推理速度的同時,并不會引起圖像增強質量的劇烈變化。
在公開的圖像增強/美化基準數據集FiveK上,所提方法以總體較低的參數量和實時推理時間在增強圖像的客觀評價指標上超過了現有方法,達到了先進性能。
總結
在如今基于深度學習的計算機視覺領域追求單一模型、統一變換的大趨勢下,本文另辟蹊徑,重新轉向傳統方法中經典的分治思想。我們設計實現了基于圖像自適應可分離級聯查找表的實時顏色增強方法,利用不同類型的查找表來分別處理一個復雜顏色變換中不同類型的子變換。所提方法的可行揭示了分治的基本設計思想在減少模型復雜度、降低模型訓練難度、提高模型整體性能和效率等方面的潛力。我們相信這種基本思想并不局限于顏色增強和查找表方法,也有望在其它領域和場景下獲得應用。
團隊介紹
該工作主要在大淘寶技術中支持內容業務的音視頻算法與基礎技術團隊的帶領下完成,該團隊依托淘寶直播、逛逛和點淘等內容業務,致力于打造行業領先的音視頻技術。團隊成員來自海內外知名高校,先后在MSU世界編碼器大賽,NTIRE視頻圖像增強領域這樣的領域強相關權威賽事上奪魁,并重視與學界的合作與交流。
這項工作的主要合作方為上海交通大學張文軍教授領銜的圖像所團隊,是數字電視廣播及數字媒體處理與傳輸領域的主要研究力量之一。面向國家戰略性新興產業,順應網絡化、融合化的發展趨勢,近年來開展的重點研究領域包括智能媒體融合網絡、視頻智能分析處理與傳輸等。徐奕副教授為團隊視頻處理分析方向的骨干教師。