ICLR 驚現(xiàn)[10,10,10,10]滿分論文,ControlNet 作者新作,Github 5.8k 顆星
四個(gè) 10 分!罕見(jiàn)的一幕出現(xiàn)了。
您正在收看的,不是中國(guó)夢(mèng)之隊(duì)的跳水比賽,而是 ICLR 2025 的評(píng)審現(xiàn)場(chǎng)。
雖說(shuō)滿分論文不是前無(wú)古人,后無(wú)來(lái)者,但放在平均分才 4.76 的 ICLR,怎么不算是相當(dāng)炸裂的存在呢。
https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/
這篇征服了列位審稿人的論文,正是 ControlNet 作者張呂敏的新作 IC-Light。我們很少看到一篇論文,能夠讓四位審稿人給出高度一致的「Rating: 10: strong accept, should be highlighted at the conference」。
早在向 ICLR 投稿之前,IC-Light 就已經(jīng)在 Github 上開(kāi)源半年了,收獲了 5.8k 的星標(biāo),足見(jiàn)其效果之優(yōu)秀。
最初版本是基于 SD 1.5 和 SDXL 實(shí)現(xiàn)的,而就在前幾天,團(tuán)隊(duì)又推出了 V2 版本,適配了 Flux,效果也更上一層樓。
感興趣的朋友們,可以直接試玩。
- Github 項(xiàng)目:https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
- V2 版本:https://github.com/lllyasviel/IC-Light/discussions/98
- 試玩鏈接:https://huggingface.co/spaces/lllyasviel/IC-Light
IC-Light 是一個(gè)基于擴(kuò)散模型的照明編輯模型,可以通過(guò)文本精準(zhǔn)控制圖像的光照效果。
也就是說(shuō),要放在 PS 里打開(kāi)蒙版、打開(kāi) alpha 通道,調(diào)試明暗分離才能搞定的光影效果,用上 IC-Light,就變成了「動(dòng)動(dòng)嘴皮子的事」。
輸入 prompt,要讓光從窗戶里打進(jìn)來(lái),于是就能看到陽(yáng)光透過(guò)雨后的窗戶,在人物側(cè)臉打出柔和的輪廓光。
IC-Light 不僅精準(zhǔn)地還原了光線的方向,還精準(zhǔn)地呈現(xiàn)了光透過(guò)玻璃的漫射效果。
對(duì)霓虹燈這樣的人工光源,IC-Light 的效果同樣出色。
根據(jù)提示詞,原本在教室里的場(chǎng)景立馬爆改賽博朋克風(fēng)格:霓虹燈的紅藍(lán)雙色打在人物身上,營(yíng)造出深夜都市特有的科技感和未來(lái)感。
模型不僅準(zhǔn)確還原了霓虹燈的色彩滲透效果,還保持了人物的一致性。
IC-Light 還支持上傳背景圖片,來(lái)改變?cè)瓐D的光照。
而說(shuō)到 ControlNet,大家應(yīng)該都不陌生,它可是解決了 AI 繪畫(huà)界一個(gè)老大難問(wèn)題。
Github 項(xiàng)目:https://github.com/lllyasviel/ControlNet
之前,Stable Diffusion 最讓人頭疼的就是無(wú)法精確控制圖像細(xì)節(jié)。不管是構(gòu)圖、動(dòng)作、面部特征還是空間關(guān)系,即便提示詞已經(jīng)做了很詳細(xì)的規(guī)定,但 SD 生成的結(jié)果,依然要堅(jiān)持 AI 獨(dú)特的想法。
但 ControlNet 的出現(xiàn)就好像是給 SD 裝上了「方向盤(pán)」,許多商業(yè)化的工作流也因此催生。
學(xué)術(shù)應(yīng)用兩開(kāi)花,ControlNet 在 ICCV 2023 摘下了馬爾獎(jiǎng)(最佳論文獎(jiǎng))的桂冠。
雖然很多業(yè)內(nèi)人士表示在卷得飛起的圖片生成領(lǐng)域,真正的突破越來(lái)越難。但張呂敏似乎總能另辟蹊徑,每次出手都能精準(zhǔn)命中用戶需求。這一次也不例外。
在現(xiàn)實(shí)世界中,光照和物體表面的材質(zhì)是緊密關(guān)聯(lián)的。比如你看到一個(gè)物體時(shí),很難分清楚是光線還是材質(zhì),讓物體呈現(xiàn)出是我們眼中樣子。因此,在讓 AI 編輯光線時(shí),也很難做到不改變物體本身的材質(zhì)。
以前的研究想通過(guò)構(gòu)建特定的數(shù)據(jù)集來(lái)解決這個(gè)問(wèn)題,但收效甚微。而 IC-Light 的作者發(fā)現(xiàn)用 AI 合成生成的數(shù)據(jù)加上一些人工處理,能達(dá)到不錯(cuò)的效果。這個(gè)發(fā)現(xiàn)對(duì)整個(gè)研究領(lǐng)域都有啟發(fā)意義。
ICLR 2025 剛放榜之時(shí),IC-Light 就憑借「10-10-8-8」穩(wěn)坐最高分論文的寶座。
審稿人們?cè)趯徃逡庖?jiàn)里也不乏贊美之詞:
「這是一篇精彩論文的典范!」
「我認(rèn)為所提出的方法和由此產(chǎn)生的工具將立即對(duì)許多用戶有用!」
在 rebuttal 結(jié)束,補(bǔ)了一些參考文獻(xiàn)和實(shí)驗(yàn)之后。那兩位給 8 分的審稿人也欣然改成了滿分。
下面,就讓我們一起來(lái)看看滿分論文具體都寫(xiě)了什么。
研究細(xì)節(jié)
- 論文標(biāo)題:Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport
- 論文鏈接:https://openreview.net/pdf?id=u1cQYxRI1H
在這篇論文中,研究者根據(jù)光傳輸獨(dú)立性的物理原理,提出了在訓(xùn)練過(guò)程中強(qiáng)加一致光(IC-Light)傳輸?shù)姆椒ǎ湮锢碓硎牵翰煌庹諚l件下物體外觀的線性混合與混合光照下的外觀一致。
如圖 2 所示,研究者利用多種可用數(shù)據(jù)源對(duì)照明效果的分布進(jìn)行建模:任意圖像、3D 數(shù)據(jù)和燈光舞臺(tái)圖像。這些分布可以捕捉現(xiàn)實(shí)世界中各種復(fù)雜的照明場(chǎng)景,背光、邊緣光、輝光等。為簡(jiǎn)單起見(jiàn),此處將所有數(shù)據(jù)處理為通用格式。
但學(xué)習(xí)大規(guī)模、復(fù)雜和嘈雜的數(shù)據(jù)是一項(xiàng)挑戰(zhàn)。如果沒(méi)有合適的正則化和約束條件,模型很容易退化為與預(yù)期光照編輯不符的隨機(jī)行為。研究者給出的解決方案是在訓(xùn)練過(guò)程中植入一致光(IC-Light)傳輸。
通過(guò)施加這種一致性,研究者引入了一個(gè)強(qiáng)大的、以物理為基礎(chǔ)的約束條件,確保模型只修改圖像的光照方面,同時(shí)保留反照率和精細(xì)圖像細(xì)節(jié)等其他固有屬性。這種方法可以在 1000 多萬(wàn)個(gè)不同樣本上進(jìn)行穩(wěn)定、可擴(kuò)展的訓(xùn)練,樣本包括來(lái)自光照舞臺(tái)的真實(shí)照片、渲染圖像以及帶有合成光照增強(qiáng)的野外圖像。本文提出的方法能夠提高光照編輯的精度,降低不確定性,減少偽影,同時(shí)不改變基本的外觀細(xì)節(jié)。
總體來(lái)說(shuō),這篇論文的貢獻(xiàn)主要包括:
(1) 提出了 IC-Light,一種通過(guò)施加一致光傳輸來(lái)擴(kuò)展基于擴(kuò)散的光照編輯模型訓(xùn)練的方法,確保在保留內(nèi)在圖像細(xì)節(jié)的同時(shí)進(jìn)行精確的光照修改;
(2) 提供了預(yù)訓(xùn)練的光照編輯模型,以促進(jìn)不同領(lǐng)域內(nèi)容創(chuàng)建和處理中的光照編輯應(yīng)用;
(3) 通過(guò)大量實(shí)驗(yàn)驗(yàn)證了這種方法的可擴(kuò)展性和性能,顯示了它在處理各種光照條件時(shí)與其他方法的不同之處;
(4) 介紹了其他應(yīng)用,如法線貼圖生成和藝術(shù)照明處理,進(jìn)一步展示了該方法在真實(shí)世界、實(shí)際場(chǎng)景中的多功能性和魯棒性。
實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,研究者驗(yàn)證了擴(kuò)大訓(xùn)練規(guī)模和數(shù)據(jù)源多樣化可以增強(qiáng)模型的魯棒性,并能提高各種與光照相關(guān)的下游任務(wù)的性能。
消融實(shí)驗(yàn)證明,在訓(xùn)練過(guò)程中應(yīng)用 IC-Light 方法可以提高光照編輯的準(zhǔn)確性,從而保留反照率和圖像細(xì)節(jié)等內(nèi)在屬性。
此外,與在更小或更結(jié)構(gòu)化的數(shù)據(jù)集上訓(xùn)練的其他模型相比,本文方法適用于更廣泛的光照分布,如邊緣照明、背光照明、魔法發(fā)光、日落光暈等。
研究者還展示了該方法處理更多野外照明場(chǎng)景的能力,包括藝術(shù)照明和合成照明效果。此外還探討了生成法線貼圖等更多應(yīng)用,并討論了這種方法與典型主流幾何估計(jì)模型之間的差異。
消融實(shí)驗(yàn)
研究者首先恢復(fù)了訓(xùn)練中的模型,但刪除了野外圖像增強(qiáng)數(shù)據(jù)。如圖 4 所示,移除野外數(shù)據(jù)嚴(yán)重影響了模型的泛化能力,尤其是對(duì)于肖像等復(fù)雜圖像。例如,訓(xùn)練數(shù)據(jù)中不存在的肖像中的帽子經(jīng)常會(huì)以不正確的顏色呈現(xiàn)(如從黃色變?yōu)楹谏?/span>
研究者還嘗試了移除光傳輸一致性。沒(méi)有了這一限制,模型生成一致光照和保留反照率(反射顏色)等固有屬性的能力明顯下降。例如,一些圖像中的紅色和藍(lán)色差異消失了,輸出結(jié)果中也出現(xiàn)了明顯的色彩飽和度問(wèn)題。
而完整的方法結(jié)合了多種數(shù)據(jù)源,并加強(qiáng)了光傳輸?shù)囊恢滦裕a(chǎn)生了一個(gè)能夠在各種情況下通用的均衡模型。它還保留了細(xì)粒度圖像細(xì)節(jié)和反照率等固有屬性,同時(shí)減少了輸出圖像的誤差。
其他應(yīng)用
如圖 5 所示,研究者還展示了其他應(yīng)用,例如利用背景條件進(jìn)行光照協(xié)調(diào)。通過(guò)對(duì)背景條件的額外通道進(jìn)行訓(xùn)練,本文的模型可以完全根據(jù)背景圖像生成照明,而無(wú)需依賴環(huán)境映射。此外,模型還支持不同的基礎(chǔ)模型,比如 SD1.5、SDXL 和 Flux,這些模型的功能在生成的結(jié)果中都有所體現(xiàn)。
定量評(píng)估
在定量評(píng)估中,研究者使用了峰值信噪比(PSNR)、結(jié)構(gòu)相似性指數(shù)(SSIM)和學(xué)習(xí)感知圖像補(bǔ)丁相似性(LPIPS)等指標(biāo)。并從數(shù)據(jù)集中提取了 50000 個(gè)未見(jiàn)過(guò)的 3D 渲染數(shù)據(jù)樣本子集進(jìn)行評(píng)估,確保模型在訓(xùn)練過(guò)程中沒(méi)有遇到過(guò)這些樣本。
測(cè)試的方法有 SwitchLight、DiLightNet,以及本文方法不包含某些組件(例如,不包含光傳輸一致性、不包含增強(qiáng)數(shù)據(jù)、不包含三維數(shù)據(jù)和不包含燈光舞臺(tái)數(shù)據(jù))的變體。
如表 1 所示,就 LPIPS 而言,本文方法優(yōu)于其他方法,表明其具有卓越的感知質(zhì)量。僅在三維數(shù)據(jù)上訓(xùn)練的模型獲得了最高的 PSNR,這可能是由于對(duì)渲染數(shù)據(jù)的評(píng)估偏差所致(因?yàn)楸敬螠y(cè)試僅使用了三維渲染數(shù)據(jù))。結(jié)合多種數(shù)據(jù)源的完整方法在感知質(zhì)量和性能之間取得了平衡。
視覺(jué)對(duì)比
研究者還與之前的方法進(jìn)行了直觀比較。如圖 6 所示,與 Relightful Harmonization 相比,由于訓(xùn)練數(shù)據(jù)集更大更多樣化,本文模型對(duì)陰影的魯棒性更高。SwitchLight 和本文模型產(chǎn)生了具有競(jìng)爭(zhēng)力的重新照明結(jié)果。這種方法的法線貼圖質(zhì)量更細(xì)致一些,這要?dú)w功于從多個(gè)表象中合并和推導(dǎo)陰影的方法。此外,與 GeoWizard 和 DSINE 相比,該模型生成的人類法線貼圖質(zhì)量更高。
更多研究細(xì)節(jié),可參考原論文。