DragGAN第一作者Xingang Pan,正式加入南洋理工,出任助理教授!
還記得前一陣子爆火的DragGAN嗎?
沒錯,就是那個拖一拖,拽一拽,就能實現(xiàn)完美P圖的模型。
因為其「傻瓜式」的操作,和強大的性能,直接炸翻了作圖圈。
人們直言,現(xiàn)在終于能實現(xiàn)甲方「讓大象轉(zhuǎn)過來」的需求了!
而現(xiàn)在,論文的第一作者Xingang Pan也正式成為了南洋理工助理教授。
第一作者——Xingang Pan
消息一出來,業(yè)內(nèi)人士也是第一時間送上了祝賀。
在Pan教授的GitHub主頁上,他的個人職務(wù)已經(jīng)更新完畢。
在成為南洋理工大學(xué)的助理教授之前,他是馬克斯·普朗克計算機科學(xué)研究所的博士后研究員,由Christian Theobalt教授指導(dǎo)。
在此之前,他于2016年在清華大學(xué)獲得學(xué)士學(xué)位,并2021年在香港中文大學(xué)多媒體實驗室獲得博士學(xué)位,導(dǎo)師是湯曉鷗教授。
他的研究興趣在計算機視覺、機器學(xué)習(xí)和計算機圖形學(xué)的交叉領(lǐng)域。
目前,他的研究方向主要集中在生成式AI模型、AI與人類協(xié)同內(nèi)容生成、3D/視頻編輯和生成、神經(jīng)場景表示和渲染,以及物理感知內(nèi)容生成。
目前,Pan教授開始在推特上進(jìn)行「招生」宣傳,表示任何對生成式AI感興趣,想繼續(xù)跟進(jìn)DragGAN的研究者都可以來。
一月學(xué)期申請的DDL是7月31日,而七月學(xué)期申請的DDL是1月31日。
南洋理工大學(xué)的官網(wǎng)上也是給出了申請指南。
包含具體的要求、學(xué)制,以及申請費。
要知道,南洋理工大學(xué)(新加坡)是很多人心中的科研圣地。
作為一所科研密集型大學(xué),在2023年的QS排名中,全球排名第19,亞洲排名第4。
2022年的U.S.News世界大學(xué)排名中,全球排名第33,亞洲排名第3。
DragGAN?拽完就干完了!
DragGAN之所以厲害,是因為研究團(tuán)隊?wèi)?yīng)用了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點精確「拖動」至目標(biāo)點。
DragGAN主要包括以下兩個主要組成部分:
- 基于特征的運動監(jiān)控,驅(qū)動操作點向目標(biāo)位置移動
- 一個新的點跟蹤方法,利用區(qū)分性的GAN特征持續(xù)定位操作點的位置
通過DragGAN,任何人都可以對像素進(jìn)行精確的控制,進(jìn)而編輯如動物、汽車、人類、風(fēng)景等多種類別的姿態(tài)、形狀、表情和布局。
由于這些操作在GAN的學(xué)習(xí)生成圖像流形上進(jìn)行,因此它們傾向于生成逼真的輸出,即使在富有挑戰(zhàn)性的場景下也是如此,例如被遮擋的內(nèi)容和變形的圖像。
定性和定量的對比表明,DragGAN在圖像操作和點跟蹤任務(wù)中,都明顯優(yōu)于先前的方法。
在DragGAN的加持下,用戶只需要設(shè)置幾個操作點(紅點),目標(biāo)點(藍(lán)點),以及可選的表示可移動區(qū)域的mask(亮區(qū))。然后,模型就會自動完成后續(xù)的圖像生成,
其中,動態(tài)監(jiān)控步驟會讓操作點(紅點)向目標(biāo)點(藍(lán)點)移動,點追蹤步驟則通過更新操作點來追蹤圖像中的對象。此過程會一直持續(xù),直到操作點達(dá)到其相應(yīng)的目標(biāo)點。
具體來說,團(tuán)隊通過在生成器的特征圖上的位移修補損失來實現(xiàn)動態(tài)監(jiān)控,并在相同的特征空間中通過最近鄰搜索進(jìn)行點追蹤。
值得注意的是,用戶可以通過添加mask的方式,來控制需要編輯的區(qū)域。
可以看到,當(dāng)狗的頭部被mask時,在編輯后的圖像中,只有頭部發(fā)生了移動,而其他區(qū)域則并未發(fā)生變化。但如果沒有mask的話,整個狗的身體也會跟著移動。
這也顯示出,基于點的操作通常有多種可能的解決方案,而GAN會傾向于在其從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的圖像流形中找到最近的解決方案。
因此,mask功能可以幫助減少歧義并保持某些區(qū)域固定。
在真實圖像的編輯中,團(tuán)隊?wèi)?yīng)用GAN反轉(zhuǎn)將其映射到StyleGAN的潛在空間,然后分別編輯姿勢、頭發(fā)、形狀和表情。
到目前為止,團(tuán)隊展示的都是基于「分布內(nèi)」的編輯,也就是使用訓(xùn)練數(shù)據(jù)集內(nèi)的圖像來實現(xiàn)編輯。
但DragGAN實際上具有強大的泛化能力,可以創(chuàng)建出超出訓(xùn)練圖像分布的圖像。比如,一個張得巨大的嘴,以及一個被極限放大的車輪。
在某些情況下,用戶可能希望始終保持圖像在訓(xùn)練分布中,并防止這種超出分布的情況發(fā)生。實現(xiàn)這一目標(biāo)的方法可以是對潛在代碼??添加額外的正則化,但這并不是本文討論的重點。
首先,與UserControllableLT相比,DragGAN能夠編輯從輸入圖像中檢測到的特征點,并使其與從目標(biāo)圖像中檢測到的特征點相匹配,而且誤差很小。
從下圖中可以看出,DragGAN正確地張開了照片中人物的嘴,并調(diào)整了下巴的形狀來匹配目標(biāo)的臉型,而UserControllableLT未能做到這一點。
在DragGAN與RAFT、PIPs和無追蹤的定性比較中,可以看得,DragGAN可以比基線更準(zhǔn)確地跟蹤操作點,進(jìn)而能夠產(chǎn)生更精確的編輯。
而在移動操作點(紅點)到目標(biāo)點(藍(lán)點)的任務(wù)上,定性比較的結(jié)果顯示,DragGAN在各種數(shù)據(jù)集上都取得了比UserControllableLT更加自然和優(yōu)秀的效果。
如表1所示,在不同的點數(shù)下,DragGAN都明顯優(yōu)于UserControllableLT。而且根據(jù)FID的得分,DragGAN還保留了更好的圖像質(zhì)量。
由于具有更強的跟蹤能力,DragGAN還實現(xiàn)了比RAFT和PIPs更精確的操縱。正如FID分?jǐn)?shù)所顯示的,如果跟蹤不準(zhǔn)確的話,很可能會造成編輯過度,從而降低圖像質(zhì)量。
雖然UserControllableLT的速度更快,但DragGAN在很大程度上提升了這項任務(wù)的上限,在保持相對較快的運行時間的同時,實現(xiàn)了更靠譜的編輯。