有望取代Deepfake?揭秘今年最火的NeRF技術有多牛
什么,你還不知道NeRF?
作為今年計算機視覺領域最火的AI技術,NeRF可謂是應用廣泛,前景一片大好。
B站上的小伙伴可算是把這項技術玩出了新花樣。
拋磚引玉
那么,究竟NeRF是什么?
NeRF(Neural Radiance Fields)是最早在2020年ECCV會議上的最佳論文中提出的概念,其將隱式表達推上了一個新的高度,僅用2D的posed images作為監督,即可表示復雜的三維場景。
一石激起千層浪,自此之后NeRF迅速發展起來被應用到多個技術方向,如「新視點合成、三維重建」等。
NeRF其輸入稀疏的多角度帶pose的圖像訓練得到一個神經輻射場模型,根據這個模型可以渲染出任意視角下的清晰的照片,如下圖所示。也可以簡要概括為用一個MLP去隱式地學習一個三維場景。
網友自然而然地也會將NeRF與同樣大受追捧的Deepfake做個比較。
最近MetaPhysics發布的一篇文章就盤點了NeRF的進化史、面臨的挑戰和優勢,并預測NeRF最終將取代Deepfake。
大部分有關deepfake技術引人注目的話題,是指自17年deepfakes進入大眾視野后開始流行的兩個開源軟件包:DeepFaceLab (DFL) 和FaceSwap。
盡管這兩個軟件包都擁有廣泛的用戶群和活躍的開發者社區,但這兩個項目與GitHub代碼都沒有明顯的偏離。
當然,DFL和FaceSwap的開發人員并沒有閑著:現在可以使用更大的輸入圖像來訓練deepfake模型,盡管這需要更昂貴的GPU。
但其實在過去的三年里,媒體鼓吹的deepfake圖像質量提升主要還是得歸功于終端用戶。
他們在數據收集方面積累了「省時而難得」的經驗,以及訓練模型的最佳方法(有時單次實驗就需要幾周時間),并且學會如何利用和擴展原始2017代碼的最外層限制。
VFX和ML研究社區中的一些人正試圖通過擴展架構來突破流行的deepfake包的「硬限制」,以便機器學習模型可以在高達1024×1024的圖像上進行訓練。
其像素是DeepFaceLab或FaceSwap當前實際范圍的兩倍,更接近于電影和電視制作中有用的分辨率。
接下來讓我們一起了解一下NeRF吧~
揭開面紗
NeRF(Neural Radiance Fields),它出現于2020年,是一種通過在神經網絡內拼接多個視點照片實現重建物體和環境的方法。
它通過使用稀疏的輸入視圖集優化底層連續的體積場景函數,實現了綜合復雜場景視圖的最好結果。
該算法還使用全連接深度網絡表示一個場景,其輸入是單個連續的5D坐標(空間位置(x, y, z)和觀看方向(θ, φ)),其輸出是該空間位置的體積密度和相關的發射幅亮度。
通過沿著相機光線查詢5D坐標來合成視圖,并使用經典的體繪制技術(volume rendering)將輸出的顏色和密度投影到圖像中。
實現過程:
首先將一個連續的場景表示為一個5D向量值函數,其輸入是一個3D位置和2D觀看方向,對應的輸出是一個發射顏色c和體積密度σ。
在實踐中,采用3D笛卡爾單位向量d表示方向。利用用MLP網絡近似這個連續的5D場景表示,并優化其權重。
此外,通過限制網絡來預測體積密度σ作為位置x的函數,同時還允許RGB顏色c作為位置和觀看方向的函數進行預測,從而鼓勵表示多視圖一致。
為了實現這一點,MLP首先處理輸入的具有8個全連接層的3D坐標x(使用ReLU激活和每層256個通道),并輸出σ和256維特征向量。
這個特征向量隨后與相機射線的觀看方向連接,并傳遞給一個額外的全連接層,輸出與視圖相關的RGB顏色。
此外,NeRF還引入了兩個改進來實現高分辨率復雜場景的表示。第一個是位置編碼,以幫助MLP表示高頻函數,第二個是分層抽樣過程,使其能夠有效地對高頻表示進行抽樣。
眾所周知,Transformer架構中的位置編碼可以提供序列中標記的離散位置,作為整個架構的輸入。而NeRF使用位置編碼是將連續的輸入坐標映射到更高的維度空間,使MLP更容易逼近更高頻率的函數。
從圖中可以觀察到,去除位置編碼會大大降低模型表示高頻幾何和紋理的能力,最終導致外觀過度平滑。
由于沿著每條相機射線在N個查詢點密集評估神經輻射場網絡的渲染策略十分低效,所以NeRF最后采用了一種分層表示,通過按最終渲染的預期效果比例分配樣本來提高渲染效率。
簡而言之,NeRF不再只使用一個網絡來表示場景,而是同時優化兩個網絡,一個「粗粒度」網絡和一個「細粒度」網絡。
未來可期
NeRF解決了過去的不足,即使用MLP將對象和場景表示為連續函數。相比于過往的方法,NeRF可以產生更好的渲染效果。
但是,NeRF同樣也面臨許多技術瓶頸,比如NeRF的加速器會犧牲其他相對有用的功能(比如靈活性),以實現低延遲、更多交互環境以及較少訓練時間的目的。
所以,NeRF雖是一個關鍵性的突破,但是想要達到完美的效果,還是需要一定的時間。
技術在進步,未來依舊可期!?