在本文中,提出了一種用單眼強度圖像進行面部深度圖估計的對抗架構。 通過遵循圖像到圖像的方法,我們結合了監督學習和對抗訓練的優勢,提出了一個有條件的生成對抗網絡,有效地學習將強度人臉圖像轉換為相應的深度圖。 兩個公共數據集,即Biwi數據庫和Pandora數據集,被用來證明所提出的模型生成高質量的合成深度圖像,無論是在視覺外觀和信息內容方面。 此外,我們證明該模型能夠通過深度模型測試生成的深度圖來預測獨特的面部細節,深度模型是在真實的深度圖上進行面部驗證任務的訓練。
人工智能利用單眼強度圖像進行面部深度圖估計的對抗架構簡介:深度估計是一項任務,在這個任務中,由于存在兩個高質量的立體相機(即人眼)和一個特殊的學習工具(即人類大腦),人類會自然而然地獲益。什么讓人類在評估單個單眼圖像的深度方面如此卓越以及這種學習過程如何發生?一個假設是,我們通過過去的視覺經驗來開發教師來估計世界的三維結構,這包括與觸覺刺激(對于小物體)和運動(對于更寬的空間)相關的大量觀察結果)[43]。這個過程允許人類開發推測他們所看到的物體和場景的結構模型的能力,甚至可以從單眼圖像中推斷出來。
盡管深度估計是一種自然的人類大腦活動,但由于不同的三維地圖可能會生成相同的二維圖像,因此該任務在計算機視圖環境中是一個不適合的問題。此外,由于屬于強度圖像和深度圖的極其不同的信息來源,紋理和形狀數據分別在這兩個域之間進行翻譯是非常困難的。傳統上,計算機視覺界廣泛地以不同的方式解決了深度估計問題,如立體相機[16,40],運動結構[4,6],以及來自陰影和光擴散的深度[35,37]。所提及的方法遭受不同的問題,如深度均勻性和缺失值(導致深度圖像中的空洞)。其他具有挑戰性的元素與攝像機校準,設置和后處理步驟相關,這些步驟可能會耗費大量時間和計算成本。最近,由于深度神經網絡的進步,研究團隊已經從強度圖像中研究了單一深度估計任務,以克服以前報告的問題。
人工智能利用單眼強度圖像進行面部深度圖估計的對抗架構貢獻:本文提出了一個從人臉單眼強度圖像生成深度圖的框架。采用對抗方法[12,28]來有效地訓練完全卷積自動編碼器,該編碼器能夠根據相應的灰度級圖像估計面部深度圖。為了訓練和測試所提出的方法,利用由大量成對深度和強度圖像組成的兩個公共數據集,即Pandora [3]和Biwi Kinect Head Pose [9]數據集。就我們所知,這是通過與全球深度場景估計不同的對抗性方法來嘗試解決這一任務的最初嘗試之一,它涉及小尺寸物體和充滿細節的人臉:人臉。***,我們研究如何有效地衡量系統的性能,引入各種按像素指標。此外,我們引入了一個人臉驗證模型,對原始人臉深度圖像進行訓練,以檢查生成的圖像是否保持原始人物的面部特征,不僅在人類視覺檢查時,而且在深度卷積網絡處理時。
人工智能利用單眼強度圖像進行面部深度圖估計的對抗架構深度學習結構:在本節中,我們提出了用于人臉強度圖像深度估計的模型,詳細描述了cGAN體系結構,其訓練過程和采用的預處理人臉裁剪算法(第3.2節)。 該模型的實施遵循[12]中提出的指導方針。在Goodfellow等人的工作之后。 [12]和米爾扎等人。 [28],所提出的體系結構由一個生成網絡tt和一個判別網絡d tt對應于一個估計函數,該函數預測給定人臉灰度圖像強度的深度圖Igen = tt(Igray) 圖像作為輸入并估計相應的深度圖。(目標韓函數包含對抗損失和mse損失)。