兩張圖2秒鐘3D重建！這款A(yù)I工具火爆GitHub，網(wǎng)友：忘掉Sora

作者：量子位 2024-03-04 13:20:00

人工智能新聞

在本文研究中，作者團隊引入的DUSt3R則完全采用了截然不同的方法。它不需要任何相機校準(zhǔn)或視點姿勢的先驗信息，就可完成任意圖像的密集或無約束3D重建。

只需2張圖片，無需測量任何額外數(shù)據(jù)——

當(dāng)當(dāng)，一個完整的3D小熊就有了：

這個名為DUSt3R的新工具，火得一塌糊涂，才上線沒多久就登上GitHub熱榜第二。

有網(wǎng)友實測，拍兩張照片，真的就重建出了他家的廚房，整個過程耗時不到2秒鐘！

（除了3D圖，深度圖、置信度圖和點云圖它都能一并給出）

驚得這位朋友直呼：

大伙先忘掉sora吧，這才是我們真正看得見摸得著的東西。

實驗顯示，DUSt3R在單目/多視圖深度估計以及相對位姿估計三個任務(wù)上，均取得SOTA。

作者團隊（來自芬蘭阿爾托大學(xué)+NAVER LABS人工智能研究所歐洲分所）的“宣語”也是氣勢滿滿：

我們就是要讓天下沒有難搞的3D視覺任務(wù)。

所以，它是如何做到？

“all-in-one”

對于多視圖立體重建（MVS）任務(wù)來說，第一步就是估計相機參數(shù)，包括內(nèi)外參。

這個操作很枯燥也很麻煩，但對于后續(xù)在三維空間中進(jìn)行三角測量的像素不可或缺，而這又是幾乎所有性能比較好的MVS算法都離不開的一環(huán)。

在本文研究中，作者團隊引入的DUSt3R則完全采用了截然不同的方法。

它不需要任何相機校準(zhǔn)或視點姿勢的先驗信息，就可完成任意圖像的密集或無約束3D重建。

在此，團隊將成對重建問題表述為點圖回歸，統(tǒng)一單目和雙目重建情況。

在提供超過兩張輸入圖像的情況下，通過一種簡單而有效的全局對準(zhǔn)策略，將所有成對的點圖表示為一個共同的參考框架。

如下圖所示，給定一組具有未知相機姿態(tài)和內(nèi)在特征的照片，DUSt3R輸出對應(yīng)的一組點圖，從中我們就可以直接恢復(fù)各種通常難以同時估計的幾何量，如相機參數(shù)、像素對應(yīng)關(guān)系、深度圖，以及完全一致的3D重建效果。

（作者提示，DUSt3R也適用于單張輸入圖像）

具體網(wǎng)絡(luò)架構(gòu)方面，DUSt3R基于的是標(biāo)準(zhǔn)Transformer編碼器和解碼器，受到了CroCo（通過跨視圖完成3D視覺任務(wù)的自我監(jiān)督預(yù)訓(xùn)練的一個研究）的啟發(fā)，并采用簡單的回歸損失訓(xùn)練完成。

如下圖所示，場景的兩個視圖（I1，I2）首先用共享的ViT編碼器以連體（Siamese）方式進(jìn)行編碼。

所得到的token表示（F¹和F²）隨后被傳遞到兩個Transformer解碼器，后者通過交叉注意力不斷地交換信息。