全自動組裝家具！斯坦福發(fā)布IKEA Video Manuals數(shù)據(jù)集：首次實現(xiàn)「組裝指令」真實場景4D對齊

作者：新智元 2024-12-03 10:30:00

人工智能新聞

斯坦福大學推出的IKEA Video Manuals數(shù)據(jù)集，通過4D對齊組裝視頻和說明書，為AI理解和執(zhí)行復雜空間任務提供了新的挑戰(zhàn)和研究基準，讓機器人或AR眼鏡指導家具組裝不再是夢。

隨著人工智能技術的快速發(fā)展，讓機器理解并執(zhí)行復雜的空間任務成為一個重要研究方向。

在復雜的3D結(jié)構(gòu)組裝中，理解和執(zhí)行說明書是一個多層次的挑戰(zhàn)：從高層的任務規(guī)劃，到中層的視覺對應，再到底層的動作執(zhí)行，每一步都需要精確的空間理解能力。

斯坦福Vision Lab最新推出的IKEA Video Manuals數(shù)據(jù)集，首次實現(xiàn)了組裝指令在真實場景中的4D對齊，為研究這一復雜問題提供了重要基準。

論文地址：https://arxiv.org/pdf/2411.11409

項目主頁：https://yunongliu1.github.io/ikea-video-manual/

開源代碼: https://github.com/yunongLiu1/IKEA-Manuals-at-Work

合作者指出了這項工作在空間智能研究中的重要地位：「這項工作將組裝規(guī)劃從2D推進到3D空間，通過理解底層視覺細節(jié)（如部件如何連接），解決了空間智能研究中的一個主要瓶頸。這是首個全面評估模型在真實場景中對精細3D細節(jié)理解能力的基準。」

知名科技博主、前微軟策略研究者Robert Scoble：「有了這項工作，機器人將能夠自主組裝IKEA家具，或者通過AI驅(qū)動的AR眼鏡。」

突破性的多模態(tài)對齊

組裝一件IKEA家具需要理解多種形式的指令：說明書提供了任務的整體分解和關鍵步驟；視頻展示了詳細的組裝過程；而3D模型則定義了部件之間的精確空間關系。

IKEA Video Manuals首次將這三種模態(tài)進行了細粒度的對齊：

137個手冊步驟被根據(jù)安裝視頻細分為1120個具體子步驟，捕捉了完整的組裝過程；
通過6D Pose追蹤，精確記錄每個部件的空間軌跡；
在視頻幀、家具組裝說明書和3D模型之間建立密集對應關系。

豐富的家具類型與場景

數(shù)據(jù)集涵蓋了6大類36種IKEA家具，從簡單的凳子到復雜的柜子，呈現(xiàn)了不同難度的組裝任務。每種家具都包含完整的3D模型、組裝說明書和實際組裝視頻。

這些視頻來自90多個不同的環(huán)境，包括室內(nèi)外場景、不同光照條件，真實反映了家具組裝的多樣性。

真實世界的復雜性

與在實驗室環(huán)境下采集的數(shù)據(jù)相比，來自互聯(lián)網(wǎng)的真實視頻呈現(xiàn)了更豐富的挑戰(zhàn)：

部件經(jīng)常被手或其他物體遮擋
相似部件識別（想象一下四條一模一樣的桌子腿！）
攝像機頻繁移動、變焦，帶來參數(shù)估計的困難
室內(nèi)外場景、不同光照條件下的多樣性

這些真實場景下的復雜性，讓數(shù)據(jù)集更能反映實際應用中的難點。

有趣的是，研究團隊發(fā)現(xiàn)25%的家具存在多種有效的組裝順序。比如Laiva架子就有8種不同的組裝方式！這種多樣性真實地反映了現(xiàn)實世界中組裝任務的靈活性。

系統(tǒng)的標注流程

為了獲得高質(zhì)量的標注，應對真實視頻帶來的挑戰(zhàn)，研究團隊建立了一套可靠的標注系統(tǒng)：

識別并標注相機參數(shù)變化的關鍵幀，確保片段內(nèi)的一致性
結(jié)合2D-3D對應點和RANSAC算法進行相機參數(shù)估計
通過多視角驗證和時序約束保證標注質(zhì)量

核心任務實驗評估

基于IKEA Video Manuals數(shù)據(jù)集，團隊設計了多個核心任務來評估當前AI系統(tǒng)在理解和執(zhí)行家具組裝，以及空間推理(spatial reasoning)方面的能力：

1. 在基于3D模型的分割（Segmentation）與姿態(tài)估計 (Pose Estimation)

輸入3D模型和視頻幀，要求AI完成兩個任務：準確分割出特定部件區(qū)域，并估計其在視頻中的6自由度姿態(tài)。實驗測試了最新的分割模型(CNOS, SAM-6D)和姿態(tài)估計模型(MegaPose)。

基于3D模型的分割

基于3D模型的姿態(tài)估計

分析發(fā)現(xiàn)它們在以下場景表現(xiàn)不佳：

- 遮擋問題：手部遮擋、近距離拍攝導致部分可見、遮擋引起的深度估計誤差

- 特征缺失：缺乏紋理的部件難以分割、對稱部件的方向難以判斷

- 特殊拍攝角度（如俯視）導致的尺度誤判

2. 視頻目標分割Mask Trackin

評估了SAM2和Cutie兩個最新的視頻追蹤模型。與其他基準數(shù)據(jù)集相比，它們在IKEA Video Manuals數(shù)據(jù)集上表現(xiàn)顯著下降：

? SAM2: 從其他數(shù)據(jù)集的85-90%降至73.6%

? Cutie: 從85-87%降至54.7%

主要挑戰(zhàn)包括：

- 相機運動導致目標丟失

- 難以區(qū)分外觀相似的部件（如多個相同的桌腿）

- 長時間追蹤的準確度難以保持

3. 基于視頻的形狀組裝

團隊提出了一個創(chuàng)新的組裝系統(tǒng)，包含關鍵幀檢測、部件識別、姿態(tài)估計和迭代組裝四個步驟。實驗采用兩種設置：

使用GPT-4V自動檢測關鍵幀：結(jié)果不理想，Chamfer Distance達0.55，且1/3的測試視頻未能完成組裝，反映GPT-4V對組裝關鍵時刻的識別能力有限；

使用人工標注的關鍵幀：即便如此，由于姿態(tài)估計模型的局限性，最終Chamfer Distance仍達0.33

這些實驗結(jié)果揭示了當前AI模型的兩個關鍵局限：

1、視頻理解能力不足：當前的視頻模型對時序信息的分析仍然較弱，往往停留在單幀圖像分析的層面

2、空間推理受限：在真實場景的復雜條件下（如光照變化、視角改變、部件遮擋等），現(xiàn)有模型的空間推理能力仍顯不足

未來展望

IKEA Video Manuals的推出，通過研究如何將組裝指令對齊到真實場景，為空間智能研究提供了一個重要的評估基準。

想象一下，未來你戴上AR眼鏡，就能看到IKEA家具的每個組裝步驟被清晰地投影在眼前，系統(tǒng)還能實時提醒你是否安裝正確；；或者，機器人能夠像人類一樣，僅通過觀看視頻就學會組裝復雜的家具。IKEA Video Manuals的推出讓這些設想離現(xiàn)實更近了一步。

通過提供真實場景下的多模態(tài)數(shù)據(jù)，這個數(shù)據(jù)集為空間智能研究提供了重要的評估基準。我們期待看到更多突破性的進展，讓AI系統(tǒng)真正理解和執(zhí)行復雜的空間任務。

作者介紹

第一作者劉雨濃，斯坦福大學計算機科學碩士生，隸屬于斯坦福SVL實驗室（Vision and Learning Lab），由吳佳俊教授指導。本科畢業(yè)于愛丁堡大學電子與計算機科學專業(yè)（榮譽學位）。曾在德克薩斯大學奧斯汀分校從事研究實習。目前正在尋找2025年秋季入學的博士機會。

吳佳俊，斯坦福大學助理教授，隸屬于SVL和SAIL實驗室。麻省理工博士，清華姚班本科。作為項目指導教授。

Juan Carlos Niebles，Salesforce AI Research研究主任，斯坦福大學計算機科學系兼職教授，斯坦福視覺與學習實驗室（SVL）聯(lián)合主任。在計算機視覺和機器學習領域有杰出貢獻，曾獲多項重要獎項

劉蔚宇，斯坦福大學博士后研究員，在CogAI組和SVL實驗室從事研究。專注于機器人感知、建模和交互領域，致力于開發(fā)能通過簡單語言命令完成長期任務的機器人系統(tǒng)。作為項目共同指導。

李曼玲，西北大學計算機科學系助理教授，曾為斯坦福大學博士后，現(xiàn)為斯坦福訪問學者。研究興趣集中在語言、視覺、機器人及其社會影響等交叉領域，致力于開發(fā)可信且真實的多模態(tài)系統(tǒng)。

責任編輯：張燕妮來源：新智元

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全自動組裝家具！ 斯坦福發(fā)布IKEA Video Manuals數(shù)據(jù)集：首次實現(xiàn)「組裝指令」真實場景4D對齊