成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全自動組裝家具! 斯坦福發(fā)布IKEA Video Manuals數(shù)據(jù)集:首次實現(xiàn)「組裝指令」真實場景4D對齊

人工智能 新聞
斯坦福大學推出的IKEA Video Manuals數(shù)據(jù)集,通過4D對齊組裝視頻和說明書,為AI理解和執(zhí)行復雜空間任務提供了新的挑戰(zhàn)和研究基準,讓機器人或AR眼鏡指導家具組裝不再是夢。

隨著人工智能技術的快速發(fā)展,讓機器理解并執(zhí)行復雜的空間任務成為一個重要研究方向。

在復雜的3D結(jié)構(gòu)組裝中,理解和執(zhí)行說明書是一個多層次的挑戰(zhàn):從高層的任務規(guī)劃,到中層的視覺對應,再到底層的動作執(zhí)行,每一步都需要精確的空間理解能力。

斯坦福Vision Lab最新推出的IKEA Video Manuals數(shù)據(jù)集,首次實現(xiàn)了組裝指令在真實場景中的4D對齊,為研究這一復雜問題提供了重要基準。

圖片

論文地址:https://arxiv.org/pdf/2411.11409

項目主頁:https://yunongliu1.github.io/ikea-video-manual/

開源代碼: https://github.com/yunongLiu1/IKEA-Manuals-at-Work

合作者指出了這項工作在空間智能研究中的重要地位:「這項工作將組裝規(guī)劃從2D推進到3D空間,通過理解底層視覺細節(jié)(如部件如何連接),解決了空間智能研究中的一個主要瓶頸。這是首個全面評估模型在真實場景中對精細3D細節(jié)理解能力的基準。」

圖片

知名科技博主、前微軟策略研究者Robert Scoble:「有了這項工作,機器人將能夠自主組裝IKEA家具,或者通過AI驅(qū)動的AR眼鏡。」

圖片

圖片

突破性的多模態(tài)對齊

組裝一件IKEA家具需要理解多種形式的指令:說明書提供了任務的整體分解和關鍵步驟;視頻展示了詳細的組裝過程;而3D模型則定義了部件之間的精確空間關系。

IKEA Video Manuals首次將這三種模態(tài)進行了細粒度的對齊:

  • 137個手冊步驟被根據(jù)安裝視頻細分為1120個具體子步驟,捕捉了完整的組裝過程;
  • 通過6D Pose追蹤,精確記錄每個部件的空間軌跡;
  • 在視頻幀、家具組裝說明書和3D模型之間建立密集對應關系。

圖片

豐富的家具類型與場景

數(shù)據(jù)集涵蓋了6大類36種IKEA家具,從簡單的凳子到復雜的柜子,呈現(xiàn)了不同難度的組裝任務。每種家具都包含完整的3D模型、組裝說明書和實際組裝視頻。


圖片

這些視頻來自90多個不同的環(huán)境,包括室內(nèi)外場景、不同光照條件,真實反映了家具組裝的多樣性。

圖片

真實世界的復雜性

與在實驗室環(huán)境下采集的數(shù)據(jù)相比,來自互聯(lián)網(wǎng)的真實視頻呈現(xiàn)了更豐富的挑戰(zhàn):

  • 部件經(jīng)常被手或其他物體遮擋
  • 相似部件識別(想象一下四條一模一樣的桌子腿!)
  • 攝像機頻繁移動、變焦,帶來參數(shù)估計的困難
  • 室內(nèi)外場景、不同光照條件下的多樣性

這些真實場景下的復雜性,讓數(shù)據(jù)集更能反映實際應用中的難點。

圖片

有趣的是,研究團隊發(fā)現(xiàn)25%的家具存在多種有效的組裝順序。比如Laiva架子就有8種不同的組裝方式!這種多樣性真實地反映了現(xiàn)實世界中組裝任務的靈活性。

圖片

系統(tǒng)的標注流程

為了獲得高質(zhì)量的標注, 應對真實視頻帶來的挑戰(zhàn),研究團隊建立了一套可靠的標注系統(tǒng):

  • 識別并標注相機參數(shù)變化的關鍵幀,確保片段內(nèi)的一致性
  • 結(jié)合2D-3D對應點和RANSAC算法進行相機參數(shù)估計
  • 通過多視角驗證和時序約束保證標注質(zhì)量

核心任務實驗評估

基于IKEA Video Manuals數(shù)據(jù)集,團隊設計了多個核心任務來評估當前AI系統(tǒng)在理解和執(zhí)行家具組裝,以及空間推理(spatial reasoning)方面的能力:

1. 在基于3D模型的分割(Segmentation)與姿態(tài)估計 (Pose Estimation)

輸入3D模型和視頻幀,要求AI完成兩個任務:準確分割出特定部件區(qū)域,并估計其在視頻中的6自由度姿態(tài)。實驗測試了最新的分割模型(CNOS, SAM-6D)和姿態(tài)估計模型(MegaPose)。

基于3D模型的分割

基于3D模型的姿態(tài)估計

圖片

分析發(fā)現(xiàn)它們在以下場景表現(xiàn)不佳:

- 遮擋問題:手部遮擋、近距離拍攝導致部分可見、遮擋引起的深度估計誤差

圖片

- 特征缺失:缺乏紋理的部件難以分割、對稱部件的方向難以判斷

圖片

- 特殊拍攝角度(如俯視)導致的尺度誤判

圖片

2. 視頻目標分割Mask Trackin

評估了SAM2和Cutie兩個最新的視頻追蹤模型。與其他基準數(shù)據(jù)集相比,它們在IKEA Video Manuals數(shù)據(jù)集上表現(xiàn)顯著下降:

? SAM2: 從其他數(shù)據(jù)集的85-90%降至73.6%

? Cutie: 從85-87%降至54.7% 

主要挑戰(zhàn)包括:

- 相機運動導致目標丟失

圖片

- 難以區(qū)分外觀相似的部件(如多個相同的桌腿)

圖片

- 長時間追蹤的準確度難以保持

3. 基于視頻的形狀組裝

團隊提出了一個創(chuàng)新的組裝系統(tǒng),包含關鍵幀檢測、部件識別、姿態(tài)估計和迭代組裝四個步驟。實驗采用兩種設置:

使用GPT-4V自動檢測關鍵幀:結(jié)果不理想,Chamfer Distance達0.55,且1/3的測試視頻未能完成組裝,反映GPT-4V對組裝關鍵時刻的識別能力有限;

使用人工標注的關鍵幀:即便如此,由于姿態(tài)估計模型的局限性,最終Chamfer Distance仍達0.33

圖片

這些實驗結(jié)果揭示了當前AI模型的兩個關鍵局限:

1、視頻理解能力不足:當前的視頻模型對時序信息的分析仍然較弱,往往停留在單幀圖像分析的層面

2、空間推理受限:在真實場景的復雜條件下(如光照變化、視角改變、部件遮擋等),現(xiàn)有模型的空間推理能力仍顯不足

未來展望

IKEA Video Manuals的推出,通過研究如何將組裝指令對齊到真實場景,為空間智能研究提供了一個重要的評估基準。

想象一下,未來你戴上AR眼鏡,就能看到IKEA家具的每個組裝步驟被清晰地投影在眼前,系統(tǒng)還能實時提醒你是否安裝正確;;或者,機器人能夠像人類一樣,僅通過觀看視頻就學會組裝復雜的家具。IKEA Video Manuals的推出讓這些設想離現(xiàn)實更近了一步。

通過提供真實場景下的多模態(tài)數(shù)據(jù),這個數(shù)據(jù)集為空間智能研究提供了重要的評估基準。我們期待看到更多突破性的進展,讓AI系統(tǒng)真正理解和執(zhí)行復雜的空間任務。

作者介紹

圖片

第一作者劉雨濃,斯坦福大學計算機科學碩士生,隸屬于斯坦福SVL實驗室(Vision and Learning Lab),由吳佳俊教授指導。本科畢業(yè)于愛丁堡大學電子與計算機科學專業(yè)(榮譽學位)。曾在德克薩斯大學奧斯汀分校從事研究實習。目前正在尋找2025年秋季入學的博士機會。

圖片

吳佳俊,斯坦福大學助理教授,隸屬于SVL和SAIL實驗室。麻省理工博士,清華姚班本科。作為項目指導教授。

圖片

Juan Carlos Niebles,Salesforce AI Research研究主任,斯坦福大學計算機科學系兼職教授,斯坦福視覺與學習實驗室(SVL)聯(lián)合主任。在計算機視覺和機器學習領域有杰出貢獻,曾獲多項重要獎項

圖片

劉蔚宇,斯坦福大學博士后研究員,在CogAI組和SVL實驗室從事研究。專注于機器人感知、建模和交互領域,致力于開發(fā)能通過簡單語言命令完成長期任務的機器人系統(tǒng)。作為項目共同指導。

圖片

李曼玲,西北大學計算機科學系助理教授,曾為斯坦福大學博士后,現(xiàn)為斯坦福訪問學者。研究興趣集中在語言、視覺、機器人及其社會影響等交叉領域,致力于開發(fā)可信且真實的多模態(tài)系統(tǒng)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-11-26 13:04:29

2024-09-26 10:23:46

2024-05-06 07:10:00

李飛飛智能空間

2021-02-02 12:17:05

人工智能算法技術

2018-08-13 21:19:07

Weld開源數(shù)據(jù)

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核

2019-12-16 14:33:01

AI人工智能斯坦福

2024-06-21 13:18:25

模型訓練

2023-09-21 12:31:54

AI數(shù)據(jù)

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2024-10-28 13:30:00

2022-07-20 16:39:37

AI數(shù)據(jù)

2023-11-27 09:49:37

自動駕駛數(shù)據(jù)

2017-11-28 14:18:29

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2016-09-27 16:06:48

2023-12-14 12:51:28

LLM3D場景

2022-12-22 15:37:12

AI代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩www视频 | 国产精品久久久久久久久久 | 欧美日本在线观看 | 国产夜恋视频在线观看 | 成人精品一区 | 日韩av成人 | 亚洲一区二区免费 | 国产高清精品一区二区三区 | 中文日本在线 | 亚洲乱码国产乱码精品精98午夜 | 久久久久黑人 | 国产中文字幕av | 欧美在线视频a | 日日日干干干 | 午夜成人免费视频 | 日韩a在线 | www.99热.com | 欧美精品免费观看二区 | 久久精品一 | 午夜在线| 精品久久精品 | 高清人人天天夜夜曰狠狠狠狠 | 亚洲综合色 | 宅女噜噜66国产精品观看免费 | 久久久久国产一区二区三区 | 99国内精品| 精品人伦一区二区三区蜜桃网站 | 国产精品国产三级国产aⅴ中文 | 欧美中文字幕一区 | 伊人艹| 亚洲黄色国产 | 国产精品久久久久久久久久久久 | 久久国产成人午夜av影院武则天 | 欧美在线视频一区二区 | 成人毛片视频免费 | 欧美一区二区三区在线观看 | 国产精品亚洲一区 | 国产精品久久久久久亚洲调教 | 欧美精品一区二区三区在线四季 | 精品国产乱码一区二区三 | 超碰97免费|