成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<label id="61666"><style id="61666"></style></label>

<output id="61666"><form id="61666"><code id="61666"></code></form></output>

<label id="61666"><style id="61666"></style></label>

<label id="61666"></label>

<abbr id="61666"><table id="61666"></table></abbr>

<label id="61666"><style id="61666"></style></label>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

18k個視頻、專為自動駕駛世界模型設計，DrivingDojo數據集來了

作者：機器之心 2024-12-10 10:00:00

人工智能新聞

中國科學院自動化研究所聯合美團無人車團隊推出了 DrivingDojo 數據集 —— 全球規模最大、專為自動駕駛世界模型研究設計的高質量視頻數據集。

世界模型被廣泛認為是實現通用人工智能的關鍵技術，其核心能力在于模擬真實世界的動態變化，并為決策提供精準的未來狀態預測。在自動駕駛領域，世界模型的應用尤為引人注目。然而，現有數據集在視頻多樣性和行為復雜性方面的不足，限制了世界模型潛力的全面發揮。為了解決這一瓶頸，中國科學院自動化研究所聯合美團無人車團隊推出了 DrivingDojo 數據集 —— 全球規模最大、專為自動駕駛世界模型研究設計的高質量視頻數據集。該數據集已被 NeurIPS 2024 的 Dataset Track 接收。

網站：https://drivingdojo.github.io/
論文：https://arxiv.org/pdf/2410.10738
代碼：https://github.com/Robertwyq/Drivingdojo

世界模型的核心在于交互、知識以及泛化

世界模型刻畫了智能體在當前狀態下采取特定動作之后環境狀態所有可能的變化的分布。相比于單純關注于生成的圖像質量，我們認為其他道路參與者的行為（other agents behavior）以及整體的世界動態（general world dynamics）也同樣值得關注，即世界模型的交互、知識以及泛化能力。

交互：世界模型應具備合理預測動態交互行為的能力。例如，在自動駕駛場景中，系統需要準確預測自車與行人或其他道路使用者之間的交互。除了理解靜態環境的變化，更重要的是能夠提供動態反饋，以支持系統在復雜場景中的應對。

知識：世界模型應具備對環境中世界知識的深刻理解。例如，在自動駕駛場景中，系統需要能夠理解紅綠燈、升降桿等關鍵場景元素，以便作出恰當的駕駛決策。然而，僅通過像素級重建是否能準確建模這些知識仍然存在疑問，因此引入語言模型成為提升系統理解能力的關鍵手段。

泛化：世界模型的預測能力應能夠擴展到新的未知場景，尤其是各種長尾場景，如稀有事件或極端環境下的駕駛表現。這種泛化能力是確保模型在真實世界中穩定運行的關鍵。

DrivingDojo 數據集

DrivingDojo 數據集相較于傳統的感知數據集，經過精心的挖掘與篩選，更加注重視頻多樣性的設計。從掉落的水桶、倒下的柵欄，到突然竄出的動物、夜晚的篝火、路上的羊群，包含了海量的長尾駕駛場景，為世界模型的研究提供了堅實的基礎。

DrivingDojo 數據集包含大約 18k 個視頻，平均時長約為 20 秒。整個數據集可以劃分為三個子集，分別聚焦于駕駛行為、動態交互和世界知識的探索。

駕駛行為：還原真實駕駛操作的多樣性

我們精心構建了一個名為 DrivingDojo-Action 的子集，全面覆蓋駕駛操作的多樣化場景，呈現縱向與橫向行為的均衡分布：

縱向操作：包含加速、減速、緊急剎車和起停駕駛，精準展現車輛在速度調控中的動態表現。
橫向操作：涵蓋變道和車道保持，細致描繪車輛在空間選擇和路徑優化中的決策能力。

動態交互：捕捉復雜交通中的行為模式

除了在靜態道路網絡環境中進行導航外，建模多智能體之間的動態交互（如并入和讓行）也是世界模型的一個關鍵任務。我們精心挖掘了這一子集，比如并線、會車、被阻擋、超車、被超車。這一子集為世界模型提供了豐富的交互場景，助力其更好地應對復雜的交通環境。

世界知識：賦能開放世界的智能理解

不同于感知和預測模型通過將高維傳感器輸入壓縮為低維向量表示，世界模型在像素空間中運行，展現出更強的場景建模能力。這種增強的能力使得世界模型能夠有效捕捉開放世界駕駛場景中的復雜動態，例如動物突然橫穿馬路或貨物從車輛后備廂掉落等意外情況。通過在像素層面上的深度理解，世界模型為處理復雜交通情境提供了更可靠的基礎。

推動智能交互與知識驅動的自動駕駛世界模型

真實多樣的駕駛場景生成

軌跡控制的視頻生成

給定初始幀和軌跡，世界模型預測未來的情景

預測不同的未來情景

我們提出了運動指令跟隨的視頻預測任務，這也是世界模型的核心。以往的研究主要依賴于定性觀察，而在實際駕駛中，控制精度需要通過定量指標進行評估。由于生成視頻中缺少真實軌跡，我們采用了 COLMAP 重建方法對生成的軌跡進行重建，從而實現粗略的定量評測。

利用 COLMAP 估計生成視頻的軌跡

生成能力的泛化

與以往在同一數據集上進行的生成測試相比，我們認為跨數據集的測試更為重要，這更好地體現了模型的泛化生成能力。在測試過程中，我們選擇了 OpenDV 的子集來進行評估。

我們也期望模型具備良好的泛化能力：如運動行為的泛化，以及跨數據集的運動行為泛化。

1. 異常行為生成 2. 在 nuScenes 數據集實現倒車

交互行為的預測

這一部分的核心在于探索世界模型是否能夠根據不同行為的輸入預測智能體之間的交互動態。以下示例中，當自車選擇停車時，模型預測右前方的車輛會搶占道路進行超車；而當自車選擇繼續前行時，模型則預測右前方的車輛會等待自車先通過。

長時間高質量駕駛視頻生成

責任編輯：張燕妮來源：機器之心

自動駕駛數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产真实精品久久二三区 | 97精品一区二区 | 玖玖国产 | 99在线免费观看视频 | 欧美精品福利 | 国产ts人妖一区二区三区 | 97av视频| 国产女人叫床高潮大片免费 | 噜噜噜噜狠狠狠7777视频 | 国产精品美女久久久久aⅴ国产馆 | 男女羞羞视频在线看 | 在线中文字幕第一页 | 91大神xh98xh系列全部 | 久久伊人操 | 在线色网 | 国产精品免费观看 | 精品久久久久久久人人人人传媒 | 99精品免费 | 亚洲日本激情 | 久久久综合 | 九色在线视频 | 香蕉久久a毛片 | 亚洲精彩视频 | 免费观看色 | 中文字幕一区二区三区乱码图片 | 久久一区二区三区免费 | 日韩一区二区三区在线看 | 看羞羞视频| 亚洲精品久久久久久国产精华液 | 亚洲精彩免费视频 | 欧美视频成人 | 亚洲男女视频在线观看 | 午夜视频一区二区三区 | 久久33| 日韩欧美在线视频观看 | 亚洲二区在线 | 久久天天综合 | 亚洲一区 | 亚洲国产精品网站 | 国产精品一区二区精品 | 欧美色性 |

<track id="66161"><th id="66161"></th></track>

<address id="66161"><samp id="66161"></samp></address>