成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

通用世界模型問世：不學(xué)習(xí)就能生成新領(lǐng)域視頻，可實(shí)時(shí)控制

作者：機(jī)器之心 2024-05-24 12:53:06

人工智能新聞

在 UC San Diego、穆罕默德?本?扎耶德人工智能大學(xué)（MBZUAI）等機(jī)構(gòu)的研究中，人們通過引入 Pandora 向構(gòu)建通用世界模型邁出了一步。

隨著 OpenAI 今年 2 月發(fā)布 Sora，世界模型（World Model）再次成為了 AI 領(lǐng)域的熱門。

世界模型，即通過預(yù)測(cè)未來的范式對(duì)數(shù)字世界和物理世界進(jìn)行理解，一直以來被認(rèn)為是通往通用人工智能（AGI）的關(guān)鍵路徑之一，與當(dāng)前大模型推崇的智能體（Agent）方向互相區(qū)分。

世界模型的研究促進(jìn)了交互式內(nèi)容的創(chuàng)建，并為有根據(jù)的、長期的推理提供了基礎(chǔ)。當(dāng)前的基礎(chǔ)模型并不能完全滿足通用世界模型的功能——大型語言模型（LLM）受到對(duì)語言模態(tài)的依賴以及對(duì)物理世界有限理解的限制，而視頻模型（如 Sora）則缺乏對(duì)世界模擬的交互式動(dòng)作控制。

在 UC San Diego、穆罕默德?本?扎耶德人工智能大學(xué)（MBZUAI）等機(jī)構(gòu)的研究中，人們通過引入 Pandora 向構(gòu)建通用世界模型邁出了一步。

MBZUAI 校長邢波（Eric Xing）表示，Pandora 是一個(gè)可通過語言命令實(shí)時(shí)操控的世界模型，能夠在視覺空間中實(shí)時(shí)推理概念層面。是時(shí)候超越語言世界中的 LLM，進(jìn)入物理和感官世界了！

Pandora 是一種混合自回歸擴(kuò)散模型，可通過生成視頻來模擬世界狀態(tài)，并允許通過自由文本動(dòng)作（free-text action）進(jìn)行實(shí)時(shí)控制。Pandora 通過大規(guī)模預(yù)訓(xùn)練和指令調(diào)整實(shí)現(xiàn)了領(lǐng)域通用性、視頻一致性和可控性。

更加重要的是，Pandora 通過集成預(yù)訓(xùn)練的 LLM（7B）和預(yù)訓(xùn)練的視頻模型，繞過了從頭開始訓(xùn)練的成本，只需要額外的輕量級(jí)微調(diào)。作者展示了 Pandora 在不同領(lǐng)域（室內(nèi) / 室外、自然 / 城市、人類 / 機(jī)器人、2D/3D 等）的廣泛輸出能力。結(jié)果表明，通過更大規(guī)模的訓(xùn)練，我們能夠構(gòu)建更強(qiáng)大的通用世界模型。

論文：Pandora : Towards General World Model with Natural Language Actions and Video States
論文地址：https://world-model.maitrix.org/assets/pandora.pdf
項(xiàng)目地址：https://github.com/maitrix-org/Pandora
項(xiàng)目展示頁面：https://world-model.maitrix.org/

該研究展示了一系列先前模型不具有的特性：

能模擬廣泛領(lǐng)域的視頻狀態(tài)：Pandora 能夠生成廣泛領(lǐng)域的視頻，例如室內(nèi) / 室外、自然 / 城市、人類 / 機(jī)器人、2D/3D 和其他場(chǎng)景。這種領(lǐng)域的通用性主要?dú)w功于大規(guī)模視頻預(yù)訓(xùn)練（繼承自預(yù)訓(xùn)練視頻模型）。
該模型允許通過自由文本動(dòng)作進(jìn)行動(dòng)態(tài)控制：Pandora 接受自然語言動(dòng)作描述作為視頻生成期間的輸入，以指導(dǎo)未來的世界狀態(tài)。這與以前的文本到視頻模型有很大不同，以前的文本到視頻模型僅允許在視頻開頭出現(xiàn)文本提示。動(dòng)態(tài)控制實(shí)現(xiàn)了世界模型的承諾，支持交互式內(nèi)容生成并增強(qiáng)穩(wěn)健的推理和規(guī)劃。該功能是通過模型的自回歸架構(gòu)（允許隨時(shí)輸入文本）、預(yù)訓(xùn)練的 LLM 主干（可以理解任何文本表達(dá)式）和指令調(diào)整（可以大大增強(qiáng)控制的有效性）來實(shí)現(xiàn)的。
動(dòng)作可控性跨域遷移：如前所述，使用高質(zhì)量數(shù)據(jù)進(jìn)行指令調(diào)整使模型能夠?qū)W習(xí)有效的動(dòng)作控制，并遷移到不同的新領(lǐng)域。新模型從特定領(lǐng)域?qū)W到的動(dòng)作可以無縫地應(yīng)用于不同新領(lǐng)域。
自回歸模型主干支持更長的視頻：基于擴(kuò)散架構(gòu)的現(xiàn)有視頻生成模型通常會(huì)生成固定長度（例如 2 秒）的視頻。通過將預(yù)訓(xùn)練視頻模型與 LLM 自回歸主干集成，Pandora 能夠以自回歸方式無限延長視頻持續(xù)時(shí)間。結(jié)合額外的訓(xùn)練（例如指令調(diào)整），作者證明 Pandora 可以生成更高質(zhì)量的更長視頻（可長達(dá) 8 秒）。

方法

模型架構(gòu)

Pandora 是一個(gè)自回歸世界模型。給定世界先前的狀態(tài)（例如圖像或視頻剪輯）和自然語言動(dòng)作描述，它可以預(yù)測(cè)世界的下一個(gè)狀態(tài)（以視頻剪輯的形式）。

如下圖 2 所示，Pandora 的兩個(gè)核心組件包括自回歸主干網(wǎng)絡(luò)（源自預(yù)訓(xùn)練 LLM）和視頻生成器（使用預(yù)訓(xùn)練視頻模型進(jìn)行初始化）。為了將這兩個(gè)組件拼接在一起，Pandora 還添加了其他必要的組件，包括視覺編碼器，以及分別將視覺編碼器連接到 LLM 主干和將 LLM 主干連接到視頻生成器的兩個(gè)適配器。

階段性訓(xùn)練

通用世界模型需要實(shí)現(xiàn)一致性、可控性和通用性，即它需要生成一致的視頻來準(zhǔn)確描述世界狀態(tài)，允許在視頻生成過程中隨時(shí)接受自然語言動(dòng)作描述來進(jìn)行動(dòng)態(tài)控制，并跨越所有不同的領(lǐng)域執(zhí)行上述操作（具有不同的場(chǎng)景和動(dòng)作）。

直接訓(xùn)練世界模型需要大量高質(zhì)量序列（視頻 S1、文本 A1、視頻 S2……）作為訓(xùn)練數(shù)據(jù)，而這在實(shí)踐中很難獲得。

因此，該研究設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練策略，包括預(yù)訓(xùn)練和指令調(diào)整。

預(yù)訓(xùn)練階段旨在讓模型獲得一些關(guān)鍵能力，包括：

視頻生成器的一致、通用視頻生成能力；
自回歸主干網(wǎng)絡(luò)的通用文本理解能力，以處理動(dòng)作；
兩個(gè)組件之間的表征空間對(duì)齊能力。

表 1 總結(jié)了該研究收集到的數(shù)據(jù)，主要來自公共語料庫和數(shù)據(jù)處理模擬器。

定性結(jié)果

研究論文展示了一些定性結(jié)果，表明 Pandora 作為世界模擬器的核心功能，未來該研究將提供更多定量結(jié)果。

跨域的即時(shí)控制

Pandora 是一個(gè)通用世界模型，能夠生成跨廣泛領(lǐng)域的視頻。它允許通過自由文本動(dòng)作進(jìn)行動(dòng)態(tài)控制，即它可以在視頻生成期間隨時(shí)接受文本動(dòng)作控制并相應(yīng)地預(yù)測(cè)未來的世界狀態(tài)。

Pandora 模型能夠理解現(xiàn)實(shí)世界的物理概念，可以生成演示基本物理現(xiàn)象的視頻：

動(dòng)作可控性遷移

雖然一些動(dòng)作及其相應(yīng)的運(yùn)動(dòng)模式只出現(xiàn)在一些模擬數(shù)據(jù)中，但 Pandora 可以將動(dòng)作可控性遷移到不同的未見領(lǐng)域。如下圖所示圖，Pandora 分別將 Coinrun 的 2D 游戲能力和 HM3D 的 3D 模擬器能力遷移到其他未見領(lǐng)域。

自回歸生成更長的視頻

借助自回歸主干網(wǎng)絡(luò)，Pandora 能夠以自回歸方式生成更高質(zhì)量的更長視頻。Pandora 接受最長 5 秒（40 幀）的視頻訓(xùn)練，但它能夠生成更長的視頻。下圖顯示了生成 8 秒（64 幀）視頻的結(jié)果。

盡管如此，作者表示 Pandora 很難生成高質(zhì)量和良好可控的視頻。在論文中，作者展示了一些語義理解、運(yùn)動(dòng)控制和視頻一致性方面的失敗案例。

在進(jìn)行小規(guī)模探索實(shí)驗(yàn)時(shí)，作者發(fā)現(xiàn)數(shù)據(jù)質(zhì)量，即動(dòng)力學(xué)描述的精度對(duì)模型性能有很大影響。在存在高質(zhì)量仿真數(shù)據(jù)的領(lǐng)域，模型很容易獲得良好的可控性。但在公共視頻數(shù)據(jù)集領(lǐng)域，GPT-4 Turbo 生成的字幕存在噪聲，導(dǎo)致模型并沒有表現(xiàn)出良好的性能。然而，當(dāng)增加訓(xùn)練計(jì)算量時(shí)，模型上就會(huì)涌現(xiàn)出跨通用領(lǐng)域的可控性。

Pandora 的探索表明通過更大規(guī)模的訓(xùn)練，構(gòu)建更強(qiáng)大的通用世界模型，這一研究方向具有巨大潛力。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：亚洲午夜三级 | 国产真实精品久久二三区 | 亚洲人成一区二区三区性色 | 自拍偷拍一区二区三区 | 天堂中文av | 欧美日韩一区二区三区在线观看 | 国产一区二区三区视频在线观看 | 国产一区欧美 | 在线日韩不卡 | 一a级片 | 久久中文字幕一区 | 在线视频亚洲 | 成人一区二区视频 | 福利网址 | 日韩精品999 | 天天射影院 | 亚洲精品久久久久久一区二区 | 成人日韩 | 免费视频一区二区 | 亚洲精品国产电影 | 日韩美女在线看免费观看 | 日日碰狠狠躁久久躁96avv | 天堂视频一区 | av一区二区三区 | 亚洲精品久久久久久久久久吃药 | 欧美一级在线观看 | 免费成人高清 | 亚洲毛片在线观看 | 久久久精品欧美 | 可以看黄的视频 | 中文字幕视频三区 | 国产在线视频在线观看 | 日本福利一区 | 欧产日产国产精品国产 | 中文字幕在线观看一区 | 国产精品视频久久久久久 | 日韩精品久久一区二区三区 | 91久久国产综合久久91精品网站 | 成人免费在线视频 | 中文字幕男人的天堂 | 欧美日韩在线精品 |