成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="bcdst"><pre id="bcdst"></pre></dl>

<tfoot id="bcdst"></tfoot>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

世界模型也擴散！訓練出的智能體竟然不錯

作者：機器之心 2024-05-24 08:42:29

人工智能新聞

來自日內(nèi)瓦大學、愛丁堡大學、微軟研究院的研究者聯(lián)合提出一種在擴散世界模型中訓練的強化學習智能體 —— DIAMOND（DIffusion As a Model Of eNvironment Dreams）。

世界模型提供了一種以安全且樣本高效的方式訓練強化學習智能體的方法。近期，世界模型主要對離散潛在變量序列進行操作來模擬環(huán)境動態(tài)。

然而，這種壓縮為緊湊離散表征的方式可能會忽略對強化學習很重要的視覺細節(jié)。另一方面，擴散模型已成為圖像生成的主要方法，對離散潛在模型提出了挑戰(zhàn)。

受這種范式轉(zhuǎn)變的推動，來自日內(nèi)瓦大學、愛丁堡大學、微軟研究院的研究者聯(lián)合提出一種在擴散世界模型中訓練的強化學習智能體 —— DIAMOND（DIffusion As a Model Of eNvironment Dreams）。

論文地址：https://arxiv.org/abs/2405.12399
項目地址：https://github.com/eloialonso/diamond
論文標題：Diffusion for World Modeling: Visual Details Matter in Atari

DIAMOND 在 Atari 100k 基準測試中獲得了 1.46 的平均人類歸一化得分 (HNS)，可以媲美完全在世界模型中訓練的智能體的 SOTA 水平。該研究提供了定性分析來說明，DIAMOND 的設(shè)計選擇對于確保擴散世界模型的長期高效穩(wěn)定是必要的。

此外，在圖像空間中操作的好處是使擴散世界模型能夠成為環(huán)境的直接替代品，從而提供對世界模型和智能體行為更深入的了解。特別地，該研究發(fā)現(xiàn)某些游戲中性能的提高源于對關(guān)鍵視覺細節(jié)的更好建模。

方法介紹

接下來，本文介紹了 DIAMOND，這是一種在擴散世界模型中訓練的強化學習智能體。具體來說，研究者基于 2.2 節(jié)引入的漂移和擴散系數(shù) f 和 g，這兩個系數(shù)對應(yīng)于一種特定的擴散范式選擇。此外，該研究還選擇了基于 Karras 等人提出的 EDM 公式。

首先定義一個擾動核，，其中，是一個與擴散時間相關(guān)的實值函數(shù)，稱為噪聲時間表。這對應(yīng)于將漂移和擴散系數(shù)設(shè)為和。

接著使用 Karras 等人（2022）引入的網(wǎng)絡(luò)預(yù)處理，同時參數(shù)化公式（5）中的，作為噪聲觀測值和神經(jīng)網(wǎng)絡(luò) 預(yù)測值的加權(quán)和：

得到公式（6）

其中為了簡潔定義，包含所有條件變量。

預(yù)處理器的選擇。選擇預(yù)處理器和，以保持網(wǎng)絡(luò)輸入和輸出在任何噪聲水平下的單位方差。是噪聲水平的經(jīng)驗轉(zhuǎn)換，由和數(shù)據(jù)分布的標準差給出，公式為

結(jié)合公式 5 和 6，得到訓練目標：

該研究使用標準的 U-Net 2D 來構(gòu)建向量場，并保留一個包含過去 L 個觀測和動作的緩沖區(qū)，以此來對模型進行條件化。接下來他們將這些過去的觀測按通道方式與下一個帶噪觀測拼接，并通過自適應(yīng)組歸一化層將動作輸入到 U-Net 的殘差塊中。正如在第 2.3 節(jié)和附錄 A 中討論的，有許多可能的采樣方法可以從訓練好的擴散模型中生成下一個觀測。雖然該研究發(fā)布的代碼庫支持多種采樣方案，但該研究發(fā)現(xiàn)歐拉方法在不需要額外的 NFE（函數(shù)評估次數(shù)）以及避免了高階采樣器或隨機采樣的不必要復(fù)雜性的情況下是有效的。

實驗

為了全面評估 DIAMOND，該研究使用了公認的 Atari 100k 基準測試，該基準測試包括 26 個游戲，用于測試智能體的廣泛能力。對于每個游戲，智能體只允許在環(huán)境中進行 100k 次操作，這大約相當于人類 2 小時的游戲時間，以在評估前學習玩游戲。作為參考，沒有限制的 Atari 智能體通常訓練 5000 萬步，這相當于經(jīng)驗的 500 倍增加。研究者從頭開始在每個游戲上用 5 個隨機種子訓練 DIAMOND。每次運行大約使用 12GB 的 VRAM，在單個 Nvidia RTX 4090 上大約需要 2.9 天（總計 1.03 個 GPU 年）。

表 1 比較了在世界模型中訓練智能體的不同得分：

圖 2 中提供了平均值和 IQM（ Interquartile Mean ）置信區(qū)間：

結(jié)果表明，DIAMOND 在基準測試中表現(xiàn)強勁，超過人類玩家在 11 個游戲中的表現(xiàn)，并達到了 1.46 的 HNS 得分，這是完全在世界模型中訓練的智能體的新紀錄。該研究還發(fā)現(xiàn)，DIAMOND 在需要捕捉細節(jié)的環(huán)境中表現(xiàn)特別出色，例如 Asterix、Breakout 和 Road Runner。

為了研究擴散變量的穩(wěn)定性，該研究分析了自回歸生成的想象軌跡（imagined trajectory），如下圖 3 所示：

該研究發(fā)現(xiàn)有些情況需要迭代求解器將采樣過程驅(qū)動到特定模式，如圖 4 所示的拳擊游戲：

如圖 5 所示，與 IRIS 想象的軌跡相比，DIAMOND 想象的軌跡通常具有更高的視覺質(zhì)量，并且更符合真實環(huán)境。

感興趣的讀者可以閱讀論文原文，了解更多研究內(nèi)容。

責任編輯：張燕妮來源：機器之心

智能體訓練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：欧美精品成人一区二区三区四区 | 亚洲精品久久久久久久久久久 | 亚洲精品在线视频 | 久久免费视频1 | 日韩中文在线视频 | 国产一区二区三区免费 | 日本在线黄色 | 亚洲精品字幕 | 欧美在线观看一区 | 中文字幕免费观看 | 成人一区二区三区在线观看 | 国产精品精品视频一区二区三区 | 第四色播日韩第一页 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 亚洲欧洲成人在线 | 在线免费观看视频黄 | av在线免费网 | 国产电影一区二区三区爱妃记 | 国产高潮av | av中文网 | 日韩无 | 色性av| 日日操夜夜操视频 | 亚洲欧美高清 | 欧美日韩国产一区二区三区 | 亚洲精品第一国产综合野 | 亚洲精品国产成人 | 成人午夜激情 | 久久久这里只有17精品 | 亚洲免费一区 | 国产片一区二区三区 | 国产精品3区 | 国产在线一区二区三区 | 久久久久久国产 | a在线视频观看 | 中文字幕国产在线 | 91精品国产色综合久久不卡蜜臀 | 日产精品久久久一区二区福利 | 久久综合av| 欧美激情视频网站 | 亚洲天堂av网|

<video id="qlpgj"><tt id="qlpgj"><small id="qlpgj"></small></tt></video>

<tfoot id="qlpgj"></tfoot>