成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="642ae"><th id="642ae"></th></abbr>

<samp id="642ae"><button id="642ae"></button></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

DeepMind首提「統一智能體」！大模型做推理，賦能終身學習，AI王者加冕

作者：新智元 2023-07-29 16:01:15

通過利用這些模型中包含的先驗知識，可以設計出更好的智能體，能夠直接在現實世界中解決具有挑戰性的任務。

AI智能體的研究，已經卷起來了。

一直以來，基礎模型不斷涌現，還未有過統一的智能體。

來自Google DeepMind研究團隊，設計了一個框架，使用語言作為核心推理工具，探索讓智能體解決一系列基本的RL挑戰。

比如，高效探索、重復使用經驗數據、從觀察中學習。

要知道，這些挑戰從傳統意義上來說，都需要專門的、垂直設計的算法。

圖片

論文地址：https://arxiv.org/pdf/2307.09668.pdf

研究人員在一個稀疏獎勵模擬智能體操作環境中進行了測試。結果顯示，AI智能體在探索效率，重用數據等能力方面，得到了很大提升。

那么，DeepMind設計了一個怎樣的框架？

AI智能體：語言做核心

一般來說，智能體只有與環境相互作用后，才能從中學習，但這個過程需要不斷進行實驗和試錯。

而現在，利用基礎模型已有的知識，可以極大地推進這個過程。

對此，研究人員設計了一個框架，將語言置于RL智能體的核心，特別是在從頭學習的背景下。

結果表明，該框架利用LLM和VLM，可以解決RL環境中的一系列基本問題，比如：

1) 有效地探索稀疏獎勵環境

2) 重新使用收集到的數據啟動新任務的順序學習

3) 安排學習技能來解決新任務

圖片

以語言為中心的智能體框架

這項工作的目標是，研究使用基礎模型，預訓練的大量圖像和文本數據集，以設計一個更通用和統一的RL機器人智能體。

為此，智能體首先需要將視覺輸入映射到文本描述。

其次，需要提示一個帶有文本描述和任務描述的LLM來為智能體提供語言指令。最后，智能體需要將LLM的輸出轉化為行動。

具體來講，需要經過以下四個過程：

- 使用VLM的連接視覺和語言

為了以語言形式描述從RGB攝像頭獲取的視覺輸入，研究人員使用CLIP這一大型對比視覺語言模型。

圖片

CLIP計算觀察結果與文字描述之間相似性的示例

- 語言推理

語言模型以語言形式的提示作為輸入，通過自動回歸計算下一個token的概率分布，并從該分布中采樣，產生語言作為輸出。

- 把指令根植行動

LLMs提供的語言目標，然后根植到使用語言條件化策略網絡的行動中。

- 收集和推斷學習范式

智能體通過收集和推斷范式的啟發，與環境的互動中學習。

圖片

實驗結果

通過使用語言作為代理的核心，為解決RL中的一系列基本挑戰提供了一個統一的框架。

接下來，就這這樣智能體的能力如何，再此，研究人員重點從探索、重用過去的經驗數據、安排和重用技能以及從觀察中學習進行了描述。

探索——通過語言生成課程

這里，團隊演示了一個RL智能體如何利用LLMs的優勢，利用課程的文本子目標，產生沒有任何過去的環境互動。

如下，學習曲線清楚地說明了，最新方法是如何比所有任務的基線更有效率。

值得注意的是，智能體的學習曲線在Triple Stack任務中迅速增長，而基線智能體仍然必須得到一個單一的獎勵，因為任務的稀疏性是106。

圖片

左圖：收集和推斷管線；中右圖：框架的學習曲線，以及「堆棧紅藍」和「三重堆?！谷蝿盏幕鶞蕦W習曲線

隨著任務變得越來越稀疏，LLM提出的子目標數量也增加了。

這使得增長變得越來越緩慢，這表明最新框架可以擴展到更難的任務，并使它們易于處理。

此外，與之前需要精心設計的內在獎勵，或其他探索獎勵的方法不同，最新框架可以直接利用LLM和VLM的先驗知識，生成一個具有語義意義的探索課程。

從而為即使在獎勵稀少的環境中，也能以自我激勵的方式進行探索。

通過重用離線數據來學習任務

研究顯示，研究人員繪制了智能體在環境中，需要采取多少個相互作用步驟，才能在每個新任務上達到50%的成功率，如圖所示。

實驗清楚地說明了，最新框架在重用為以前的任務收集的數據方面的有效性，提高了新任務的學習效率。

圖片

結果表明，谷歌框架可用于釋放機器人智能體的終身學習能力：連續學習的任務越多，學習下一個任務的速度就越快。

這對將智能體部署到開放式環境（尤其是現實世界）中尤其有利。

通過利用智能體在整個生命周期中遇到的數據，智能體學習新任務的速度應該遠遠快于純粹的從頭開始學習。

圖片

從觀察中學習: 從視頻到技能的映射

從觀察外部智能體中學習是一般智能體的理想能力，但這通常需要特別設計的算法和模型。

研究人員設計的智能體，可以以專家執行任務的視頻為條件，從觀察中一次性學習。

測試中，智能體會拍攝一段人類用手堆放物品的視頻。

盡管只對來自MuJoCo模擬的圖像進行了微調，VLM還是能夠準確地預測，描繪機器人或人類手臂的真實世界圖像上的文本-圖像對應關系。

研究的初步結果表明，利用基礎模型可以讓通用的RL算法能夠解決各種問題，提高效率和通用性。

通過利用這些模型中包含的先驗知識，可以設計出更好的智能體，能夠直接在現實世界中解決具有挑戰性的任務。

參考資料：

https://arxiv.org/pdf/2307.09668.pdf

責任編輯：武曉燕來源：新智元

智能體模型任務

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美日韩亚洲在线 | 国产视频二区 | a级免费黄色片 | 午夜网| 精品亚洲一区二区三区 | 日韩欧美一区二区三区免费看 | 亚洲色在线视频 | 日韩欧美在线一区 | 午夜影院在线观看免费 | 天天综合网7799精品 | 国产精品一区二区av | 91麻豆精品国产91久久久久久 | 精品国产乱码久久久久久蜜退臀 | 91精品91久久久 | 国产成人福利在线观看 | 国产精品综合色区在线观看 | 日韩影院在线 | 亚洲福利在线视频 | 日本一区二区三区免费观看 | 一级毛片免费 | 成人超碰| 一级美国黄色片 | www.99热| 亚洲精品99 | 久久久久久久久久久久亚洲 | 成人国产精品久久久 | 国产黄色大片在线观看 | 成人av网页 | 天天影视亚洲综合网 | 国内自拍偷拍一区 | 国产在线一区二区 | 一级毛片免费看 | 欧美激情亚洲 | 亚洲国产成人精品久久 | h视频网站在线观看 | 91中文字幕在线 | www.中文字幕av | 久久久成人精品 | 日韩在线观看一区 | 欧美不卡视频一区发布 | 国产成人久久精品 |

<code id="i2auy"><nav id="i2auy"></nav></code>

<abbr id="i2auy"></abbr>

<code id="i2auy"></code>

<dl id="i2auy"></dl>