譯者 | 朱先忠
審校 | 重樓
簡介
這篇文章是我們對人工智能最新研究報道的一部分。
人工智能夢寐以求的目標之一是創造出能夠通過遵循自然語言指令在現實世界中有效完成任務的智能體。大型語言模型(LLM)在實現這一目標方面取得了重大進展,展示了處理定義明確的任務的令人印象深刻的能力。然而,它們的能力目前還是有限的——在面臨需要更廣泛了解世界的任務時往往達不到要求。
加州大學伯克利分??茖W家的一篇新研究論文提出了應對這一挑戰的創新方法。本文介紹了一種名為Dynalang的新技術,旨在設計能夠借助自然語言學習世界模型的強化學習代理。這種方法不僅僅是教人工智能執行任務;而且還使得人工智能能夠理解其所在環境的上下文,并更有力、更高效地執行任務。
物理世界中的大型語言模型
PaLM-SayCan使用大型語言模型(LLM)使機器人能夠用自然語言執行指令(來源:谷歌博客,地址:https://ai.googleblog.com/2023/02/google-research-2022-beyond-robotics.html)。
LLM的最新進展在各個領域引發了一波熱潮,包括機器人和現實世界中的任務執行代理。LLM的一個非常有前景的方面是它們能夠彌合語言和視覺數據之間的差距,從而產生視覺語言模型(VLM)。
VLM能夠將文本映射到視覺數據;反之亦然,這一功能已在不同的應用領域中得到利用,包括文本到圖像模型和AI圖像搜索領域。這項技術的一個更先進的應用是將自然語言命令映射到現實世界中的動作。這有時被稱為“具身語言模型”(Embodied Language Models)。
如今,已經出現一些技術,其將強化學習與VLM相結合,以訓練能夠執行特定指令的代理。
然而,當前的模型有它們明顯的局限性,例如,它們擅長執行非常特定的任務的命令,例如“拿起藍盒子”。不過,最近的進一步研究成果能夠為這些命令添加上一層抽象,使VLM驅動的代理能夠理解和執行更復雜的指令,例如“撿起代表滅絕動物的玩具”。
但在現實世界中,命令和話語往往與上下文有關。例如,如果是洗碗或上菜,“我把碗收起來了”這句話對代理來說可能意味著不同的事情。加州大學伯克利分校的研究人員指出,“當語言不談論任務時,它只與代理應該采取的最佳行動弱相關?!?/span>
最近,研究人員提出了一種不同的方法。他們建議,與其訓練代理立即完成任務,不如先訓練他們在語言指令的幫助下學習世界模型來預測未來。研究人員寫道:“與下一個表征預測如何允許語言模型形成世界知識的內部表征類似,我們假設預測未來表征為主體理解語言及其與世界的關系提供了豐富的學習信號。”
這種方法可以幫助人工智能代理了解其環境的上下文,從而更有力、更高效地執行任務。
Dynalang
Dynalang使用語言更好地學習世界模型(來源:GitHub)
加州大學伯克利分校的研究人員提出了一種名為Dynalang的技術,他們將其描述為“一種從在線體驗中學習語言和圖像世界模型并使用該模型學習如何行動的代理?!边@項技術的方法獨特,并提供了兩種不同的訓練模式。
首先,Dynalang學習通過文本和視覺觀察來對世界進行建模。研究人員解釋說,“我們訓練世界模型,當代理在環境中行動時,利用在線收集的經驗來預測未來的潛在表征?!边@種方法反映了人類用來將環境中的觀察結果映射到語言的一種自我監督學習形式。研究人員稱之為“語言條件世界模型”。值得注意的是,Dynalang是多模態的,這意味著它不僅預測文本,還支持預測未來的視覺表現。
其次,Dynalang通過對世界模型和任務表征的強化學習來學習其行動策略。研究人員寫道:“我們訓練政策采取行動,最大限度地提高任務回報,將世界模型的潛在代表性作為輸入?!?。
從本質上講,Dynalang旨在通過語言和視覺觀察來學習一個世界模型,然后使用這個模型來學習如何在各種環境中有效地行動。這種方法可能會在不同的環境中增強人工智能代理的穩健性和效率。
Dynalang的工作原理
加州大學伯克利分校的研究人員利用不同機器學習技術的巧妙組合開發了Dynalang。Dynalang的核心是一個旨在執行動作的人工智能系統,其結構基于強化學習循環。這個循環由代理、環境、操作、狀態和獎勵組成。Dynalang的根本目標是培養一個能夠最大限度地提高回報的代理。
Dynalang是一個基于模型的強化學習系統,這意味著它可以根據世界模型預測動作和狀態。同時,使用過去動作的回放緩沖區作為監督學習流來訓練世界模型。根據環境的不同,動作空間可以由電機命令、文本生成和其他類型的動作組成。
Dynalang的一個有趣的特性是,它能夠以令牌流形式接收文本指令和描述,同時還可以一起傳遞圖像幀信息。這與在一組任務的開頭提供完整的指令文本的其他技術形成了鮮明對比。研究人員解釋道,“對于人類來說,閱讀、聽力和口語會隨著時間的推移而延長,在此期間,我們會接收新的視覺輸入,并可以執行運動動作。類似地,我們在每個時間步長為我們的代理提供一個視頻幀和一個語言令牌,代理產生一個運動動作,在適用的環境中,每個時間步長產生一個語言標記?!?/span>
與語言模型的許多應用程序一樣,Dynalang可以在原始數據(文本和圖像)上進行預訓練,在那里它可以學習每個模型的潛在表示。然后,它可以在較小的傳感器和動作數據集上進行微調。然而,正如研究人員所指出的,有一點需要注意:“與典型的語言建模目標不同,該模型沒有明確地訓練為從前綴預測下一個令牌,除非通過在下一時間步長時的預測表示?!?/span>
Dynalang的效果如何?
Dynalang支持在不同類型的環境中工作——使用語言提示和指令來更好地學習世界模型(來源:GitHub)。
Dynalang的研究論文目前尚未正式印刷出版,這意味著它還沒有經過嚴格的同行評審。然而,該論文的作者包括人工智能研究領域備受尊敬的人物,例如伯克利機器人學習實驗室主任兼伯克利人工智能研究實驗室聯合主任Pieter Abeel。這為論文中的成果發現提供了一定程度的可信度。
研究人員讓Dynalang在各種環境中進行測試,每種環境都有獨特的設置和挑戰。在可能的情況下,他們將Dynalang的性能與在相同環境中運行的基線強化學習模型進行了比較。
HomeGrid就是這樣一個環境,它是一個多任務網格世界,代理在其中接收語言形式的任務規范以及語言提示,這些提示包括對對象的描述,環境中的動力信息以及相關動作的糾正。
研究人員指出,“值得注意的是,代理在HomeGrid中從未接受過關于提示含義的直接監督,而且提示通常與他們所指的對象或觀察結果相去甚遠?!边@意味著,代理必須通過將提示與世界模型觀察到的狀態相關聯來學習提示的含義。實驗表明,Dynalang善于利用這些提示,而RL模型則必須通過試錯來學習動作分布。
在另一個環境VLN-CE(Vision-and-Language Navigation in Continuous Environments:連續環境中的視覺和語言導航)中,需要代理在3D環境中導航以到達指定的目的地。每一組任務都包括一個環境和自然語言說明,說明如何到達目的地。
實驗表明,Dynalang在實現目標方面明顯比純RL方法更有效,因為它學會了將文本指令與環境觀察和行動聯系起來。
然而,作者警告說,“[Dynalang]還不能與最先進的VLN方法(其中許多方法使用專家演示或專業架構)競爭?!边@意味著,雖然Dynalang不如SOTA技術有效,但它也需要更少的手動注釋,并且可以從接近原始的數據中學習。
本論文還探討了另外兩個有趣的環境:Messenger游戲環境和LangRoom包含的問答挑戰。如果您要想詳細分析Dynalang在這些環境中的表現,我建議閱讀全文。
本論文的一個關鍵發現是,在純文本數據集上對模型進行預訓練可以顯著提高模型在最終任務中的性能。這表明,模型從文本中學習的能力是其整體有效性的關鍵因素。
然而,研究人員承認,Dynalang還有相當大的改進空間。他們認為,更好的語言建模技術和架構能夠支持長期的操作,可以提高模型的性能。我個人很感興趣的是,如果它與更先進的轉換器模型相結合的話它將如何改進。
此外,這些技術在現實世界中的表現如何還有待觀察,而現實世界往往比受控環境更不可預測和復雜。但研究人員對Dynalang的潛力持樂觀態度,尤其是在利用網上大量未標記數據方面。研究人員寫道,“在沒有動作或獎勵的情況下對視頻和文本進行預訓練的能力表明,Dynalang可以擴展到大型網絡數據集,為實現與世界上的人類交互的自我改進的多模式代理鋪平了道路?!?/span>
譯者介紹
朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。
原文標題:New AI technique uses language to learn world models,作者:Ben Dickson