用多模態世界模型預測未來!UC伯克利全新AI智能體,精確理解人類語言,刷新SOTA
現在,基于強化學習的智能體已經可以輕松地執行諸如「撿起藍色積木」這類的指令。
但人類大部分時間的語言表達,卻遠遠超出了指令的范圍。比如:「我們好像沒有牛奶了」......
而智能體想要學習這類語言在世界中的含義,是非常困難的。
對此,來自UC伯克利的研究團隊認為,我們實際上可以利用這些語言,來幫助智能體更好地對未來進行預測。
論文地址:https://arxiv.org/pdf/2308.01399.pdf
具體來說,研究人員提出了一種全新的智能體——Dynalang。
與僅用語言預測動作的傳統智能體不同,Dynalang通過使用過去的語言來預測未來的語言、視頻和獎勵,從而獲得豐富的語言理解。
除了在環境中的在線交互中學習外,Dynalang還可以在沒有動作或獎勵的情況下在文本、視頻或兩者的數據集上進行預訓練。
也就是說,新的智能體這時再聽到「我們沒有牛奶了」,就能get到這句話意思是「冰箱里的牛奶喝完了」。
工作原理
使用語言來理解世界自然而然地適合于世界建模范式。
Dynalang以基于模型的RL智能體DreamerV3為基礎,并可利用其在環境中動作時所收集到的經驗數據,不斷地進行學習。
左:世界模型在每個時間步將文本和圖像壓縮為潛在表征。在這個表征中,模型被訓練以重構原始觀察結果,預測獎勵,并預測下一個時間步的表征。直觀地說,世界模型學會了在給定文本中所讀內容的情況下,應該期望在世界中看到什么。
右:Dynalang通過在壓縮的世界模型表征基礎上訓練策略網絡來選擇動作。它在世界模型的想象中反復進行訓練,從而學會采取最大化預測獎勵的動作。
與之前一次處理一個句子或段落的多模態模型不同,Dynalang將視頻和文本作為一個統一的序列進行建模,一次處理一個圖像幀和一個文本token。
直觀地說,這更像是人類在現實世界中接收輸入的方式。
將所有內容都建模為一個序列,就可以像語言模型一樣在文本數據上進行預訓練,從而提高強化學習的性能。
語言提示
為了評估智能體在環境中的表現,研究人員引入了HomeGrid。其中,智能體除了任務指令外,還會收到語言提示。
HomeGrid中的提示,不僅模擬了智能體可能從人類那里學到的知識或從文本中讀到的信息,而且還提供了有用但不是解決任務所必需的信息:
- 「未來觀察」:描述智能體在未來可能觀察到的情況,例如「盤子在廚房里」。
- 「糾正」:根據智能體正在執行的任務的提供交互式反饋,例如「轉過身去」。
- 「動態」:描述環境的動態,例如「踩踏板打開堆肥箱」。
雖然智能體并未接受過明確的指導來分辨觀察結果和文本的對應關系。但Dynalang仍能通過未來的預測目標,學會將各種類型的語言與環境聯系起來。
結果顯示,Dynalang要明顯優于以語言為條件的IMPALA和R2D2。
后者不僅在使用不同類型的語言時非常吃力,而且在使用指令以外的語言時表現得更差。
游戲評估
在Messenger游戲環境中,研究人員測試了智能體是如何從較長且更復雜的文本中學習的,這需要在文本和視覺觀察之間進行多跳推理。
智能體必須對描述每個情節動態的文本說明進行推理,并將其與環境中的實體觀察結合起來,以確定從哪些實體獲取消息和避開哪些實體。
結果顯示,Dynalang的表現要明顯優于IMPALA和R2D2,以及使用專門架構對文本和觀察結果進行推理任務優化的EMMA基準,尤其是在最困難的第3階段。
指令跟隨
Habitat的測試結果表明,Dynalang能夠處理逼真的視覺觀察并執行指令。
也就是,智能體需要按照自然語言的指令,導航到家中的目標位置。
在Dynalang中,指令跟隨可以通過將其視為未來獎勵預測,來在相同的預測框架中統一處理。
語言生成
就像語言會影響智能體對所見事物的預測一樣,智能體觀察到的事物也會影響它期望聽到的語言(例如,關于所見事物的真實陳述)。
通過在LangRoom中將語言輸出到動作空間中,Dynalang可以生成與環境相關聯的語言,從而執行具體的問題回答。
文本預訓練
由于使用語言建立世界模型與使用世界模型學習動作是分開的,因此Dynalang可以在沒有動作或獎勵標簽的情況下使用離線數據進行預訓練。
這種能力使Dynalang能夠從大規模的離線數據集中受益,所有這些數據集都在單一模型架構內。
研究人員使用純文本數據對Dynalang進行預訓練,并從頭開始學習token嵌入。
模型在通用文本數據(TinyStories,200萬個短故事)上進行預訓練之后,可以提高Messenger下游RL任務的表現,甚至超過了使用預訓練的T5嵌入。
盡管這項工作的重點是讓智能體能夠理解語言并采取行動,但其實也可以像純文本語言模型一樣生成文本。
研究人員在潛空間中對預訓練的TinyStories模型進行了抽樣推演,并在每個時間步驟從表征中解碼出token觀察。
結果顯示,模型生成的結果具有令人驚訝的一致性,不過在質量上仍然低于SOTA的語言模型。
不過由此也可以看出,將語言生成和行動統一到單一的智能體架構中,是一個很有趣的研究方向。
作者介紹
Jessy Lin
論文一作Jessy Lin,是加州大學伯克利分校人工智能研究院(Berkeley AI Research)的三年級博士生,由Anca Dragan和Dan Klein指導。
她的研究方向是構建能與人類合作和互動并以語言為媒介的智能體。此外,她還對對話以及語言+強化學習非常感興趣。目前,她的研究得到了蘋果人工智能獎學金的支持。
她在麻省理工學院獲得了計算機科學和哲學雙學位。在那里,她與計算認知科學小組合作,在Kelsey Allen和Josh Tenenbaum的指導下進行人類啟發式人工智能研究,同時作為labsix的創始成員從事機器學習安全研究。
此外,她還曾在Lilt從事人機協作機器翻譯/專家翻譯的Copilot研究和產品開發。