成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent Q:具備自我學習、評估的智能體

發布于 2024-8-30 10:25
瀏覽
0收藏

GPT-4、Gemini等大模型在自然語言處理任務中取得了進步,但在交互式、多步驟環境中的泛化能力仍有欠缺。例如,當我們在網上購買一件特定的商品時,需要在眾多網頁中進行搜索、比較和選擇。


AGI平臺MultiOn和斯坦福的研究人員聯合開發了一種智能體Agent Q,能自主規劃、推理一些任務。Agent Q與其他智能體最大差別的是,它能從失敗和成功的任務中自動學習、評估,從而提高在復雜多步驟推理任務中的泛化能力。


論文地址:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

Agent Q:具備自我學習、評估的智能體-AI.x社區

Agent Q:具備自我學習、評估的智能體-AI.x社區

Agent Q框架采用了蒙特卡洛樹搜索(MCTS)算法來指導智能體的探索和決策過程。

MCTS是一種啟發式搜索算法,廣泛應用于游戲和決策領域,通過模擬可能的未來路徑來評估和選擇最優的行動策略。

Agent Q:具備自我學習、評估的智能體-AI.x社區

在Agent Q中,MCTS用于在網頁環境中導航,幫助智能體在每一步選擇最有希望的動作。這一過程涉及選擇、擴展、模擬和反向傳播四個階段,通過迭代地優化搜索樹來提高策略的性能。


MCTS算法在復雜環境中面臨的一大挑戰是環境獎勵的稀疏性,可能會導致智能體在長期任務中遇到困難。


為了解決這個難題,Agent Q引入了自我批評機制,這是一種自我評估過程,智能體在每個決策節點上使用自身的評估來提供中間獎勵。這不僅幫助智能體在搜索過程中進行自我監督,而且通過提供即時反饋能指導智能體學習正確的規劃路徑。

Agent Q:具備自我學習、評估的智能體-AI.x社區

Agent Q的自我批評機制依賴于一個反饋語言模型,該模型對智能體在每個節點上可能采取的動作進行評分,從而形成一個加權分數。


這個分數結合了MCTS的平均Q值和反饋語言模型生成的分數,用于構建直接偏好優化(DPO)算法中的對比對。DPO算法是一種離線強化學習算法,通過比較不同動作的偏好來優化策略,使得智能體能夠從成功的和不成功的軌跡中學習。

Agent Q:具備自我學習、評估的智能體-AI.x社區

Agent Q框架的另一個特色模塊是“迭代式微調”,也是實現自我學習的關鍵所在。在迭代中,智能體通過與環境的交互不斷學習和改進。與傳統的監督學習不同,迭代式微調允許智能體在沒有明確標簽的環境下進行學習,通過自我生成的數據和偏好對來指導優化過程。


此外,Agent Q框架還考慮了智能體的狀態表示問題。在網絡交互中,智能體的狀態可能部分不可觀察,因此構建一個有效的狀態表示對于智能體的性能至關重要。Agent Q采用了一種緊湊的歷史表示方法,將智能體迄今為止生成的動作和當前瀏覽器狀態結合起來,形成了一個高效的內存組件。


為了測試Agent Q的性能,研究人員在一種模擬電子商務平臺WebShop進行了綜合測試。實驗結果顯示,Agent Q的表現顯著優于行為克隆和強化學習微調的基線模型,在某些任務中甚至超過了平均人類表現。

Agent Q:具備自我學習、評估的智能體-AI.x社區

尤其是在真實世界的預訂場景中,Agent Q將Llama-3 70B模型的零樣本成功率從18.6%提升至81.7%,相對提升了340%,并在配備在線搜索功能后,成功率進一步提高到了95.4%。


本文轉自 AIGC開放社區 ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/Ku7OOWCzEXq8fA_y8M5KcQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 超碰日韩 | 久热m3u8 | 国内精品视频在线 | 欧洲av一区 | 国产中文视频 | 午夜伦4480yy私人影院 | cao视频 | 91在线精品一区二区 | 成人精品鲁一区一区二区 | 亚洲一级淫片 | 亚洲综合大片69999 | 欧美久久视频 | 欧美爱爱视频网站 | 国产精品亚洲精品久久 | 久久国产精品偷 | 91精品久久久久久久久久 | 精品视频免费 | 538在线精品 | 啪啪免费网| 日本不卡一二三 | aaaaaaa片毛片免费观看 | 亚洲一区视频在线 | 91精品国产综合久久婷婷香蕉 | 欧美高清免费 | 日韩精品人成在线播放 | 亚洲视频一区在线 | 天天操天天干天天爽 | 欧产日产国产精品视频 | 亚洲第一av| 国产精品福利久久久 | 日韩一二三区视频 | 性高朝久久久久久久3小时 av一区二区三区四区 | 91在线视频免费观看 | 一区二区久久电影 | 精品亚洲一区二区 | 国产精品美女久久久av超清 | 亚洲精品日韩综合观看成人91 | 在线观看av不卡 | 99久久久无码国产精品 | 国产免费观看视频 | 亚洲精品电影在线观看 |