成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CMU博士讓智能體在真實世界競技!GPT-4奪冠,但成功率只有一成

人工智能 新聞
NLP技術的發展,使得創建一個在數字世界中的智能代理成為了當下人們關注的熱點。此時,來自華人主導的團隊推出了WebArena,能夠測試智能代理在網絡環境中執行任務的實踐效果,那么具體我們應該怎么做呢?

長期以來,我們一直有著在人工智能的發展下創建自主的智能代理的愿景。

人們希望這些代理能夠與環境進行智能的交互,并實現人類為其設定的目標。

現有的強化學習(RL)框架在模擬的游戲或封閉的領域中取得了巨大的成功,但對于現實中復雜的物理環境卻束手無策。

而今的自然語言處理技術(NLP),為人類和大模型在數字世界中的智能交互提供了獨特的可擴展環境和學習優勢。

例如,WebShop 是一個包含數百萬種產品的購物網站環境,代理需要在其中閱讀網頁、鍵入查詢和單擊按鈕,才能像人類一樣購物。

這樣的數字任務挑戰了智能的一般方面:包括視覺理解、閱讀理解和決策,并允許擴展到其他程序中使用更多的功能。

諸如此類「數字世界中的智能代理」,為人工智能的落地應用設想了一個看起來還不錯的前景。

而就在7月26日,一個以華人為主團隊在X(原推特)上推出了測試智能代理在網絡環境中執行任務的實踐效果的Web環境:WebArena。

圖片

WebArena是什么?

WebArena是一個獨立的、自托管的 Web 環境。

開發者從電子商務、社交論壇、協作軟件開發和內容管理這四類現實中的創建了獨立的網站,在功能和數據上模仿真實世界的內容。

WebArena還將工具和知識資源嵌入為獨立的網站,以此讓智能代理有模擬人類解決問題的能力。

用戶可以對智能代理進行自然語言指令的基準測試,實現與Web的具體交互。

在WebArena的環境基礎上,開發者發布了一組基準任務,重點是評估任務完成的功能正確性。

其設置基準測試中的任務是多樣化的、長期的,并且旨在模擬人類在互聯網上經常執行的任務。

訂閱OneStopMarket的電子報

告訴我到目前為止,我們商店收到的含有”最佳”一詞的評論數量

距離緬因州最大的城市最近的國家公園是哪一個?

取消訂單 307

步行測量卡內基音樂廳和 UPMC Shadyside 之間的距離

檢查從匹茲堡機場開車一小時是否可以到達匹茲堡的杜肯大學

Agent on Gitlab Gitlab上的代理

"Set up a new, empty repository with the name awesome_llm_reading" “設置名為 awesome_llm_reading 的新空存儲庫”

Agent on Shopping Website

"Tell me the status of my latest order and when will it arrive" “告訴我最新訂單的狀態以及何時到達”

一般來說,要完成路線導航任務需要智能代理具備復雜的長期規劃和推理為了達成任務目標,智能代理需要:

在維基百科上搜索位于匹茲堡的藝術博物館,并在地圖上確定每家博物館的位置,根據收集的信息進行優化。

在完成路線規劃后,智能代理需要將結果更新到相關代碼倉庫的README文件中,以文本的形式添加規劃好的博物館游覽路線。

逼真且可重現的網頁環境

WebArena的目標是創建一個逼真且可重現的網頁環境。

主要通過兩種方式:

首先,要讓環境獨立自主而不依賴實時網站來實現可重現性。

其次,構建許多實際使用網站的開源庫,并從這些網站導入數據到我們的環境中來實現逼真性。

這種方式也幫助WebArena規避了技術挑戰。例如機器人需要通過驗證碼、內容和配置的不可預測變化等,這些都會阻礙對不同智能代理在時間跨度上的公平比較。

評價

高度逼真的WebArena可交互環境為基準測試的實現提供了條件。

與其他類似的模擬Web環境相比較,WebArena的基準測試包含人們日常可能遇到的各種任務。

同時,WebArena還設計了評估指標來檢查任務執行的功能準確性。

也因此,WebArena的基準測試更貼近真實的環境,智能代理的任務實踐效果也更接近現實。

對在WebArena中運行的智能代理執行任務的準確性,有以下兩種評估方式:

第一種是測量執行信息搜索任務的正確性。它將預測的答案與注釋的參考答案進行比較,有三種實現方式。

第二種方法是程序化地檢查執行過程中的中間狀態,檢查其是否具有意圖所指定的預期屬性。

整體而言,WebArena提供了一個功能完備、高度模擬現實的測試環境和評估體系。能夠衡量智能體執行復雜任務的全面能力。

GPT-4智能體奪得冠軍

研究者創建了812個用英語編寫的目標測試示例,和實現這些目標的網絡交互。

每個任務都會使用驗證器進行注釋,以編程方式檢查任務是否真正按預期完成。

在這些任務中,表現最好的GPT-4 Agent實現了10.59%的有限端到端任務成功率。

才不到一成,顯然有足夠的改進空間。

WebArena的試驗這也預示著這樣一個未來:

隨著越來越多的API被整合到環境中,一個由極其多樣化和開放式的數字工具和任務組成的生態系統將出現。我們將會培養出更通用和有能力的自主智能代理。

這將為通用人工智能(AGI)的道路帶來新的方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-05-28 13:00:55

2024-04-22 08:25:00

2024-02-06 14:11:00

模型數據

2024-03-27 09:12:52

自動化智能體

2023-07-21 14:28:54

2023-10-17 13:32:00

AI數據

2023-06-19 08:19:50

2024-11-22 14:10:00

AI智能體

2025-06-04 13:53:22

代碼模型AI

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2025-04-16 09:35:03

2023-02-01 13:37:59

ChatGPTAI

2023-08-24 14:22:00

智能模型

2024-03-27 13:32:00

AI數據

2023-11-03 13:07:00

AI模型

2024-05-21 12:23:17

2024-01-03 17:39:23

云計算混合云

2010-11-18 10:59:00

求職

2023-08-15 15:03:00

AI工具

2024-03-27 15:37:24

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www久久爱 | 国产精品久久久久久久久久 | 99精品国产一区二区三区 | 日韩中文字幕在线视频 | 狠狠干美女 | 国产精品久久久久久久久久免费 | 在线播放国产一区二区三区 | 91久久 | 超碰av人人 | 国产精品自拍一区 | 久久精品手机视频 | 亚洲成人免费视频 | 亚洲一区 | 日韩三级 | 久久综合久 | 能免费看的av | 国产91黄色 | a中文在线视频 | 亚洲午夜精品在线观看 | 日韩在线资源 | 国产亚洲精品区 | www日韩高清 | 日韩二 | 欧美1区| 国产精品成人一区二区三区 | 99综合| 天天干天天插 | 久久国产精品72免费观看 | 国产精品久久久久久久久久免费看 | 欧美精品久久久久久久久老牛影院 | 91精品久久久久 | 91色站 | 国产一区91精品张津瑜 | 99精品视频免费观看 | 粉色午夜视频 | 日韩字幕| 成人网av | 久久国产精品-国产精品 | 久久久久亚洲精品国产 | 国产欧美日韩 | www.久久久 |