成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<form id="xrait"></form>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

WebWalker：通過Multi Agent提升RAG在開放域QA的性能

大語言模型論文跟蹤

發布于 2025-2-6 15:28

瀏覽

0收藏

WebWalker: Benchmarking LLMs in Web Traversal

檢索增強生成（RAG）在開放域問答任務中表現出色。然而，傳統搜索引擎可能會檢索淺層內容，限制了大型語言模型（LLM）處理復雜、多層次信息的能力。為了解決這個問題，我們引入了WebWalkerQA，一個旨在評估LLM執行網頁遍歷能力的基準。它評估LLM系統性地遍歷網站子頁面以獲取對應信息的能力。同時我們提出了WebWalker，一個通過explorer-critic范式模擬人類網頁導航的multi-agent框架。廣泛的實驗結果表明，證明了結合WebWalker的RAG在實際場景中通過橫向搜索和縱向頁面挖掘集成的有效性。

??https://arxiv.org/pdf/2501.07572??

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區圖片

1. 為什么要提出 WebWalkerQA

大型語言模型（LLM）通常處于知識固定狀態（無法實時更新）。盡管使用檢索增強生成（RAG）可以獲取最新信息，但傳統搜索引擎（如谷歌、百度等）的橫向搜索方式限制了對信息的深層挖掘能力，無法像人類一樣通過逐步點擊等操作獲取更多細節，從而更“聰明”地獲取所需信息。因此，作者提出了一個新任務——Web Traversal，旨在給定與查詢相關的初始網站，系統地遍歷網頁以揭露隱藏在其中的信息。

2. 什么是WebWalkerQA和WebWalker

?[Dataset] WebWalkerQA：根據網站的URL樹，通過四個階段，構建單源/多源的easy、medium、hard難度的QA對，涵蓋四種常見官網來源及中英兩種語言。

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區圖片

?[Method] WebWalker：采用多智能體框架，由一個探測智能體（explorer agent）和一個裁判智能體（critic agent）組成。

? 探測智能體基于ReAct，遵循思考-行動-觀察范式，模擬人在網頁中點擊按鈕跳轉頁面的過程；

? 裁判智能體則負責存儲搜索過程中的信息，在探測代理點擊的過程中，保存對查詢有幫助的信息，并判斷何時能夠停止探測代理的探索。

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區圖片

3. 效果評估

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區圖片

? 上表展示了不同模型作為backbone，WebWalkerQA使用不同方法的智能體性能結果。可以發現即使是最好的模型gpt-4o在這個任務也表現較差，任務中可能涉及到多跳推理和對文本的推理的能力。

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區圖片

? 上表顯示了在close book和目前較好的開源及商用RAG系統上的性能。在close book 設置下正確率只有10%，因為WebwalkerQA具有高時效性，而LLM具有知識的cutoff，這與第一個limitation呼應。在源及商用RAG系統上，最好的效果也只有40，驗證了第二個limitation，傳統搜索引擎可能會檢索淺層內容，即使很多閉源的RAG系統使用了query改寫或者agentic的操作，但是還是沒有一步到位定位到的需要的web information source。

? 還包括一系列分析實驗，如下：

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區圖片

值得注意的是，webwalker中的memory對于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當作對query進行橫向搜索，webwalker是對頁面的縱向深度探索，這是完全可以互補的。

因此可以把webwalker中的memory拼接到rag鏈路上，這種橫向和縱向整合表現出色，在所有類別和難度的數據集上效果均有提升，證明了垂直探索頁面對于提升RAG性能的潛力。這是對RAG二維探索的首次嘗試！

此外，對 webwalker 的挖掘點擊次數進行scale up，看是否能得到更好的、更多的memory信息，隨著挖掘點擊次數的增大，不僅在webwalker上有較大提升，把memory加入到rag系統之后，性能也隨之提升。這給rag系統進行test-time的拓展提供了新的角度。

?? WebWalker的設計讓人聯想到pair programming（對編程），即兩人協作，一個寫代碼，一個檢查bug。探測代理和裁判代理的功能其實類似于這種協作。

?? 文章最后提出了三項發現，首次提出了RAG二維探索的scaling潛力，探討如何更“聰明”地進行橫向和垂直兩個方向的探索（test-time compute）。

作者介紹：本文主要作者來自通義實驗室和東南大學。通訊作者是通義實驗室蔣勇和東南大學周德宇。第一作者吳家隆，主要研究方向是Agent和Efficient NLP，該工作在阿里巴巴通義實驗室RAG團隊科研實習完成，

Github：https://github.com/Alibaba-nlp/WebWalker

Homepage: https://alibaba-nlp.github.io/WebWalker/

Demo: https://www.modelscope.cn/studios/iic/WebWalker/

Demo: https://huggingface.co/spaces/callanwu/WebWalker

本文轉載自??大語言模型論文跟蹤??，作者：WebWalker團隊 ????

WebWalker：通過Multi Agent提升RAG在開放域QA的性能-AI.x社區

標簽

贊

收藏

回復

舉報

回復

相關推薦

簡單卻有效的Agent推理框架：通過預測未來大幅提升智能體的規劃能力

zhangyannni ? 4598瀏覽 ? 0回復
再次提升RAG性能：兩種高效的Rerank模型實踐指南

AIGC觀察者 ? 2.2w瀏覽 ? 0回復
RAG技術性能提升之文檔分塊策略方案

AIGC觀察者 ? 5534瀏覽 ? 0回復
提升RAG系統性能10條策略建議

AIGC觀察者 ? 2928瀏覽 ? 0回復
RAPTOR 檢索樹再次進一步提升RAG性能的設計思路

AIGC觀察者 ? 4287瀏覽 ? 0回復
Multi-Meta-RAG：langchain點名，評論爆吹的新研究

探索AGI ? 3007瀏覽 ? 0回復
Multi-Agent實現自動爬蟲&生成圖譜報告

探索AGI ? 3371瀏覽 ? 0回復
Multi-Stage Language Model Programs：提升語言模型程序的新策略

AIGC最前線 ? 2361瀏覽 ? 0回復
Adaptive-RAG：性能提升50%以上的高效RAG策略

大語言模型論文跟蹤 ? 2864瀏覽 ? 0回復
Class-RAG：通過RAG 提高內容審核性能

大語言模型論文跟蹤 ? 2600瀏覽 ? 0回復
RAG：如何通過實時數據提升AI準確性并減少“幻覺”

Halo咯咯 ? 8989瀏覽 ? 0回復
TextIn：一款優秀的文檔解析神器，提升RAG性能必備

恰似驚鴻 ? 4478瀏覽 ? 0回復
提升RAG性能的全攻略：優化檢索增強生成系統的策略大揭秘

Halo咯咯 ? 6350瀏覽 ? 0回復
提升RAG性能：分塊后，Chunk Enrichment的2個關鍵優化步驟不可錯過

凝固的雨_1 ? 2906瀏覽 ? 0回復
推理模型+Multi-Agent，可能就是Deep Research的全貌！

探索AGI ? 2574瀏覽 ? 0回復
PathRAG：通過圖剪枝的方法優化Graph-based RAG的性能方法淺析

大模型自然語言處理 ? 2390瀏覽 ? 0回復
大模型通過Deep ReSearch駕馭Multi-Agent原理深度剖析

九歌AI大模型 ? 3928瀏覽 ? 0回復
ViDoRAG：提升視覺RAG性能10%

大語言模型論文跟蹤 ? 2380瀏覽 ? 0回復
人工智能小白到高手：RAG通過重排（Reranking）提升信息檢索的質量

AI取經路 ? 2016瀏覽 ? 0回復

大語言模型論文跟蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

不懂RAG？看這一篇萬字長文就夠了 7天前發布
詳解 Minus AI：邁向AGI新紀元？ 2025-06-13 07:02:10發布

熱門推薦

不懂RAG？看這一篇萬字長文就夠了 0回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

上一篇： OmniThink：如何讓 LLM 寫出有更有深度的文章

下一篇： Salesforce 新方法讓RAG效果飆升

社區精華內容

目錄

主站蜘蛛池模板：黄色国产视频 | 欧美福利视频一区 | 亚洲一区在线日韩在线深爱 | 欧美亚洲视频在线观看 | 亚洲一区视频在线 | 国产福利视频在线观看 | 国产精品久久久爽爽爽麻豆色哟哟 | 国产精品久久久久久吹潮 | 精品1区2区 | 国产午夜精品视频 | 中文字幕第十一页 | 国产福利资源在线 | 国产精品久久久久久久免费大片 | 亚洲视频精品 | 国产日韩欧美在线 | 91精品国产综合久久小仙女图片 | 最近中文字幕第一页 | av大片在线观看 | 亚洲狠狠 | 日韩成人在线播放 | 精品久久免费 | 日韩在线小视频 | 精品一区二区av | 国产精品久久久久久福利一牛影视 | 污视频免费在线观看 | 成人av一区 | 亚洲欧美日韩在线 | 欧美天堂一区 | 欧美在线一区二区三区 | 91精品国产乱码久久久久久久久 | 伦理二区 | 欧美在线视频一区二区 | 亚洲精品9999久久久久 | 91.com视频| 国产高清视频一区二区 | 一区二区三区欧美大片 | 日本理论片好看理论片 | 亚洲视频在线看 | 亚洲精品区 | 岛国av一区二区三区 | 国产一区二区三区日韩 |