「邊思考、邊搜索、邊寫作」WebThinker開啟AI搜索&研究新紀(jì)元!
李曉熙目前就讀于中國人民大學(xué)高瓴人工智能學(xué)院,博士二年級,導(dǎo)師為竇志成教授,研究方向主要包括檢索增強(qiáng)生成、大語言模型推理等。在國際頂級會議和期刊如 AAAI,SIGIR,TOIS 等發(fā)表多篇論文,代表工作包括 Search-o1, WebThinker, RetroLLM, GenIR-Survey, CorpusLM, UniGen 等。共同第一作者還包括人大高瓴博士生金佳杰和董冠廷。本文的通信作者為人大竇志成教授。
大型推理模型(如 OpenAI-o1、DeepSeek-R1)展現(xiàn)了強(qiáng)大的推理能力,但其靜態(tài)知識限制了在復(fù)雜知識密集型任務(wù)及全面報(bào)告生成中的表現(xiàn)。為應(yīng)對此挑戰(zhàn),深度研究智能體 WebThinker 賦予 LRM 在推理中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁及撰寫報(bào)告的能力。WebThinker 集成了深度網(wǎng)頁探索器,使 LRM 能自主搜索、導(dǎo)航并提取信息;自主思考 - 搜索 - 寫作策略無縫融合推理、信息收集與實(shí)時(shí)報(bào)告寫作;并結(jié)合強(qiáng)化學(xué)習(xí)訓(xùn)練優(yōu)化工具調(diào)用。實(shí)驗(yàn)表明,WebThinker 在 GPQA、GAIA、WebWalkerQA、HLE 等復(fù)雜推理基準(zhǔn)及 Glaive 研究報(bào)告生成任務(wù)中展現(xiàn)出強(qiáng)大性能,顯著提升了 LRM 在復(fù)雜場景下的適用性與可靠性,為構(gòu)建更強(qiáng)大、通用的深度研究系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。
- 論文標(biāo)題: WebThinker: Empowering Large Reasoning Models with Deep Research Capability
- 論文鏈接: https://arxiv.org/abs/2504.21776
- 代碼倉庫: https://github.com/RUC-NLPIR/WebThinker
Demo
1. OpenAI 有哪些模型?它們有什么區(qū)別?
2. 2025 年我能投稿哪些 AI 頂會?
研究動機(jī):賦予推理模型深度研究能力
大型推理模型如 OpenAI-o1 和 DeepSeek-R1 在數(shù)學(xué)、編程和科學(xué)等領(lǐng)域展現(xiàn)了卓越的推理能力。然而,當(dāng)面對需要廣泛獲取實(shí)時(shí)網(wǎng)絡(luò)信息的復(fù)雜任務(wù)時(shí),這些僅依賴內(nèi)部參數(shù)知識的模型往往力不從心。特別是在需要深度網(wǎng)絡(luò)信息檢索和生成全面、準(zhǔn)確的科學(xué)報(bào)告時(shí),這一局限性尤為明顯。
WebThinker 應(yīng)運(yùn)而生,它是一個(gè)深度研究智能體,使 LRMs 能夠在推理過程中自主搜索網(wǎng)絡(luò)、導(dǎo)航網(wǎng)頁,并撰寫研究報(bào)告。這種技術(shù)的目標(biāo)是革命性的:讓用戶通過簡單的查詢就能在互聯(lián)網(wǎng)的海量信息中進(jìn)行深度搜索、挖掘和整合,從而為知識密集型領(lǐng)域(如金融、科學(xué)、工程)的研究人員大幅降低信息收集的時(shí)間和成本。
推理中自主調(diào)用工具:擺脫傳統(tǒng)預(yù)定義 RAG 工作流
現(xiàn)有的開源深度搜索智能體通常采用檢索增強(qiáng)生成(Retrieval-Augmented Generation, RAG)技術(shù),依循預(yù)定義的工作流程,這限制了 LRM 探索更深層次網(wǎng)頁信息的能力,也阻礙了 LRM 與搜索引擎之間的緊密交互。
WebThinker 突破了傳統(tǒng) RAG 工作流的限制,實(shí)現(xiàn)了范式的升級:
1. 傳統(tǒng) RAG: 僅進(jìn)行淺層搜索,缺乏思考深度和連貫性
2. 進(jìn)階 RAG: 使用預(yù)定義工作流,包括查詢拆解、多輪 RAG 等,但仍缺乏靈活性
3. WebThinker: 在連續(xù)深思考過程中自主調(diào)用工具,實(shí)現(xiàn)端到端任務(wù)執(zhí)行
WebThinker 使 LRM 能夠在單次生成中自主執(zhí)行操作,無需遵循預(yù)設(shè)的工作流程,從而實(shí)現(xiàn)真正的端到端任務(wù)執(zhí)行。
WebThinker 框架:自主的深度搜索與報(bào)告撰寫
WebThinker 框架包含兩種主要運(yùn)行模式:
1. 問題解決模式:賦予 LRM 深度網(wǎng)頁探索器(Deep Web Explorer)功能,當(dāng)遇到知識缺口時(shí),LRM 可以自主發(fā)起網(wǎng)絡(luò)搜索,通過點(diǎn)擊鏈接或按鈕導(dǎo)航網(wǎng)頁,并在繼續(xù)推理前提取相關(guān)信息。
2. 報(bào)告生成模式:實(shí)現(xiàn)自主思考 - 搜索 - 寫作(Autonomous Think-Search-and-Draft)策略,將推理、信息搜索和報(bào)告撰寫無縫整合。LRM 可以使用專門的工具來草擬、檢查和編輯報(bào)告部分,確保最終報(bào)告全面、連貫且基于收集的證據(jù)。
整個(gè)過程是端到端的,LRM 可以在思考過程中自主搜索、深度探索網(wǎng)頁和撰寫研究報(bào)告,擺脫了傳統(tǒng)預(yù)定義工作流的局限。
核心組件:
1. 深度網(wǎng)頁探索:解決復(fù)雜推理問題
這一模塊使 LRM 能夠進(jìn)行網(wǎng)絡(luò)搜索和導(dǎo)航,深度收集、遍歷和提取網(wǎng)頁上的高質(zhì)量信息:
- 搜索能力:能夠基于當(dāng)前查詢生成搜索意圖,從搜索引擎獲取初步結(jié)果
- 導(dǎo)航能力:能夠點(diǎn)擊鏈接或按鈕,深入探索初始搜索結(jié)果之外的內(nèi)容
- 信息提取:基于當(dāng)前查詢的搜索結(jié)果,LRM 可以發(fā)起后續(xù)搜索并遍歷更深層次的鏈接,直到收集所有相關(guān)信息
2. 自主的思考 - 搜索 - 寫作:生成完整的研究報(bào)告
該策略將報(bào)告撰寫與 LRM 的推理和搜索過程深度整合:不同于在搜索后一次性生成整個(gè)報(bào)告,WebThinker 使模型能夠?qū)崟r(shí)撰寫和尋求必要知識。具體來說,WebThinker 為 LRM 配備三種專門工具:(1)撰寫特定章節(jié)內(nèi)容;(2)檢查當(dāng)前報(bào)告已寫內(nèi)容;(3)編輯 / 修改報(bào)告。這些工具使 LRM 能夠通過保持全面性、連貫性和對推理過程中新發(fā)現(xiàn)信息的適應(yīng)性來自主增強(qiáng)報(bào)告質(zhì)量
3. 基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略:全面提升 LRM 調(diào)用研究工具的能力
為了進(jìn)一步釋放 LRM 骨干模型的深度研究潛力,WebThinker 開發(fā)了基于強(qiáng)化學(xué)習(xí)的訓(xùn)練策略:
- 利用配備工具的 LRM 從復(fù)雜任務(wù)中采樣大規(guī)模推理軌跡
- 根據(jù)推理的準(zhǔn)確性、工具使用準(zhǔn)確性、以及最終輸出答案或報(bào)告的質(zhì)量,構(gòu)建在線直接偏好優(yōu)化(DPO)訓(xùn)練的偏好對
- 通過迭代、在線策略訓(xùn)練,模型逐步提高感知、推理和有效交互研究工具的能力
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果:真實(shí)世界的復(fù)雜推理任務(wù)
WebThinker 在四個(gè)知識密集型復(fù)雜推理基準(zhǔn)上進(jìn)行了評估:
1. GPQA:PhD 級別的科學(xué)問題回答數(shù)據(jù)集,覆蓋物理、化學(xué)和生物學(xué)
2. GAIA:評估 AI 助手在復(fù)雜信息檢索任務(wù)上的能力
3. WebWalkerQA:專注于深度網(wǎng)絡(luò)信息檢索,需要導(dǎo)航和提取信息
4. 人類最終考試(HLE):極具挑戰(zhàn)性的跨學(xué)科問題數(shù)據(jù)集
從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):
1. 基礎(chǔ)推理模型和傳統(tǒng) RAG 的局限:基礎(chǔ)推理模型雖然在某些任務(wù)上表現(xiàn)不錯(cuò),但在需要實(shí)時(shí)外部知識的場景中明顯力不從心;傳統(tǒng) RAG 方法雖有改進(jìn),但在復(fù)雜任務(wù)中提升有限;
2. 自主搜索的優(yōu)勢:而引入自主搜索能力的模型則帶來了顯著提升。WebThinker 憑借其深度網(wǎng)頁探索器,能夠更全面地獲取和整合網(wǎng)絡(luò)信息,在所有基準(zhǔn)測試中都取得了明顯優(yōu)勢。
3. RL 訓(xùn)練的改進(jìn):特別是經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的 WebThinker-32B-RL 版本,不僅在同等參數(shù)量模型中達(dá)到了最佳表現(xiàn),甚至在某些任務(wù)上超越了參數(shù)量更大的專有模型。
實(shí)驗(yàn)結(jié)果:科學(xué)研究報(bào)告生成
在 Glaive 科學(xué)報(bào)告生成任務(wù)的評估中:
1. 生成報(bào)告的質(zhì)量:從完整性、徹底性、事實(shí)性和連貫性四個(gè)維度評估,WebThinker 生成的研究報(bào)告均獲得高分,整體表現(xiàn)優(yōu)于傳統(tǒng) RAG 方法和其他先進(jìn)的深度研究系統(tǒng);
2. 生成報(bào)告的信息邊界:特別在報(bào)告的完整性和徹底性方面表現(xiàn)尤為突出,通過 t-SNE 可視化分析可見,WebThinker 生成的報(bào)告內(nèi)容覆蓋更廣,視角更多元,能夠從多個(gè)維度深入探索和綜合信息,為用戶提供更全面、更深入的調(diào)研。
實(shí)驗(yàn)結(jié)果:適配 DeepSeek-R1 系列模型
通過在不同規(guī)模的 DeepSeek-R1 模型上進(jìn)行實(shí)驗(yàn)(7B, 14B, 32B),驗(yàn)證了 WebThinker 框架的適應(yīng)性。在不同模型規(guī)模下,都能顯著提升各類任務(wù)的性能,遠(yuǎn)超直接推理和標(biāo)準(zhǔn) RAG 方法,展現(xiàn)了該框架在增強(qiáng) LRM 深度研究能力方面的通用性和有效性。
實(shí)驗(yàn)結(jié)果:消融實(shí)驗(yàn)
消融實(shí)驗(yàn)評估了 WebThinker 各關(guān)鍵組件的貢獻(xiàn)。結(jié)果顯示,深度網(wǎng)頁探索器以及自主 「思考 - 搜索 - 寫作」 策略中的報(bào)告生成組件(尤其是自主報(bào)告起草)是確保高性能問題解決和高質(zhì)量報(bào)告生成的基石,其缺失會導(dǎo)致性能顯著下降。強(qiáng)化學(xué)習(xí)訓(xùn)練則主要增強(qiáng)了問題解決能力,對報(bào)告生成的影響相對有限。
總結(jié)與未來展望
WebThinker 框架成功地賦予了大型推理模型深度研究能力,解決了它們在知識密集型真實(shí)世界任務(wù)中的局限性。通過深度網(wǎng)頁探索器和自主思考 - 搜索 - 寫作策略,WebThinker 使 LRM 能夠自主探索網(wǎng)絡(luò)并通過連續(xù)推理過程生成全面輸出。
未來,為持續(xù)提升深度研究模型的能力,仍有很多方向值得探索:
1. 多模態(tài)深度搜索:WebThinker 基于文本推理模型,難以處理圖像等其他模態(tài)的信息。未來可以擴(kuò)展到圖像、視頻等多模態(tài)內(nèi)容的深度研究,來利用網(wǎng)頁中的多模態(tài)信息。
2. 工具學(xué)習(xí)與擴(kuò)展:當(dāng)前支持有限的研究工具,未來可以通過工具學(xué)習(xí)來不斷優(yōu)化工具使用策略,并擴(kuò)展更多工具,來支持更復(fù)雜的任務(wù)。
3. GUI 網(wǎng)頁探索:通過 GUI 網(wǎng)頁探索能力,讓模型能夠更好地理解和操作網(wǎng)頁界面,實(shí)現(xiàn)更復(fù)雜的交互任務(wù),如訂機(jī)票、指定旅游路線圖、等等。