WebSailor 突破邊界：助力開源智能體跨越復雜推理 “天花板”

作者：肆零柒 2025-07-10 10:21:19

當信息如潮水般涌來，人類的認知卻受限于生理與思維的邊界。智能體技術成為破局利器，可開源智能體卻長期被性能瓶頸所困。WebSailor 開源項目，憑借創新的訓練方法和數據合成策略，賦予開源智能體強大的復雜推理能力，為我們帶來構建智能體的創新思路

大家好，我是肆〇柒，自從互聯網時代開啟以來，人類社會經歷了多次信息技術變革，而互聯網猶如一把雙刃劍。一方面，它以每兩年數據量翻一番的驚人速度，為人類打開了通往海量知識的大門；另一方面，也向我們的認知能力發起了前所未有的挑戰。當我們面對無邊無際的信息數據時，人類有限的記憶容量、脆弱的注意力穩定性，以及線性單一的探索路徑，無疑成為了制約我們高效獲取精準信息的瓶頸。我們需要一種全新的技術力量，來突破這些與生俱來的認知枷鎖。

當下，AI Agent 的出現，成為了我們獲取數據、知識的增強型工具。像 DeepResearch 這類專有智能體系統，在復雜信息檢索領域得到贊許。以 BrowseComp 測試為例，它在定位互聯網中那些晦澀難尋、多維度交織的信息時，展現出超乎人類的精準度，最高可達 67.4%。然而，與之形成鮮明對比的是，多數開源智能體模型在相同任務中準確率幾乎為零，這赤裸裸地揭示了開源智能體在處理復雜推理任務時的先天不足，那么開源智能體注定要在這場認知革命中落后一步嗎？

在此背景下，通義實驗室推出了WebSailor開源項目。它聚焦于開源智能體的核心痛點 —— 降低極端不確定性，憑借獨特的訓練方法與數據合成策略，劍指開源與專有智能體之間的性能天塹，為開源智能體開辟了一條逆襲之路。WebSailor 項目不僅提出了創新的技術方案，更在理論層面深入剖析了現有技術的局限性，為智能體技術的發展提供了創新的思考。

定義問題

智能體的 ReAct 框架解析

WebSailor 采用當下大家熟悉的 ReAct 框架，智能體在接收到問題后，會開啟一段充滿思考與行動的推理。以 “誰是 20 世紀最具影響力的物理學家” 這個問題為例，智能體首先會基于已有的知識儲備或簡單的搜索動作，產生初步的想法（Thought），這就好比我們在面對一個問題時腦海中的第一反應。接著，它會執行搜索動作（Action），就像我們打開搜索引擎輸入關鍵詞一樣，然后獲取搜索結果（Observation），這些結果就如同外界反饋給我們的信息。智能體再根據這些反饋結果調整思路，重復這個迭代過程，直至最終鎖定答案，整個過程充滿了動態調整與優化，力求在復雜的信息迷宮中找準方向。

ReAct 框架在 WebSailor 中的具體實現細節如下：

任務初始化 ：智能體接收問題后，將其編碼為初始狀態表示，結合問題的語義信息和已有的背景知識，生成初始的思考內容。例如，在處理 “尋找某物理學理論的提出者” 這類問題時，智能體會根據問題中的關鍵詞 “物理學理論” 和 “提出者”，激活與物理學歷史相關的知識節點。
迭代過程 ：在每次迭代中，智能體依據當前狀態，通過策略網絡生成思考內容和動作。思考內容是對當前問題理解和解決思路的描述，動作則是具體的操作指令，如搜索或訪問特定網頁。例如，在思考內容為 “需要確定該物理學理論的關鍵特征” 時，智能體執行搜索操作，查詢與該理論相關的文獻和資料。
狀態更新 ：根據動作執行后的反饋結果（如搜索到的網頁內容摘要），智能體更新狀態表示。狀態表示融合了原始問題、之前的思考內容、已執行的動作以及觀察到的結果等信息，為下一輪迭代提供基礎。

在不同任務層級下，ReAct 框架的運行機制有所不同：

Level 1 任務 ：由于其邏輯簡單，智能體通常在初次思考后就能確定合適的動作，快速獲取答案，迭代次數較少。例如，對于問題 “某知名事件發生的具體年份”，智能體可能僅需一次搜索動作，就能從權威資料源中找到準確答案。
Level 2 任務 ：初始不確定性較高，但存在明確解決路徑。智能體按照既定步驟逐步推理，每一步的思考內容和動作都緊密關聯，形成一個有序的鏈條。例如，在解決多跳問答 “某科學家的出生地所在國家的首都是哪里” 時，智能體先搜索科學家的出生地，再根據出生地搜索對應的國家首都。
Level 3 任務 ：面臨高且難降低的不確定性，智能體需要在每次迭代中進行廣泛的探索和嘗試，靈活調整思路。比如，在處理 “尋找某小眾文化現象的起源和傳播路徑” 這類問題時，智能體可能嘗試多種不同的搜索關鍵詞組合，從多個角度收集信息，并根據觀察結果不斷修正思考方向，逐步構建起對問題的完整理解。

信息檢索任務的層級劃分

為了更精準地理解和優化智能體的推理能力，將信息檢索任務劃分為三個層級（如下圖所示）。

信息檢索任務可以分為三個層級。一級任務的邏輯結構相對簡單，可以直接回答，或者通過調用單一、簡單的工具來解決。二級任務類似于多跳問題，其解決方案需要通過一系列固定的推理步驟來獲得。三級任務在經過混淆處理后，呈現出最為復雜且多變的結構，難以手動定義，其內在的不確定性也很難降低

Task Level 1 相對簡單，它們的邏輯結構清晰明了，例如 “誰在 2004 年獲得理查德?道金斯獎”，這類問題往往可以直接通過模型內部知識庫的檢索，或者依靠單次的網絡搜索，就能迅速得到答案，猶如大海撈針。

進階一點的 Task Level 2，雖然初始不確定性有所提高，但好在存在一條明確的解決路徑。以多跳問答 “誰是 1986 年人民力量革命中最杰出人物” 為例，智能體需要按照既定的步驟，像偵探破案一樣，逐步推理，每一步都環環相扣，最終解開謎團。

而 Task Level 3 則是智能體面臨的終極挑戰，它們不僅面臨高不確定性，而且這種不確定性極難降低。比如 “阿里巴巴現任 CEO 母校的首位中國科學院院士是誰”，這類問題中實體之間的關系錯綜復雜，沒有預定義的解決路徑可供遵循。智能體像在大霧中探索，憑借創造性的探索和新穎的推理模式，才能在重重迷霧中找到通往答案的路徑。

大規模復雜推理訓練數據合成

SailorFog-QA 數據集構建

現在，走進 WebSailor 的數據 “工廠”，看看它是如何打造專屬的訓練數據集 ——SailorFog-QA 的。一切始于知識圖譜的構建，以從 Wikidata 的 SPARQL 服務中獲取的模糊實體作為起點，這就好比是為智能體的推理埋下了一顆種子。比如，以 “量子物理” 為起點，模擬網頁瀏覽過程，收集與之相關的文本和特征信息，這些信息就像是一塊塊拼圖碎片。然后，從這些碎片中提取實體和關系，構建起初始的節點和邊，形成知識圖譜的雛形。

接下來是子圖采樣與信息模糊化處理環節，從復雜圖譜中采樣出具有多樣拓撲結構的子圖，這就像是從一個龐大的知識迷宮中挑選出一個個獨特的迷宮拼圖。基于這些子圖生成問題，同時引入模糊化處理，將精確日期變為模糊時期（“20 世紀初”），將完整名稱部分遮蔽（“由姓氏首字母為‘F’的人創立的機構”），從而增加初始不確定性，形成 SailorFog-QA 數據集。這種模糊化處理就像是給問題蒙上了一層面紗，讓智能體在訓練過程中學會透過迷霧看真相。

數據集優勢深入剖析

SailorFog-QA 數據集的優勢不言而喻。首先，它精準復刻了真實世界中的復雜信息環境，讓智能體在訓練過程中就能接觸到實際應用中可能遭遇的各種挑戰場景，就像是在真實的戰場中進行實戰演練，而不是僅僅局限于理論上的紙上談兵。其次，不同拓撲結構的子圖天然衍生出豐富多樣的推理模式，從多步演繹到組合分析，全方位錘煉智能體的推理能力，讓智能體在各種復雜的推理場景中都能游刃有余。最后，隨著圖譜規模不斷擴大，潛在子圖數量呈非線性增長，這種可擴展性為模型訓練提供了源源不斷的海量素材，確保智能體的訓練過程永遠不會因為數據的匱乏而停滯不前。相較于其他數據集，SailorFog-QA 在數據復雜性和多樣性上具有顯著優勢，為智能體訓練提供了更為豐富的挑戰場景。

基于專家 LRM 軌跡的推理重建

直接使用 LRM 輸出的局限性

訓練智能體的道路并非一帆風順。在嘗試直接使用開源大型推理模型（如 QwQ-32B）的輸出時，發現了兩個棘手的問題。一是風格污染，這些模型具有強烈的風格化傾向，它們冗長、花哨的推理過程如果直接用于微調，就像給智能體套上了一件不合身的緊身衣，限制了它們形成自主探索策略的能力，削弱了泛化能力。二是上下文過載，在復雜任務中，LRM 的冗長推理鏈很容易超出模型上下文窗口的限制，這就像是在有限的道路上運輸過多的貨物，導致性能下降，影響推理的連貫性。

推理重建方法的優化與創新

為了解決這些問題，研究者提出了一種巧妙的推理重建方法。首先，從專家 LRM 生成的軌跡中，僅保留正確的動作 - 觀察序列，剔除冗余思考內容。這就好比是從一篇冗長的論文中提取出關鍵的摘要，保留最核心、最有價值的部分。例如，在解決 “某物理學家的出生年份與哪一科學發現時間相吻合” 的問題時，可以從 LRM 的完整軌跡中提取關鍵動作和觀察結果。

<think> thinking process here </think>
<tool_call>
"name": "tool name here", "arguments": "parameter name here": parameter value here, "another
parameter name here": another parameter value here, ...
</tool_call>
<tool_response>
tool_response here
</tool_response>
(more thinking processes, tool calls and tool responses here)
<think> thinking process here </think>
<answer> answer here </answer>

然后，針對每個動作步驟，利用獨立的指令遵循模型生成簡潔的邏輯推理思考，替代原 LRM 的冗長推理鏈。這就像是用精煉的語言重新講述一個故事，既保留了故事的核心內容，又讓它更加簡潔易懂，最終形成高效、簡潔的推理軌跡，為智能體提供清晰的行動指南。

強化學習方法

RFT 冷啟動的深度解析

在強化學習的征程中，首先采用了 RFT 冷啟動策略。在完整軌跡中，對智能體的思想、動作和環境觀察結果進行特殊標記，這就像是給它們貼上了不同的標簽，方便我們進行后續的篩選和處理。通過三階段過濾，僅保留正確答案結尾、長度適中（不超過 32k token）且工具調用次數多的軌跡，確保監督信號的正確性和有效性。這就好比是在一堆金礦石中篩選出最純的金子，為智能體的訓練提供最優質的素材。

訓練目標聚焦于提升智能體的決策能力，通過優化損失函數，讓智能體在訓練過程中學會生成有效的思想和動作。這就像是在訓練一位新手司機，讓他在反復練習中掌握如何在復雜的路況中做出正確的決策，從而在復雜任務中駛向成功的目的地。

DUPO 算法的核心原理與實現

DUPO 算法則是強化學習中的又一創新之舉。在訓練前，先篩選出過于簡單的案例，避免訓練過程中的時間浪費。在訓練過程中，對同一批次中具有非零標準差的樣本進行重復采樣，這種方法相比傳統方法，速度提升 2 - 3 倍。

同時，采用基于群體相對方式的優勢估計方法，結合規則式獎勵，綜合格式驗證和答案驗證。這就像是為智能體設置了一套全面的考核標準，不僅要求它能生成正確的答案，還要確保它在行動過程中遵循預定義的格式，讓智能體的每一個動作都精準無誤，每一步推理都合情合理。具體來說，DUPO 算法通過以下公式計算優勢函數：

實驗評估

實驗設置與評估指標

在實驗階段，在 Qwen-2.5-3B 至 Qwen-2.5-72B 等不同規模模型上開展了 RFT 和 RL 訓練，主要評估指標為 pass@1，重點測試 BrowseComp-en、BrowseComp-zh、GAIA、Xbench-DeepSearch 四大基準測試。這就像是讓智能體參加不同級別的考試，全面檢驗它們的能力水平。

同時，與直接推理（涵蓋非推理模型和推理模型）、專有瀏覽智能體（如 DeepResearch、Grok-DeepResearch 等）以及開源智能體（如 Search-o1、WebThinker 等）進行對比。這就像是在智能體的競技場上，讓 WebSailor 與各路高手過招，全方位衡量它的性能優劣。

主結果分析與圖表深度解讀

實驗結果令人振奮。首先，直接推理模型在 BrowseComp-en/zh 上的糟糕表現凸顯了其局限性，如 GPT-4.1 僅 1.5% 的準確率，這有力地證明了復雜信息檢索任務僅僅依靠模型自身的知識和推理能力是遠遠不夠的，必須借助外部工具與智能體框架，才能在復雜的信息中找到正確的方向（如下表所示）。

主要在四個具有挑戰性的基準測試上取得了成果。? 表示這些專有方法通過其網站進行手動評估。- 表示由于成本限制，沒有這些結果。

而 WebSailor 的表現則堪稱卓越，它在 BrowseComp-en/zh 上大幅領先其他開源智能體。例如，WebSailor-7B 準確率高達 6.7%，輕松超越 32B 的 WebDancer-32B（2.5%）和 WebThinker-RL（2.8%）。更令人驚嘆的是，WebSailor-72B 在 BrowseComp-zh 上與專有智能體 Doubao 并駕齊驅，準確率均為 26.0%，與 DeepResearch 的 42.9% 準確率相比，也展現出了強大的競爭力。這就好比是 WebSailor 這匹開源的 “駿馬” 在賽場上一路狂奔，不僅超越了眾多開源的競爭對手，還與專有的 “千里馬” 們齊頭并進（如下圖所示）。

性能表現在 BrowseComp 中英雙語基準測試中。DeepSeek-R1-Browse 是通過 ReAct 框架配備了瀏覽工具的 DeepSeek-R1，其實現方式與 WebSailor 相同。Doubao-Search 和 Grok-3 是專有的基于網絡的產品（用 * 標記）。GPT-4o 配備瀏覽功能的結果取自 OpenAI 的官方信息

從上圖的性能表現圖中可以看出，WebSailor 在 BrowseComp-en/zh 上的準確率隨著模型規模的增大而顯著提升。例如，WebSailor-3B 在 BrowseComp-en 上的準確率為 3.3%，而 WebSailor-72B 則達到了 12.0%。這表明，隨著模型規模的擴大，WebSailor 能夠更好地處理復雜的推理任務，同時保持較高的性能穩定性。此外，與其他開源智能體相比，WebSailor 在所有模型規模下均表現出顯著的性能優勢，這進一步證明了其訓練方法的有效性。

在下圖中，對訓練集與 WebDancer 和 BrowseComp-en 的工具調用次數分布進行了對比分析。可以看出，WebSailor 的訓練集呈現出明顯的長尾分布，許多樣本需要多次工具調用才能完成任務。例如，WebSailor 的訓練集中有相當一部分樣本需要超過 10 次工具調用，而 WebDancer 的訓練集中幾乎沒有超過 10 次的樣本。這種長尾分布使得 WebSailor 在處理復雜任務時更具優勢，因為它能夠適應需要多次工具調用的復雜推理場景。同時，WebSailor 的訓練集分布與 BrowseComp-en 的實際任務分布高度一致，這表明 WebSailor 的數據集設計能夠很好地模擬實際應用中的復雜任務場景，為模型訓練提供了有力支持。

訓練集中的工具調用數量與WebDancer和BrowseComp-en訓練集中的工具調用數量的比較

下表展示了 SailorFog-QA 數據集與其他數據集在 ReAct 框架下的 pass@1 準確率對比。可以看出，SailorFog-QA 的準確率顯著低于 WebDancer 訓練集，這表明其任務難度更高。例如，DeepSeek-R1 在 WebDancer 訓練集上的 pass@1 準確率為 84.4%，而在 SailorFog-QA 上僅為 38.9%。這進一步證明了 SailorFog-QA 數據集的復雜性和挑戰性，同時也說明 WebSailor 在該數據集上的優異表現并非偶然，而是源于其獨特的訓練方法和數據集設計。

在 ReAct 框架下，SailorFog-QA、WebDancer 訓練集以及 BrowseComp-en 的 pass@1 準確率

從下圖的 SimpleQA 基準測試結果可以看出，WebSailor 在處理簡單任務時同樣表現出色。盡管其主要優勢在于復雜任務領域，但在 SimpleQA 上，WebSailor 仍然超過了其他方法，包括直接推理和基于搜索的智能體。例如，WebSailor 在 SimpleQA 上的 pass@1 準確率為 41.6%，而 Qwen-2.5-72B 的直接推理準確率僅為 12.7%。這表明 WebSailor 具備良好的向下兼容性，能夠在處理復雜任務的同時，保持對簡單任務的高效解決能力。

在SimpleQA基準測試中的性能表現

下圖展示了使用 Pass@1 和 Pass@3 的詳細評估結果。可以看出，經過 RL 訓練后，WebSailor 在所有基準測試上的性能均有顯著提升。特別是在 BrowseComp-en/zh 等復雜任務上，Pass@1 和 Pass@3 的差距明顯縮小。這表明 RL 訓練能夠有效提高模型的穩定性和樣本效率，使智能體在復雜任務中更容易收斂到正確的答案路徑。例如，在 BrowseComp-en 上，經過 RL 訓練后，WebSailor 的 Pass@1 準確率提升了 6.3%，而 Pass@3 準確率提升了 8.3%。這種提升在 BrowseComp-zh 上更為顯著，Pass@1 和 Pass@3 分別提升了 6.6% 和 4.7%。這進一步證明了 RL 訓練在優化智能體推理能力方面的重要作用。

使用Pass@1、Pass@3的詳細評估結果

見下圖對比了直接 RL 訓練與經過 RFT 冷啟動后 RL 訓練的效果。可以看出，經過 RFT 冷啟動的模型在訓練過程中工具調用次數保持穩定且較高，而直接 RL 訓練的模型工具調用次數較低且增長緩慢。

比較 Qwen - 2.5 - instruct - 32B 的直接強化學習（RL）訓練與經過 RFT 冷啟動后的強化學習訓練

這表明 RFT 冷啟動能夠為模型提供良好的初始策略，幫助其更快地學習到有效的推理模式。最終，經過 RFT 冷啟動的模型在收斂性能上顯著優于直接 RL 訓練的模型。例如，在 BrowseComp-en 上，經過 RFT 冷啟動的 WebSailor 的 Pass@1 準確率比直接 RL 訓練的模型高出 10% 以上。這充分證明了 RFT 冷啟動在智能體訓練中的重要性。

此外，通過對比 SailorFog-QA 數據集的工具調用次數分布與 BrowseComp-en 的分布，我們發現兩者高度相似，均呈現長尾分布。這表明 WebSailor 在該數據集上訓練后，在 BrowseComp-en/zh 等復雜任務中表現出色，充分驗證了數據復雜性與模型性能之間的正相關性。

拓展應用與影響

多領域應用場景示例

WebSailor 的強大復雜推理能力不僅局限于信息檢索領域，在醫療診斷、金融分析、教育輔導等多個領域也具有廣泛的應用前景。

醫療診斷 ：在處理復雜的病癥診斷時，WebSailor 可以整合患者的癥狀、病史、檢查結果等多源信息，通過多輪推理和工具調用，為醫生提供潛在病因分析和治療方案建議。例如，對于一些罕見病的診斷，智能體可以搜索全球醫學文獻，結合患者的癥狀表現，逐步縮小可能的病因范圍，幫助醫生制定精準的診療計劃。
金融分析 ：在金融領域，WebSailor 可以分析海量的金融市場數據、公司財務報表、行業新聞等信息，為投資者提供投資決策支持。例如，智能體可以對某公司的財務狀況進行全面分析，通過多步推理評估其未來盈利能力和發展前景，輔助投資者判斷該公司的股票投資價值。
教育輔導 ：作為智能教育助手，WebSailor 可以根據學生的學習進度、知識掌握情況和學習風格，為學生提供個性化的學習資源推薦和學習路徑規劃。例如，針對學生在某一學科知識點上的薄弱環節，智能體可以搜索相關的學習資料、在線課程和練習題，按照學生的理解能力和學習習慣，生成定制化的學習計劃，幫助學生提高學習效果。

對相關技術發展的啟示

WebSailor 對于整個智能體技術、自然語言處理以及人工智能領域的發展帶來了一些啟示。

智能體推理技術創新 ：WebSailor 通過獨特的訓練方法和數據合成策略，成功賦予開源智能體強大的復雜推理能力，為智能體推理技術的創新提供了新的思路和方法。其提出的 ReAct 框架下的多輪迭代推理模式以及 DUPO 算法等技術，為智能體在復雜任務中的推理能力提升提供了有效的解決方案，推動了智能體推理技術從簡單的線性推理向復雜的多步推理和策略性推理的轉變。
數據驅動的智能體訓練方法 ：SailorFog-QA 數據集的構建方法為智能體訓練數據的合成提供了新的范式。通過從真實世界復雜信息環境中采樣和模糊化處理生成具有高不確定性和多樣性的訓練數據，使得智能體能夠在更貼近實際應用場景的數據上進行訓練，提高了智能體的泛化能力和適應性。這種數據驅動的訓練方法也為其他智能體系統的開發提供了重要的參考，促使研究者更加注重訓練數據的質量和復雜性，以提升智能體在實際任務中的表現。

與現有技術對比

與更多智能體系統的對比

除了剛才提到的 DeepResearch、WebDancer 等，WebSailor 與其他具有代表性的智能體系統相比也展現出顯著的優勢和特點。

與 GPT-4o 瀏覽器擴展對比 ：GPT-4o 瀏覽器擴展雖然具有一定的信息檢索能力，但在處理復雜的多跳推理任務時，性能相對較弱。例如，在 BrowseComp-en 上，GPT-4o 的準確率僅為 1.9%，而 WebSailor-72B 的準確率達到了 12.0%。這表明 WebSailor 在復雜推理任務中能夠更有效地綜合利用搜索結果和多輪推理，找到正確的答案路徑。
與 Wolfram|Alpha 智能體對比 ：Wolfram|Alpha 智能體擅長處理數學計算和科學數據查詢等任務，但在需要廣泛信息收集和復雜推理的開放域問題上表現有限。WebSailor 則憑借其強大的網絡搜索能力和多步推理機制，在開放域復雜信息檢索任務中更具優勢。例如，在處理 “某歷史事件對多個領域的影響分析” 這類需要跨領域信息整合和深度推理的問題時，WebSailor 能夠通過多輪搜索和推理，給出更全面、深入的答案。

與傳統信息檢索方法的對比

與傳統的信息檢索方法（如關鍵詞搜索、布爾檢索等）相比，WebSailor 在處理復雜信息檢索任務時具有顯著的優越性。

語義理解和推理能力 ：傳統信息檢索方法主要基于關鍵詞的匹配，難以理解問題的語義和背后的復雜關系。而 WebSailor 能夠對問題進行語義解析，理解其背后的意圖和邏輯關系，并通過多輪推理探索答案。例如，對于問題 “某文學作品中人物關系及其對情節發展的影響”，關鍵詞搜索只能找到包含相關關鍵詞的文獻，而 WebSailor 可以通過分析人物關系的多個維度和情節發展的不同階段，深入分析它們之間的相互作用和影響，提供更具有洞察力的答案。
動態交互和探索能力 ：傳統檢索方法是一次性的，用戶需要根據搜索結果手動調整關鍵詞進行下一次搜索。WebSailor 則能夠根據搜索結果動態調整思路，進行多次工具調用和探索，逐步逼近正確答案。例如，在搜索 “某新興技術在不同行業中的應用現狀和趨勢” 時，WebSailor 可以先搜索該技術的概述，了解其主要特點和應用領域，然后針對每個行業進行深入搜索和分析，形成對問題的全面解答。

局限性

局限性分析

盡管 WebSailor 在實驗中取得了比較好的成績，但它并非十全十美。目前，為了防止上下文過載，訓練軌跡長度被限制在 32k token以內，這無疑給模型處理更復雜問題的能力套上了一道枷鎖。在面對那些需要超長推理鏈條的復雜任務時，模型往往因超出長度限制而功虧一簣。例如，在一些極端復雜的推理任務中，可能需要超過 100 次的工具調用，而當前的限制使得模型無法有效處理此類任務。

另外，WebSailor 在某些簡單問題上表現出的過度思考傾向也引起了我們的關注。例如，對于 “蘋果公司的現任 CEO 是誰” 這樣簡單的問題，它仍進行多步工具調用。然而，深入分析后可以發現，這種 “過度思考” 其實是智能體在驗證信息準確性，從側面反映了它謹慎的推理策略。這種策略雖然保證了答案的準確性，但也可能導致推理效率的下降。例如，在處理大量簡單查詢時，這種過度思考可能會使模型的響應時間增加 2 - 3 倍，從而影響用戶體驗。

改進優化方向

可以有兩大優化方向。一是探索更高效的訓練框架，將嘗試遷移到異步訓練框架，以期提升訓練效率，支持更長時間的 RL 訓練。通過異步訓練，不同智能體可以在各自的環境中獨立探索，然后將經驗匯總到一個共享的策略網絡中。這樣，模型就能像攀登高山一樣，一步步征服那些更為復雜的推理任務高峰。例如，在新的訓練框架中引入多智能體協作機制，讓多個智能體同時處理不同的任務分支，從而提高整體推理效率。

二是優化推理策略，將在確保復雜任務高性能的同時，研究如何減少不必要的工具調用，提高推理效率。這就像是為智能體打造一套更加高效的行動指南，讓它在信息的海洋中航行得更加迅捷而精準。可以通過引入基于任務復雜度的動態推理策略，讓智能體能夠根據任務的難易程度自動調整推理深度和工具調用次數。例如，對于簡單任務，智能體將采用快速、直接的推理路徑；而對于復雜任務，則啟用深度探索模式，確保在復雜性和效率之間取得平衡。

此外，還可以探索如何將 WebSailor 的能力擴展到更多領域，如多模態信息檢索和實時交互式推理。這將為智能體技術的應用開辟新的可能性，使其能夠在更廣泛的場景中發揮作用。

總結

本文介紹了一個名為 WebSailor 的開源項目，目標是提升開源 web Agent 系統在復雜信息搜索任務中的推理能力，以縮小與專有系統的差距。

WebSailor 方法論

高不確定性任務生成：

通過在真實網站上進行隨機游走構建復雜知識圖譜，生成包含已知實體和關系的子圖，形成高不確定性問題。

使用信息模糊化技術增加初始模糊性，迫使模型進行復雜推理。

RFT 冷啟動：盡管有研究建議跳過監督微調（SFT），但 WebSailor 的研究表明，適度的拒絕采樣微調（RFT）對于初始化 web 代理模型至關重要。
DUPO 算法：提出了一種新的強化學習算法 DUPO，通過動態采樣策略提升訓練效率和效果。

綜上，WebSailor 項目通過生成高不確定性的訓練數據和優化 RL 算法，顯著提升了開源 web 智能體系統在復雜信息搜索任務中的推理能力，使其性能接近專有系統。它在 BrowseComp-en/zh 等多項基準測試中取得的優異成績。這項工作不僅推動了開源模型的發展，也為未來更強大的智能體系統的構建奠定了基礎。這個開源項目為我們展示的整個構建過程，非常具有 Agent 整體落地的實戰參考價值，值得大家上手實戰復現。

責任編輯：龐桂玉來源：覺察流

WebSailor 智能體開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看