成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepReaserch智能體突破:阿里WebDancer原生Agentic Model讓AI自己「上網(wǎng)找答案」

人工智能
WebDancer的出現(xiàn),不僅為解決復(fù)雜的多步信息檢索問題提供了一種新的方法,也為自主智能體的研究和發(fā)展提供了重要的啟示。通過數(shù)據(jù)驅(qū)動和分階段訓(xùn)練的方法,WebDancer成功地構(gòu)建了一個能夠自主進(jìn)行多步信息檢索的智能體,為未來智能體的發(fā)展提供了新的思路和方向。

一、背景

在現(xiàn)實(shí)生活中,我們常常需要解決各種復(fù)雜的多步推理問題,這些問題往往需要從多個網(wǎng)頁中獲取信息,并進(jìn)行綜合分析和推理才能得出答案。例如,當(dāng)我們想要了解某個歷史事件的詳細(xì)經(jīng)過時,可能需要查閱多個不同來源的網(wǎng)頁,對比和分析其中的信息,才能還原事件的全貌。這種復(fù)雜的信息檢索任務(wù),對于傳統(tǒng)的搜索引擎來說是非常困難的,因?yàn)樗鼈兺ǔV荒芴峁﹩尾降乃阉鹘Y(jié)果,而無法像人類一樣進(jìn)行多步的推理和決策。

近年來,隨著大型語言模型(LLMs)和大型推理模型(LRMs)的發(fā)展,人們開始嘗試將這些模型應(yīng)用于信息檢索任務(wù)中。然而,這些模型在處理復(fù)雜的多步推理任務(wù)時,仍然存在一些局限性。例如,直接利用提示工程技術(shù)來引導(dǎo)這些模型執(zhí)行復(fù)雜任務(wù),往往無法充分利用模型的推理能力;而將搜索或?yàn)g覽能力整合到智能體中,雖然可以通過監(jiān)督微調(diào)(SFT)或強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練,但現(xiàn)有的訓(xùn)練數(shù)據(jù)集相對簡單,無法涵蓋現(xiàn)實(shí)世界中的復(fù)雜挑戰(zhàn)。

為了解決這些問題,WebDancer應(yīng)運(yùn)而生。它基于ReAct框架,通過一種數(shù)據(jù)驅(qū)動和分階段訓(xùn)練的方法,構(gòu)建了一個能夠自主進(jìn)行多步信息檢索的智能體。WebDancer的出現(xiàn),標(biāo)志著我們在自主智能體領(lǐng)域,訓(xùn)練類DeepResearch的模型邁出了重要的一步。

二、WebDancer的核心技術(shù)

WebDancer的核心創(chuàng)新體現(xiàn)在三個層面:

  1. 數(shù)據(jù)合成的層次化設(shè)計(jì):通過兩種方法來合成數(shù)據(jù)集實(shí)現(xiàn)了兼顧“廣度覆蓋”與“深度升級”的數(shù)據(jù)集體系,解決了傳統(tǒng)數(shù)據(jù)集規(guī)模小、場景單一的問題。實(shí)驗(yàn)表明,混合使用兩類數(shù)據(jù)集可使模型在GAIA基準(zhǔn)的Pass@1指標(biāo)顯著提升。
  2. 長短推理鏈的協(xié)同訓(xùn)練:提出將LLM生成的短推理鏈與LRM生成的長推理鏈結(jié)合,通過拒絕采樣機(jī)制融合不同粒度的推理模式。消融實(shí)驗(yàn)顯示,長推理鏈對復(fù)雜問題(GAIA Level 3)的解決率有顯著貢獻(xiàn),驗(yàn)證了多尺度推理的必要性。
  3. 動態(tài)采樣的強(qiáng)化學(xué)習(xí)策略:DAPO算法通過過濾準(zhǔn)確率極端的樣本(0或1),聚焦難樣本的迭代優(yōu)化,使RL階段的數(shù)據(jù)利用效率顯著提升。

具體來說,WebDancer的構(gòu)建過程可以分為四個關(guān)鍵階段:瀏覽數(shù)據(jù)構(gòu)建、軌跡采樣、監(jiān)督微調(diào)以及強(qiáng)化學(xué)習(xí)。

(一)瀏覽數(shù)據(jù)構(gòu)建

為了訓(xùn)練WebDancer,首先需要構(gòu)建高質(zhì)量的瀏覽數(shù)據(jù)。這些數(shù)據(jù)需要反映多樣化的用戶意圖和豐富的交互上下文。WebDancer采用了兩種方法來合成數(shù)據(jù)集:CRAWLQA和E2HQA。

CRAWLQA通過爬取網(wǎng)頁來構(gòu)建基于網(wǎng)頁信息的問答對。它從一些富含知識的網(wǎng)站(如arxiv、github、wiki等)的source頁面開始,模擬人類的瀏覽行為,遞歸地導(dǎo)航到子頁面,并收集頁面上的信息。然后,利用GPT-4o等大型語言模型,根據(jù)收集到的信息生成合成的問答對。這些問答對涵蓋了多種類型的問題,如計(jì)數(shù)問題、多跳問題和交集問題等,能夠有效地激發(fā)模型的多步推理能力。

圖片圖片


E2HQA則采用了一種從簡單到復(fù)雜的問答對合成方法。它從簡單的問答對開始,通過逐步增加問題的復(fù)雜性,將簡單的問題轉(zhuǎn)化為復(fù)雜的多步問題。具體來說,它首先從簡單的問題中選擇一個實(shí)體,然后利用搜索引擎獲取與該實(shí)體相關(guān)的信息,并根據(jù)這些信息重新構(gòu)造問題。通過這種方式,可以逐步將一個簡單的問題轉(zhuǎn)化為一個需要多步推理才能解決的復(fù)雜問題。

(二)軌跡采樣

在構(gòu)建了高質(zhì)量的問答對之后,WebDancer需要采樣出高質(zhì)量的軌跡來指導(dǎo)智能體的學(xué)習(xí)過程。軌跡采樣采用了拒絕采樣方法,結(jié)合了短鏈思考(Short-CoT)和長鏈思考(Long-CoT)兩種策略。

短鏈思考軌跡是通過直接利用ReAct框架,使用強(qiáng)大的模型(如GPT-4o)來收集的。而長鏈思考軌跡則是通過逐步提供歷史動作和觀察結(jié)果給推理模型(如QwQ-Plus),讓模型自主決定下一步的動作。在采樣過程中,會進(jìn)行多次拒絕采樣,以確保生成的軌跡的質(zhì)量和連貫性。

(三)監(jiān)督微調(diào)

監(jiān)督微調(diào)階段的目的是讓模型適應(yīng)智能體任務(wù)的格式和環(huán)境。在這個階段,WebDancer利用前面采樣得到的高質(zhì)量軌跡,對模型進(jìn)行微調(diào)。通過這種方式,模型能夠?qū)W習(xí)到如何在智能體任務(wù)中交替進(jìn)行推理和行動,從而更好地完成多步信息檢索任務(wù)。

(四)強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)階段的目標(biāo)是將智能體能力內(nèi)化到推理模型中,增強(qiáng)模型在多步、多工具使用場景下的能力。WebDancer采用了Decoupled Clip and Dynamic Sampling Policy Optimization(DAPO)算法來進(jìn)行強(qiáng)化學(xué)習(xí)。DAPO算法通過動態(tài)采樣機(jī)制,有效地利用了在監(jiān)督微調(diào)階段未充分利用的問答對,提高了數(shù)據(jù)效率和策略的魯棒性。

圖片圖片


三、WebDancer的實(shí)驗(yàn)結(jié)果

WebDancer在兩個具有挑戰(zhàn)性的信息檢索基準(zhǔn)測試——GAIA和WebWalkerQA上進(jìn)行了實(shí)驗(yàn)評估。實(shí)驗(yàn)結(jié)果表明,WebDancer在這些基準(zhǔn)測試中取得了顯著的性能提升,證明了其訓(xùn)練范式的有效性。 我們表現(xiàn)最佳的模型在GAIA基準(zhǔn)測試中達(dá)到了61.1%的Pass@3分?jǐn)?shù),在WebWalkerQA基準(zhǔn)測試中達(dá)到了54.6%的Pass@3分?jǐn)?shù)。

圖片圖片

四、未來展望:WebDancer 的新征程

盡管 WebDancer 已經(jīng)取得了令人矚目的成就,但它的發(fā)展之路還遠(yuǎn)未結(jié)束。未來,WebDancer 將在多個方向上繼續(xù)探索和創(chuàng)新。

(一)更多工具的集成

目前,WebDancer 僅集成了兩種基本的信息檢索工具,未來計(jì)劃引入更多復(fù)雜的工具,如瀏覽器建模和 Python 沙盒環(huán)境。這些工具將使智能體能夠執(zhí)行更復(fù)雜的任務(wù),如網(wǎng)頁瀏覽、數(shù)據(jù)抓取、API 調(diào)用等,從而拓展智能體的能力邊界,使其能夠應(yīng)對更廣泛的挑戰(zhàn)。

(二)任務(wù)泛化與基準(zhǔn)擴(kuò)展

目前的實(shí)驗(yàn)主要集中在短答案信息檢索任務(wù)上,未來 WebDancer 將擴(kuò)展到開放域的長文本寫作任務(wù)。這將對智能體的推理能力和生成能力提出更高的要求,需要設(shè)計(jì)更可靠和更有效的獎勵信號。同時,WebDancer 也將參與更多基準(zhǔn)測試,以驗(yàn)證其在不同任務(wù)類型和領(lǐng)域中的泛化能力。

五、討論:Post-train Agentic Models

相比于一些驅(qū)動于強(qiáng)大的具有很強(qiáng)的agentic能力的閉源模型,例如gpt-o4,claude的promtpting工程框架,本研究的側(cè)重點(diǎn)在從頭訓(xùn)練一個具有強(qiáng)大agent能力的模型,這對于實(shí)現(xiàn)agent model的開源以及推進(jìn)我們對agent在開放系統(tǒng)中如何產(chǎn)生和scale的基本理解至關(guān)重要。我們使用的的原生ReAct框架秉持著簡潔性,體現(xiàn)了大道至簡的原則。 Agentic models是指那些在交互式環(huán)境中,天生支持推理、決策以及多步驟工具使用的foundation models。這些模型僅通過任務(wù)描述的提示,就能展現(xiàn)出諸如規(guī)劃、自我反思以及行動執(zhí)行等突發(fā)性能力(emergent capabilities)。 近期的 DeepSearch 和 Deep Research 等系統(tǒng),展示了強(qiáng)大的底層模型如何作為智能體的核心,通過其對工具調(diào)用和迭代推理的天然支持,實(shí)現(xiàn)自主的網(wǎng)絡(luò)交互。然而,由于網(wǎng)絡(luò)環(huán)境本質(zhì)上是動態(tài)的且部分可觀察的,強(qiáng)化學(xué)習(xí)在提升智能體的適應(yīng)性和魯棒性方面發(fā)揮了關(guān)鍵作用。在本研究中,我們的目標(biāo)是通過有針對性的后訓(xùn)練(post-training),在開源模型中激發(fā)自主智能體的能力。

六、WebDancer的意義與展望

WebDancer的出現(xiàn),不僅為解決復(fù)雜的多步信息檢索問題提供了一種新的方法,也為自主智能體的研究和發(fā)展提供了重要的啟示。通過數(shù)據(jù)驅(qū)動和分階段訓(xùn)練的方法,WebDancer成功地構(gòu)建了一個能夠自主進(jìn)行多步信息檢索的智能體,為未來智能體的發(fā)展提供了新的思路和方向。

WebDancer與Deep Research在目標(biāo)上具有一致性,如果通過更系統(tǒng)化的方法來構(gòu)建和訓(xùn)練智能體,使其能夠更好地適應(yīng)復(fù)雜的網(wǎng)絡(luò)環(huán)境仍是一個開放并且具有挑戰(zhàn)的課題。

總之,WebDancer的出現(xiàn)為我們解決復(fù)雜的網(wǎng)絡(luò)信息檢索問題提供了一種新的可能性。隨著技術(shù)的不斷發(fā)展和完善,我們有理由相信,未來的自主智能體將在更多的領(lǐng)域發(fā)揮重要作用,為我們的生活和工作帶來更多的便利和創(chuàng)新。

參考資料

  • 《WebDancer: Towards Autonomous Information Seeking Agency》,Jialong Wu, Baixuan Li, Runnan Fang, Wenbiao Yin, Liwen Zhang, Zhengwei Tao, Dingchu Zhang, Zekun Xi, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou,阿里巴巴通義實(shí)驗(yàn)室,https://arxiv.org/pdf/2505.22648
  • 《ReAct: Synergizing Reasoning and Acting in Language Models》,Shunyu Yao等,普林斯頓大學(xué),https://arxiv.org/abs/2210.03629
  • 《GAIA: A Benchmark for General AI Assistants》,Grégoire Mialon等,Meta AI,https://arxiv.org/abs/2311.12983
責(zé)任編輯:武曉燕 來源: 旺知識
相關(guān)推薦

2025-05-30 15:53:27

智能體模型AI

2024-12-25 09:06:44

2023-02-26 00:19:58

AI插件功能

2025-05-30 06:48:53

2024-01-22 12:31:18

模型訓(xùn)練

2022-06-21 14:08:25

AIGitHub模仿人類

2009-01-20 10:50:00

2025-06-11 13:44:44

自動化模型智能體

2025-05-15 09:08:00

2025-01-23 13:05:42

2024-11-26 00:14:08

2022-08-18 15:08:16

智能AI

2024-10-18 15:20:00

2022-01-06 22:29:35

人工智能機(jī)器人自動化

2025-06-16 14:40:40

模型AI訓(xùn)練

2025-01-22 10:24:27

2024-11-18 19:06:21

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产丝袜一区二区三区免费视频 | 韩国av影院 | 国产性网 | 最近中文字幕在线视频1 | 免费天天干 | 6080亚洲精品一区二区 | 亚洲天堂av网 | 97伦理 | 久久综合久 | 国产精品免费一区二区 | 亚洲精品一 | 91久久精品一区二区二区 | 成人免费淫片aa视频免费 | 日本三级在线网站 | 久久久久成人精品免费播放动漫 | 超碰3| 国产一区二区三区久久久久久久久 | 久久国产精品色av免费观看 | 国产精品色av | 在线观看中文字幕 | 亚洲成人一区 | 新91视频网 | 在线黄| 国产精品久久 | 国产原创在线观看 | 97精品超碰一区二区三区 | 亚洲自拍一区在线观看 | 国产日韩欧美 | 国产欧美一区二区三区在线看 | 国产精品国产三级国产aⅴ入口 | 久久成人精品视频 | 国产高清在线精品 | 国产欧美日韩一区 | 欧美日韩视频 | 久久黄色精品视频 | 免费中文字幕 | 欧美性受xxx | 日韩美女在线看免费观看 | 手机在线一区二区三区 | 五月天婷婷丁香 | 久久国产欧美日韩精品 |