Mind2Web 2:智能體搜索系統(tǒng)的進(jìn)化與評(píng)估之道
大家好,我是肆〇柒,相信使用過AI工具的各位,或多或少都會(huì)使用過AI搜索,而傳統(tǒng)網(wǎng)絡(luò)搜索方式正面臨前所未有的挑戰(zhàn)。用戶手動(dòng)輸入關(guān)鍵詞,從海量搜索結(jié)果中逐一甄別、篩選并整合有用信息,這一過程不僅繁瑣耗時(shí),還對(duì)用戶的認(rèn)知能力提出了極高要求。然而,隨著大型語言模型(LLM)技術(shù)的飛速發(fā)展,智能體搜索系統(tǒng)一經(jīng)推出,就為信息獲取方式帶來了革命性的變革。智能體搜索系統(tǒng)能夠自主瀏覽網(wǎng)頁、分解復(fù)雜查詢、迭代搜索并交互動(dòng)態(tài)網(wǎng)站,最終整合信息生成帶有引用的綜合答案,極大地減輕了用戶的信息處理負(fù)擔(dān)。
例如,在學(xué)術(shù)研究領(lǐng)域,當(dāng)用戶需要收集某個(gè)課題的最新研究進(jìn)展時(shí),傳統(tǒng)搜索方式要求用戶多次輸入不同關(guān)鍵詞,逐一查看多個(gè)搜索結(jié)果頁面,手動(dòng)整理相關(guān)信息。而智能體搜索系統(tǒng)則可以根據(jù)用戶給出的課題主題,自動(dòng)分解任務(wù),從多個(gè)學(xué)術(shù)網(wǎng)站和數(shù)據(jù)庫中篩選、提取關(guān)鍵信息,如最新論文的標(biāo)題、摘要、作者及發(fā)表時(shí)間等,并將這些信息整合成一份結(jié)構(gòu)清晰、帶有引用鏈接的報(bào)告返回給用戶。
當(dāng)智能體搜索需要進(jìn)行日常運(yùn)營(yíng)或進(jìn)行產(chǎn)品改進(jìn)的時(shí)候,評(píng)估就顯得尤為重要。現(xiàn)有的AI搜索評(píng)估基準(zhǔn)和方法大多基于短時(shí)間跨度任務(wù)和靜態(tài)答案,難以適應(yīng)智能體搜索系統(tǒng)的復(fù)雜性和長(zhǎng)期任務(wù)表現(xiàn),這嚴(yán)重限制了該領(lǐng)域的技術(shù)發(fā)展和應(yīng)用推廣。由俄亥俄州立大學(xué)和亞馬遜 AGI 共同提出的 Mind2Web 2 基準(zhǔn)測(cè)試,期望能填補(bǔ)這一評(píng)估空白,為智能體搜索系統(tǒng)的開發(fā)、優(yōu)化和公平比較提供嚴(yán)謹(jǐn)、全面的基礎(chǔ)。它通過模擬真實(shí)世界的復(fù)雜信息獲取任務(wù),對(duì)智能體搜索系統(tǒng)進(jìn)行全面、深入的評(píng)估,推動(dòng)該技術(shù)領(lǐng)域向更高效、可靠的方向發(fā)展。
下圖展示了 Mind2Web 2 基準(zhǔn)測(cè)試所具有的逼真且多樣化的長(zhǎng)期網(wǎng)絡(luò)搜索任務(wù),以及用于評(píng)估復(fù)雜、時(shí)變且?guī)в幸么鸢傅膭?chuàng)新性 Agent-as-a-Judge 框架。
Mind2Web 2 特點(diǎn)是具有真實(shí)且多樣化的長(zhǎng)期網(wǎng)絡(luò)搜索任務(wù),并引入了一種新穎的“Agent-as-a-Judge”框架,用于評(píng)估復(fù)雜、隨時(shí)間變化且有引文支持的答案
智能體搜索系統(tǒng)概述
智能體搜索系統(tǒng)的發(fā)展歷程可大致分為三個(gè)階段。最初階段是 LLM 與搜索 API 的簡(jiǎn)單結(jié)合,如 MindSearch 嘗試模仿人類思維模式以激發(fā)更精準(zhǔn)的 AI 搜索結(jié)果,以及 ChatGPT 和 Perplexity Search 等通過增強(qiáng)搜索能力來提升回答質(zhì)量的系統(tǒng)。這些系統(tǒng)初步實(shí)現(xiàn)了 LLM 與網(wǎng)絡(luò)信息的對(duì)接,但仍存在一定的局限性,如對(duì)動(dòng)態(tài)網(wǎng)頁的處理能力較弱、搜索過程缺乏靈活性等。
隨后,自主網(wǎng)絡(luò)Agent技術(shù)逐漸興起,部分Agent具備了視覺感知能力,能夠像人類一樣實(shí)時(shí)瀏覽網(wǎng)頁。OpenAI 的 Operator 經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練,在完成特定任務(wù)方面表現(xiàn)出色。這一階段的技術(shù)突破使得智能體搜索系統(tǒng)能夠更深入地與網(wǎng)絡(luò)環(huán)境交互,獲取以往難以觸及的動(dòng)態(tài)信息,拓展了應(yīng)用場(chǎng)景。
當(dāng)前,智能體搜索系統(tǒng)已進(jìn)化到專門優(yōu)化的 Deep Research 系統(tǒng)階段。以 OpenAI Deep Research 為代表的系統(tǒng)針對(duì)長(zhǎng)周期瀏覽和復(fù)雜搜索行為進(jìn)行了深度優(yōu)化。它們能夠處理更長(zhǎng)時(shí)間跨度的任務(wù),能更有效地整合多源信息,生成更全面、深入的研究報(bào)告。例如,在進(jìn)行行業(yè)市場(chǎng)調(diào)研時(shí),Deep Research 系統(tǒng)可以長(zhǎng)時(shí)間跟蹤多個(gè)市場(chǎng)動(dòng)態(tài)網(wǎng)站,收集不同時(shí)間段的市場(chǎng)數(shù)據(jù)、企業(yè)動(dòng)態(tài)、消費(fèi)者反饋等信息,經(jīng)過深度整合和分析后,生成一份詳細(xì)的市場(chǎng)調(diào)研報(bào)告,為企業(yè)的戰(zhàn)略決策提供有力支持。
Mind2Web 2 基準(zhǔn)測(cè)試
任務(wù)設(shè)計(jì)原則
Mind2Web 2 基準(zhǔn)測(cè)試的任務(wù)設(shè)計(jì)遵循四大關(guān)鍵原則。首先,任務(wù)必須具有現(xiàn)實(shí)性,緊密貼合實(shí)際用戶需求場(chǎng)景,涵蓋購物、旅行規(guī)劃、學(xué)術(shù)研究等眾多領(lǐng)域,確保評(píng)估結(jié)果對(duì)現(xiàn)實(shí)應(yīng)用具有指導(dǎo)意義。例如,“從某旅游網(wǎng)站上獲取符合特定預(yù)算和時(shí)間要求的旅行套餐,并驗(yàn)證其包含的景點(diǎn)和服務(wù)是否符合要求”這一任務(wù),真實(shí)反映了用戶在規(guī)劃旅行時(shí)的需求。
其次,任務(wù)需具備長(zhǎng)期性和艱巨性,要求智能體進(jìn)行多步驟搜索、跨多個(gè)網(wǎng)站收集信息,耗費(fèi)大量時(shí)間和精力。例如,一個(gè)任務(wù)要求智能體收集某產(chǎn)品在過去一年內(nèi)不同時(shí)間點(diǎn)的價(jià)格波動(dòng)情況、用戶評(píng)價(jià)變化以及相關(guān)促銷活動(dòng)信息,這需要智能體在多個(gè)電商網(wǎng)站和消費(fèi)者評(píng)價(jià)平臺(tái)之間來回切換,長(zhǎng)時(shí)間跟蹤和整合數(shù)據(jù)。
客觀性和可驗(yàn)證性也是任務(wù)設(shè)計(jì)的重要準(zhǔn)則。每個(gè)任務(wù)都應(yīng)有明確、客觀的評(píng)估標(biāo)準(zhǔn),答案能夠依據(jù)引用的網(wǎng)頁內(nèi)容進(jìn)行驗(yàn)證,避免模糊和主觀的評(píng)價(jià)標(biāo)準(zhǔn),確保評(píng)估的公正性和準(zhǔn)確性。例如,任務(wù)要求智能體獲取某學(xué)術(shù)會(huì)議的參會(huì)人員名單及所屬機(jī)構(gòu)時(shí),答案中的每個(gè)參會(huì)人員信息都應(yīng)能通過會(huì)議官網(wǎng)或其他權(quán)威學(xué)術(shù)平臺(tái)的頁面進(jìn)行驗(yàn)證。
另外,時(shí)間變化性被納入考量,部分任務(wù)的答案會(huì)隨時(shí)間推移而變化,如產(chǎn)品價(jià)格波動(dòng)、賽事安排更新等,以模擬真實(shí)世界中信息的動(dòng)態(tài)變化,考驗(yàn)智能體對(duì)實(shí)時(shí)信息的捕捉和處理能力。例如,一個(gè)任務(wù)要求智能體實(shí)時(shí)獲取某體育賽事的最新賽程安排和門票銷售情況,智能體需要能夠處理賽事官網(wǎng)頻繁更新的信息,確保提供的答案是最新的。
任務(wù)示例與類型分布
Mind2Web 2 包含 130 個(gè)高質(zhì)量任務(wù),分布在生活方式與休閑、娛樂、科學(xué)與研究、職業(yè)與教育、旅行與交通等多個(gè)領(lǐng)域。例如,一個(gè)典型任務(wù)是從 IKEA 網(wǎng)站尋找符合特定條件(如預(yù)算范圍、顏色要求等)的家具組合,并確保所有家具均來自該網(wǎng)站且符合指定要求。這些任務(wù)不僅貼近實(shí)際生活需求,還能全面評(píng)估智能體搜索系統(tǒng)在不同領(lǐng)域的表現(xiàn)。
如下圖所示為 Mind2Web 2 任務(wù)領(lǐng)域分布情況
Mind2Web 2包含130個(gè)多樣化的任務(wù),涵蓋6個(gè)廣泛領(lǐng)域和24個(gè)子領(lǐng)域
具體到任務(wù)類型分布,生活方式與休閑領(lǐng)域占比最高,達(dá)到 26%,包含 34 個(gè)任務(wù);娛樂領(lǐng)域緊隨其后,占比 22%,特定條件的家具組合。有 28 個(gè)任務(wù);科學(xué)與研究領(lǐng)域占比 18%,包含 23 個(gè)任務(wù)。其他領(lǐng)域如職業(yè)與教育、旅行與交通等也涵蓋了豐富多樣的任務(wù)類型,確保評(píng)估的全面性和廣泛性。
Agent-as-a-Judge 評(píng)估框架
核心思想與優(yōu)勢(shì)
Agent-as-a-Judge 評(píng)估框架是 Mind2Web 2 的核心創(chuàng)新之一。它通過構(gòu)建任務(wù)特定的評(píng)判智能體,自動(dòng)評(píng)估智能體搜索系統(tǒng)生成的復(fù)雜、動(dòng)態(tài)答案,解決了傳統(tǒng)評(píng)估方法在面對(duì)答案時(shí)間變化性和結(jié)構(gòu)復(fù)雜性時(shí)的局限。這一框架充分利用了任務(wù)的先驗(yàn)知識(shí),設(shè)計(jì)出能夠精準(zhǔn)評(píng)估答案正確性和歸屬性的評(píng)分規(guī)則,確保評(píng)估結(jié)果既全面又準(zhǔn)確。
與以往評(píng)估方法不同,Agent-as-a-Judge 能夠深入理解每個(gè)任務(wù)的核心要求,并將其轉(zhuǎn)化為可操作的評(píng)估邏輯。它能判斷答案是否滿足任務(wù)的基本要求,還能細(xì)致評(píng)估答案中每個(gè)陳述是否都能準(zhǔn)確歸屬到相應(yīng)的引用來源。這種精準(zhǔn)的評(píng)估方式為智能體搜索系統(tǒng)的優(yōu)化提供了極具價(jià)值的反饋,有助于推動(dòng)系統(tǒng)性能的持續(xù)提升。
例如,在傳統(tǒng)評(píng)估方法中,對(duì)于一個(gè)要求整合多個(gè)來源信息的任務(wù),可能只能判斷最終答案是否正確,但無法準(zhǔn)確評(píng)估答案中每個(gè)信息點(diǎn)的來源是否可靠。而 Agent-as-a-Judge 框架則能逐一驗(yàn)證每個(gè)信息點(diǎn)的歸屬,指出具體問題所在,為系統(tǒng)的改進(jìn)提供明確方向。
樹狀評(píng)分規(guī)則設(shè)計(jì)
該框架采用樹狀評(píng)分規(guī)則,將評(píng)估過程分解為多個(gè)層次。葉子節(jié)點(diǎn)代表基本評(píng)估標(biāo)準(zhǔn),如檢查信息準(zhǔn)確性、歸屬正確性等。內(nèi)部節(jié)點(diǎn)則負(fù)責(zé)按邏輯關(guān)系聚合多個(gè)葉子節(jié)點(diǎn)的結(jié)果,形成更高層次的評(píng)估結(jié)論。例如,對(duì)于一個(gè)要求查找特定家具組合的任務(wù),葉子節(jié)點(diǎn)可能包括檢查每件家具的顏色是否符合要求、價(jià)格是否在預(yù)算范圍內(nèi)、是否來自指定網(wǎng)站等具體標(biāo)準(zhǔn)。
下圖為樹狀評(píng)分規(guī)則示例,更直觀地展示了從任務(wù)目標(biāo)逐層分解到具體評(píng)估準(zhǔn)則,以及從底層準(zhǔn)則評(píng)估結(jié)果逐級(jí)匯總得到整體任務(wù)評(píng)分的全過程。
樹形結(jié)構(gòu)評(píng)分細(xì)則示例。自上而下,任務(wù)目標(biāo)被分解為樹形結(jié)構(gòu);自下而上,葉節(jié)點(diǎn)的二進(jìn)制評(píng)分被匯總為整體任務(wù)評(píng)分
在樹狀結(jié)構(gòu)中,不同節(jié)點(diǎn)類型發(fā)揮著關(guān)鍵作用。關(guān)鍵節(jié)點(diǎn)代表基本且核心的評(píng)估標(biāo)準(zhǔn),若關(guān)鍵節(jié)點(diǎn)失敗,可能導(dǎo)致整個(gè)任務(wù)評(píng)分失敗。非關(guān)鍵節(jié)點(diǎn)則允許部分得分,以體現(xiàn)任務(wù)完成的層次和重點(diǎn)。這種設(shè)計(jì)使得評(píng)估結(jié)果能夠更精準(zhǔn)地反映智能體在任務(wù)中的表現(xiàn),既不會(huì)因個(gè)別非關(guān)鍵錯(cuò)誤而完全否定系統(tǒng)的努力,也不會(huì)忽略關(guān)鍵錯(cuò)誤,確保評(píng)估的合理性和公平性。
評(píng)判智能體的構(gòu)建與驗(yàn)證
評(píng)判智能體的構(gòu)建基于評(píng)分規(guī)則,涉及信息提取和驗(yàn)證兩個(gè)核心環(huán)節(jié)。信息提取器利用自然語言處理技術(shù)從答案中精準(zhǔn)定位關(guān)鍵信息片段,如通過模式匹配和語義分析提取家具名稱、價(jià)格、顏色等關(guān)鍵屬性。驗(yàn)證器則根據(jù)規(guī)則對(duì)比提取信息與引用網(wǎng)頁內(nèi)容,判斷信息是否準(zhǔn)確、歸屬是否正確。
為了確保評(píng)判智能體的準(zhǔn)確性和可靠性,開發(fā)團(tuán)隊(duì)采用了人工標(biāo)注樣例數(shù)據(jù)與評(píng)判智能體輸出進(jìn)行對(duì)比的方式。通過持續(xù)優(yōu)化評(píng)估邏輯,評(píng)判智能體的評(píng)估結(jié)果與預(yù)期標(biāo)準(zhǔn)高度一致。例如,在測(cè)試過程中發(fā)現(xiàn)驗(yàn)證器對(duì)某些模糊信息的判斷存在偏差后,開發(fā)團(tuán)隊(duì)調(diào)整了相關(guān)算法參數(shù),提升了評(píng)判智能體的準(zhǔn)確性,使其能夠更可靠地為智能體搜索系統(tǒng)提供評(píng)估服務(wù)。
在構(gòu)建評(píng)判智能體時(shí),信息提取器采用了基于 transformer 架構(gòu)的深度學(xué)習(xí)模型,該模型經(jīng)過大量文本數(shù)據(jù)訓(xùn)練,能夠理解自然語言的語義和結(jié)構(gòu),從而準(zhǔn)確提取關(guān)鍵信息。驗(yàn)證器則結(jié)合了網(wǎng)頁內(nèi)容解析技術(shù)和邏輯推理算法,不僅能夠檢查引用鏈接的有效性,還能判斷鏈接內(nèi)容與答案信息是否匹配,確保每個(gè)信息點(diǎn)都有準(zhǔn)確可靠的來源支持。
實(shí)驗(yàn)與評(píng)估
實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)涵蓋了多種類型的智能體搜索系統(tǒng),包括商業(yè)搜索產(chǎn)品(如 ChatGPT Search、Perplexity Pro Search)、Deep Research 系統(tǒng)(如 OpenAI Deep Research、Grok DeepSearch 等)以及 OpenAI Operator。每個(gè)系統(tǒng)都有其獨(dú)特的技術(shù)特點(diǎn)和優(yōu)勢(shì)。例如,Deep Research 系統(tǒng)通常具備更強(qiáng)的長(zhǎng)周期任務(wù)處理和信息整合能力,能夠在面對(duì)復(fù)雜任務(wù)時(shí)保持較高的性能表現(xiàn);而 OpenAI Operator 則在處理需要視覺交互的任務(wù)上具有一定優(yōu)勢(shì)。
評(píng)估指標(biāo)主要包括部分完成率、成功率、Pass@3、平均完成時(shí)間和平均答案長(zhǎng)度。下表展示了各系統(tǒng)的主評(píng)估結(jié)果,包括這些評(píng)估指標(biāo)的具體數(shù)值及標(biāo)準(zhǔn)差,從中可直觀對(duì)比不同智能體搜索系統(tǒng)的表現(xiàn)。
主要評(píng)估結(jié)果。 其中報(bào)告了部分完成得分、完整任務(wù)成功率、Pass@3、平均時(shí)間(以分鐘計(jì))、平均回答長(zhǎng)度(以單詞計(jì))及其標(biāo)準(zhǔn)差
部分完成率反映系統(tǒng)在任務(wù)部分要求上的達(dá)成情況,成功率體現(xiàn)系統(tǒng)完整準(zhǔn)確完成任務(wù)的能力,Pass@3 表示至少有一次嘗試成功的任務(wù)比例,平均完成時(shí)間和平均答案長(zhǎng)度則分別從效率和信息量角度衡量系統(tǒng)表現(xiàn)。這些指標(biāo)相互補(bǔ)充,共同勾勒出智能體搜索系統(tǒng)在不同維度上的性能圖譜。
主要結(jié)果
不同智能體搜索系統(tǒng)在 Mind2Web 2 基準(zhǔn)測(cè)試上的表現(xiàn)差異顯著。基于搜索的 LLM 系統(tǒng)如 ChatGPT Search 和 Perplexity Pro Search 因搜索范圍有限、信息整合能力較弱,在復(fù)雜任務(wù)上得分較低。網(wǎng)頁Agent系統(tǒng)如 OpenAI Operator 在處理需要視覺交互的任務(wù)上表現(xiàn)出色,但在涉及長(zhǎng)時(shí)間信息整合的任務(wù)中略顯不足。Deep Research 系統(tǒng)則在長(zhǎng)時(shí)間任務(wù)和綜合信息整合方面展現(xiàn)出強(qiáng)大的能力,例如 OpenAI Deep Research 在多個(gè)任務(wù)中取得了較高的部分完成率和成功率,證明了其在復(fù)雜信息獲取任務(wù)中的優(yōu)勢(shì)。
在時(shí)間變化任務(wù)上,Deep Research 系統(tǒng)憑借其采用的實(shí)時(shí)網(wǎng)頁監(jiān)控算法,能及時(shí)捕捉網(wǎng)頁內(nèi)容更新,動(dòng)態(tài)調(diào)整搜索策略以獲取最新信息。相比其他系統(tǒng),它在處理這類任務(wù)時(shí)具有明顯優(yōu)勢(shì)。然而,過度依賴實(shí)時(shí)信息也可能導(dǎo)致其忽略部分穩(wěn)定的背景知識(shí),這是其在時(shí)間變化任務(wù)處理中需要進(jìn)一步優(yōu)化的方向。
下圖以平均部分完成率與平均任務(wù)完成時(shí)間的對(duì)比,生動(dòng)展現(xiàn)了不同系統(tǒng)在效率與任務(wù)完成質(zhì)量方面的權(quán)衡關(guān)系。
部分完成率與平均完成任務(wù)時(shí)間的對(duì)比”或“平均部分完成率與平均任務(wù)完成時(shí)間的比較
下圖則清晰呈現(xiàn)了在明確時(shí)變?nèi)蝿?wù)上與其它任務(wù)的平均部分完成率對(duì)比,凸顯了各智能體搜索系統(tǒng)在應(yīng)對(duì)時(shí)變?nèi)蝿?wù)時(shí)的能力差異。
在明確具有時(shí)間變化特征的任務(wù)中,平均部分完成率與其他所有任務(wù)相比
下圖所示為不同智能體搜索系統(tǒng)在常見錯(cuò)誤類型上的分布情況,通過該圖可深入了解各系統(tǒng)在各類錯(cuò)誤上的易發(fā)情況,進(jìn)而明確其性能瓶頸與改進(jìn)方向。
不同智能體與人類之間的錯(cuò)誤情況。柱狀圖表示每種錯(cuò)誤類型在任務(wù)中所占的百分比。其中包含了來自五個(gè)智能體搜索系統(tǒng)以及人類的結(jié)果
與人類參與者的表現(xiàn)對(duì)比分析顯示,人類在處理復(fù)雜信息獲取任務(wù)時(shí),能夠靈活運(yùn)用背景知識(shí)和批判性思維,對(duì)信息進(jìn)行深度分析和判斷。例如,在評(píng)估某學(xué)術(shù)論文的重要性時(shí),人類可以結(jié)合自己對(duì)該領(lǐng)域的了解,判斷論文的創(chuàng)新性和影響力,而智能體搜索系統(tǒng)可能僅能基于引用次數(shù)等表面指標(biāo)進(jìn)行評(píng)估。但人類容易受認(rèn)知疲勞影響,隨著任務(wù)時(shí)間延長(zhǎng),錯(cuò)誤率可能上升。而智能體搜索系統(tǒng)在穩(wěn)定性、持續(xù)性方面表現(xiàn)更為出色,能長(zhǎng)時(shí)間穩(wěn)定輸出答案,減少因疲勞導(dǎo)致的錯(cuò)誤。例如,在一些需要長(zhǎng)時(shí)間瀏覽和整合大量網(wǎng)頁信息的任務(wù)中,智能體搜索系統(tǒng)能夠保持一致的性能表現(xiàn),而人類可能會(huì)因注意力下降而遺漏關(guān)鍵信息或出現(xiàn)判斷失誤。
誤差分析
常見錯(cuò)誤類型
在智能體搜索系統(tǒng)和人類答案中,共定義了七種常見錯(cuò)誤類型。信息缺失錯(cuò)誤包括信息未找到和部分缺失兩種情況。例如,系統(tǒng)可能因搜索策略不完善而未能檢索到關(guān)鍵數(shù)據(jù),或者只提供了部分任務(wù)要求的信息。標(biāo)準(zhǔn)違反錯(cuò)誤是指答案不符合任務(wù)中的明確限制條件,如提供的商品價(jià)格超出預(yù)算范圍、回答內(nèi)容不符合指定格式等。
如下圖所示,在不同智能體搜索系統(tǒng)和人類的答案中,各類錯(cuò)誤類型分布各異,這些數(shù)據(jù)為我們深入剖析各系統(tǒng)的性能表現(xiàn)提供了有力支撐。
不同智能體與人類之間的錯(cuò)誤情況。柱狀圖表示每種錯(cuò)誤類型在任務(wù)中所占的百分比。其中包含了來自五個(gè)智能體搜索系統(tǒng)以及人類的結(jié)果
無效歸屬錯(cuò)誤表現(xiàn)為提供錯(cuò)誤或虛構(gòu)的引用鏈接,這可能是由于系統(tǒng)在生成引用時(shí)未對(duì)鏈接的有效性進(jìn)行充分驗(yàn)證。缺失歸屬錯(cuò)誤則是未為必要信息提供來源鏈接,導(dǎo)致信息無法追溯。支持答案錯(cuò)誤進(jìn)一步細(xì)分為合成錯(cuò)誤和檢索錯(cuò)誤。合成錯(cuò)誤是指從正確網(wǎng)頁提取錯(cuò)誤信息,如誤解網(wǎng)頁內(nèi)容導(dǎo)致信息扭曲;檢索錯(cuò)誤則是引用了與任務(wù)無關(guān)的網(wǎng)頁,使得答案缺乏有效支持。
錯(cuò)誤分布與影響
分析不同智能體搜索系統(tǒng)和人類在錯(cuò)誤類型上的分布情況,可以發(fā)現(xiàn)各系統(tǒng)性能的瓶頸和改進(jìn)方向。某些系統(tǒng)因搜索模塊的缺陷,信息缺失錯(cuò)誤頻發(fā);其他系統(tǒng)可能因歸屬處理模塊不完善,出現(xiàn)大量無效或缺失歸屬錯(cuò)誤。例如,部分基于搜索的 LLM 系統(tǒng)由于缺乏對(duì)網(wǎng)頁內(nèi)容的深度理解和有效的引用管理機(jī)制,在合成答案時(shí)容易出現(xiàn)信息缺失和歸屬錯(cuò)誤;而一些網(wǎng)頁Agent系統(tǒng)可能因視覺交互過程中的不穩(wěn)定因素,導(dǎo)致在信息提取和歸屬處理上出現(xiàn)偏差。
討論與啟示
智能體搜索系統(tǒng)的潛力與局限
智能體搜索系統(tǒng)展現(xiàn)出了巨大的潛力。它能夠顯著減輕用戶在信息獲取過程中的認(rèn)知負(fù)擔(dān),尤其適用于大規(guī)模數(shù)據(jù)搜索和精細(xì)信息提取任務(wù)。例如,在學(xué)術(shù)研究領(lǐng)域,智能體搜索系統(tǒng)可以幫助研究人員快速收集和整合大量文獻(xiàn)資料,提高研究效率;在商業(yè)領(lǐng)域,它能夠?yàn)槠髽I(yè)決策提供及時(shí)、準(zhǔn)確的市場(chǎng)情報(bào)支持。
然而,當(dāng)前智能體搜索系統(tǒng)仍面臨一些挑戰(zhàn)。在處理時(shí)間變化任務(wù)時(shí),部分系統(tǒng)可能因動(dòng)態(tài)網(wǎng)頁更新監(jiān)測(cè)的延遲而無法及時(shí)獲取最新信息;在實(shí)時(shí)信息交互方面,某些系統(tǒng)對(duì)交互指令的執(zhí)行精度不足,導(dǎo)致信息提取不完整或不準(zhǔn)確。此外,現(xiàn)有模型在長(zhǎng)距離推理和規(guī)劃能力上也存在一定局限,面對(duì)多步驟復(fù)雜任務(wù)時(shí),可能出現(xiàn)規(guī)劃不合理、推理不準(zhǔn)確的問題,影響最終答案的質(zhì)量。
未來發(fā)展方向
智能體搜索系統(tǒng)的進(jìn)一步發(fā)展,首先需要加強(qiáng)實(shí)時(shí)網(wǎng)頁瀏覽和交互能力。開發(fā)更高效的網(wǎng)頁動(dòng)態(tài)監(jiān)測(cè)算法,能夠?qū)崟r(shí)捕捉網(wǎng)頁內(nèi)容的細(xì)微變化,確保信息的時(shí)效性;同時(shí)優(yōu)化交互指令的執(zhí)行精度,提升系統(tǒng)在復(fù)雜網(wǎng)頁環(huán)境中的操作能力。
優(yōu)化長(zhǎng)距離推理和規(guī)劃是關(guān)鍵。借鑒人類認(rèn)知模型,改進(jìn)智能體的規(guī)劃策略,使其能夠更好地處理多步驟復(fù)雜任務(wù),從整體上把握任務(wù)目標(biāo),合理安排搜索路徑和信息整合方式。
提高答案合成的準(zhǔn)確性至關(guān)重要。引入更先進(jìn)的自然語言處理技術(shù),確保信息整合的完整性和正確性,使答案內(nèi)容豐富,而且邏輯嚴(yán)密、表達(dá)清晰。
實(shí)操性建議
對(duì)于希望利用 Mind2Web 2 基準(zhǔn)測(cè)試來評(píng)估和優(yōu)化智能體搜索系統(tǒng),以下是一些具體建議:
1. 任務(wù)設(shè)計(jì) :根據(jù) Mind2Web 2 的任務(wù)設(shè)計(jì)原則,結(jié)合自身需求設(shè)計(jì)評(píng)估任務(wù)。確保任務(wù)具有現(xiàn)實(shí)性、長(zhǎng)期性、艱巨性、客觀性和可驗(yàn)證性。例如,如果要評(píng)估智能體搜索系統(tǒng)在金融領(lǐng)域的信息獲取能力,可以設(shè)計(jì)一個(gè)任務(wù),要求系統(tǒng)收集某只股票在過去一年內(nèi)的價(jià)格走勢(shì)、重大新聞事件、公司財(cái)務(wù)報(bào)告關(guān)鍵數(shù)據(jù)等信息,并整合成一份投資分析報(bào)告。
2. 評(píng)估指標(biāo)選擇 :參考 Mind2Web 2 的評(píng)估指標(biāo)體系,選擇適合自己的評(píng)估指標(biāo)。除了部分完成率、成功率等常見指標(biāo)外,還可以根據(jù)任務(wù)特點(diǎn)增加一些特定指標(biāo),如答案的深度(信息的詳細(xì)程度)、廣度(覆蓋的方面)等。
3. 利用 Agent-as-a-Judge 框架 :學(xué)習(xí) Mind2Web 2 中 Agent-as-a-Judge 框架的構(gòu)建方法,開發(fā)自己的評(píng)判智能體。在構(gòu)建過程中,注重信息提取和驗(yàn)證環(huán)節(jié)的優(yōu)化,提高評(píng)判智能體的準(zhǔn)確性。例如,在信息提取環(huán)節(jié),可以嘗試使用不同的自然語言處理模型,看看哪種模型在提取特定類型信息時(shí)效果最好;在驗(yàn)證環(huán)節(jié),可以結(jié)合多種驗(yàn)證方法,如基于網(wǎng)頁內(nèi)容的驗(yàn)證、基于邏輯推理的驗(yàn)證等,提高驗(yàn)證結(jié)果的可靠性。
4. 根據(jù)評(píng)估結(jié)果優(yōu)化智能體搜索系統(tǒng) :在獲得評(píng)估結(jié)果后,深入分析系統(tǒng)的優(yōu)勢(shì)和不足。針對(duì)存在的問題,采取相應(yīng)的優(yōu)化措施。如果系統(tǒng)在時(shí)間變化任務(wù)上表現(xiàn)不佳,可以優(yōu)化網(wǎng)頁更新監(jiān)測(cè)模塊,提高對(duì)動(dòng)態(tài)信息的捕捉能力;如果答案合成存在錯(cuò)誤,可以改進(jìn)信息整合算法,加強(qiáng)答案的邏輯性和連貫性。
下圖展示的 GUI 工具截圖,能夠直觀呈現(xiàn)智能體答案、預(yù)緩存網(wǎng)頁、評(píng)分規(guī)則以及評(píng)判智能體評(píng)估結(jié)果,借助此類工具可更高效地進(jìn)行評(píng)估與分析工作。
一個(gè)用于可視化代理回答、預(yù)緩存網(wǎng)頁、評(píng)分標(biāo)準(zhǔn)以及評(píng)判代理評(píng)估結(jié)果的圖形用戶界面工具的截圖
人類與智能體搜索系統(tǒng)的協(xié)同工作
在與人類參與者的表現(xiàn)對(duì)比分析中,進(jìn)一步探討人類如何與智能體搜索系統(tǒng)協(xié)同工作。在復(fù)雜信息獲取任務(wù)中,人類可以先利用智能體搜索系統(tǒng)提供的初步答案進(jìn)行快速了解和初步判斷,然后發(fā)揮自己的批判性思維和背景知識(shí)優(yōu)勢(shì),對(duì)答案進(jìn)行深入分析和驗(yàn)證。例如,在進(jìn)行商業(yè)決策時(shí),智能體搜索系統(tǒng)可以快速收集市場(chǎng)數(shù)據(jù)、競(jìng)爭(zhēng)對(duì)手信息等,為決策者提供基礎(chǔ)數(shù)據(jù)支持;決策者則可以結(jié)合自己對(duì)市場(chǎng)的理解和經(jīng)驗(yàn),對(duì)這些數(shù)據(jù)進(jìn)行深入解讀,識(shí)別潛在的機(jī)會(huì)和風(fēng)險(xiǎn),從而做出更明智的決策。
同時(shí),人類還可以通過與智能體搜索系統(tǒng)的交互,幫助系統(tǒng)更好地理解任務(wù)需求和優(yōu)化搜索策略。例如,當(dāng)智能體搜索系統(tǒng)對(duì)某個(gè)任務(wù)的語義理解存在偏差時(shí),用戶可以通過反饋機(jī)制糾正系統(tǒng)的理解,引導(dǎo)系統(tǒng)更準(zhǔn)確地獲取所需信息。這種人機(jī)協(xié)作模式可以充分發(fā)揮人類和智能體搜索系統(tǒng)各自的優(yōu)勢(shì),提高整體的信息獲取效率和質(zhì)量。
總結(jié)
Mind2Web 2 基準(zhǔn)測(cè)試及 Agent-as-a-Judge 評(píng)估框架為智能體搜索系統(tǒng)的評(píng)估與發(fā)展開辟了新路徑。它們搭建起量化評(píng)估的標(biāo)尺,讓不同系統(tǒng)性能可比,為技術(shù)優(yōu)化錨定方向。Mind2Web 2 以真實(shí)復(fù)雜的任務(wù)為藍(lán)本,全面透視智能體搜索系統(tǒng)的能耐與短板。
這份研究其實(shí)還有一個(gè)意義就是給我們一個(gè)對(duì)AI系統(tǒng)的評(píng)估示范。它為我們?cè)诿鎸?duì)復(fù)雜的 AI 系統(tǒng)評(píng)估時(shí),提供了一種科學(xué)、嚴(yán)謹(jǐn)且具有可操作性的范例。傳統(tǒng)的 AI 系統(tǒng)評(píng)估往往側(cè)重于單一維度的性能指標(biāo),如準(zhǔn)確率、召回率等,而 Mind2Web 2 及其評(píng)估框架則展現(xiàn)了多維度、綜合性評(píng)估的范式。從任務(wù)設(shè)計(jì)層面,它依據(jù)現(xiàn)實(shí)性、長(zhǎng)期性、艱巨性、客觀性和可驗(yàn)證性等原則精心構(gòu)建任務(wù),確保評(píng)估場(chǎng)景貼近實(shí)際應(yīng)用,評(píng)估結(jié)果具備現(xiàn)實(shí)指導(dǎo)價(jià)值。這種任務(wù)設(shè)計(jì)思路啟示我們?cè)谠u(píng)估 AI 系統(tǒng)時(shí),不能僅著眼于實(shí)驗(yàn)評(píng)測(cè)環(huán)境下的理想條件,而應(yīng)讓評(píng)估任務(wù)盡可能模擬真實(shí)世界中的復(fù)雜情境,這樣才能精準(zhǔn)衡量 AI 系統(tǒng)在實(shí)際部署中可能遇到的挑戰(zhàn)。
在評(píng)估指標(biāo)方面,Mind2Web 2 綜合考量了部分完成率、成功率、Pass@3、平均完成時(shí)間和平均答案長(zhǎng)度等多元指標(biāo),全面展現(xiàn)了智能體搜索系統(tǒng)在任務(wù)完成度、效率以及答案質(zhì)量等各方面的表現(xiàn)。這不同于以往單純追求某一指標(biāo)最大化的評(píng)估方式,而是更注重對(duì)系統(tǒng)綜合性能的刻畫,有利于我們更全面地了解 AI 系統(tǒng)的能力邊界。同時(shí),其創(chuàng)新性的 Agent-as-a-Judge 評(píng)估框架,運(yùn)用樹狀評(píng)分規(guī)則對(duì)復(fù)雜答案進(jìn)行逐層分解評(píng)估,為處理長(zhǎng)周期、復(fù)雜任務(wù)的 AI 系統(tǒng)評(píng)估提供了全新的視角和方法。這一框架不僅能夠精準(zhǔn)判斷答案的正確性,還能細(xì)致分析答案中每個(gè)信息點(diǎn)的來源可靠性,為 AI 系統(tǒng)的優(yōu)化升級(jí)指明了具體方向,讓我們?cè)谠u(píng)估過程中既能把握整體性能,又能深入剖析細(xì)節(jié)問題,為 AI 系統(tǒng)的持續(xù)改進(jìn)提供了有力支撐。
了解了 Mind2Web 2 與智能體搜索系統(tǒng)后,LLM 在信息獲取領(lǐng)域的效率還是令人興奮的。智能體搜索系統(tǒng)憑自主智能,正重塑知識(shí)獲取途徑。從早期簡(jiǎn)單搜索 API,到如今能攻克長(zhǎng)周期復(fù)雜任務(wù)的 Deep Research 系統(tǒng),這種技術(shù)躍遷是革命性的。但挑戰(zhàn)猶存,時(shí)間變化任務(wù)處理、實(shí)時(shí)信息交互能力提升等難題待解。
Mind2Web 2 評(píng)估展現(xiàn)不同智能體搜索系統(tǒng)優(yōu)劣,人機(jī)對(duì)比鮮明。技術(shù)進(jìn)步不能只盯著效率提升,還需在復(fù)雜性、準(zhǔn)確性、可靠性上協(xié)同精進(jìn)。誤差分析披露的常見錯(cuò)誤及分布,為系統(tǒng)優(yōu)化點(diǎn)明關(guān)鍵。