超過(guò)谷歌搜索，成本猛降80%！阿里開(kāi)源創(chuàng)新大模型搜索引擎

2025-05-09 08:31:11

ZeroSearch是一種無(wú)需與真實(shí)搜索引擎交互即可激勵(lì)大模型搜索能力的強(qiáng)化學(xué)習(xí)框架。

昨天，阿里巴巴開(kāi)源了一種創(chuàng)新大模型搜索引擎——ZeroSearch。

ZeroSearch是一種無(wú)需與真實(shí)搜索引擎交互即可激勵(lì)大模型搜索能力的強(qiáng)化學(xué)習(xí)框架。主要利用了大模型在大規(guī)模預(yù)訓(xùn)練過(guò)程中積累的豐富知識(shí)，將其轉(zhuǎn)化為一個(gè)檢索模塊，能夠根據(jù)搜索查詢生成相關(guān)內(nèi)容。同時(shí)，還可以動(dòng)態(tài)控制生成內(nèi)容的質(zhì)量，這是傳統(tǒng)搜索引擎所不具備的特殊功能。

研究人員在NQ、TriviaQA、PopQA、HotpotQA等7大問(wèn)答數(shù)據(jù)集上進(jìn)行了綜合評(píng)測(cè)。結(jié)果顯示，一個(gè)70億參數(shù)的監(jiān)督微調(diào)模型使用ZeroSearch后，其搜索能力達(dá)到了33.06；140億參數(shù)的模型則達(dá)到了33.97，超過(guò)了谷歌搜索的32.47。

在成本方面，研究人員通過(guò)SerpAPI使用谷歌搜索進(jìn)行約64,000次搜索查詢的訓(xùn)練，成本約為586.70美元；而在四個(gè)A100GPU上使用140億參數(shù)的大模型進(jìn)行模擬時(shí)，成本僅為70.80美元，成本降低了80%以上。

開(kāi)源地址：https://github.com/Alibaba-nlp/ZeroSearch

笑臉：https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

目前，為了解決大模型幻覺(jué)以及擴(kuò)大外部知識(shí)范圍，檢索增強(qiáng)生成（RAG）已成為標(biāo)配。不過(guò)，早期的RAG主要采用基于提示的策略，通過(guò)引導(dǎo)大模型進(jìn)行查詢生成、查詢分解和多輪信息檢索來(lái)整合外部知識(shí)，但這些方法對(duì)提示要求較高，且對(duì)模型的推理能力依賴較大。

還有研究嘗試通過(guò)監(jiān)督微調(diào)、蒙特卡洛樹搜索等方法來(lái)增強(qiáng)搜索能力，雖然取得了一定成果，但算力消耗很大，在實(shí)際部署中面臨很多難題。

隨著DeepSeek-R1、o1等模型的出現(xiàn)，強(qiáng)化學(xué)習(xí)成為了一項(xiàng)改變模型邏輯推理能力的關(guān)鍵技術(shù)。這些模型完全依賴于獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí)，而無(wú)需明確的逐步監(jiān)督。

因此，有不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用在大模型搜索中。例如，Search-R1通過(guò)強(qiáng)化學(xué)習(xí)自主生成多個(gè)搜索查詢，而ReSearch則通過(guò)強(qiáng)化學(xué)習(xí)教授模型通過(guò)搜索進(jìn)行推理，無(wú)需對(duì)中間推理步驟進(jìn)行監(jiān)督。但這些方法需要與谷歌等商業(yè)搜索引擎搭配使用才能達(dá)到最佳效果，成本方面非常高。

ZeroSearch則通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)大模型的搜索能力，同時(shí)避免了與真實(shí)搜索引擎交互帶來(lái)的高昂成本和不可控性。

ZeroSearch通過(guò)輕量級(jí)監(jiān)督微調(diào)將大模型轉(zhuǎn)化為一個(gè)檢索模塊。這一過(guò)程利用了大模型在大規(guī)模預(yù)訓(xùn)練中積累的豐富知識(shí)，使其能夠根據(jù)給定的查詢生成相關(guān)或噪聲文檔。通過(guò)調(diào)整提示中的關(guān)鍵詞，模型可以靈活地控制生成文檔的質(zhì)量，從而為后續(xù)的訓(xùn)練提供多樣化的檢索場(chǎng)景。

這種能力是通過(guò)收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù)，并對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注和微調(diào)來(lái)實(shí)現(xiàn)的。主要是讓大模型與真實(shí)搜索引擎展開(kāi)多輪交互，直至得出最終答案。

在此過(guò)程中，詳細(xì)記錄下所有交互軌跡，這些軌跡涵蓋了從模型發(fā)起查詢，到搜索引擎返回文檔，以及模型據(jù)此生成最終答案的全過(guò)程。接著，對(duì)這些交互軌跡進(jìn)行細(xì)致標(biāo)注，將能產(chǎn)生正確答案的交互軌跡標(biāo)記為正樣本，意味著其中檢索到的文檔發(fā)揮了積極作用；而導(dǎo)致錯(cuò)誤答案的交互軌跡則歸為負(fù)樣本，表明對(duì)應(yīng)的檢索文檔屬于干擾信息。

從正樣本和負(fù)樣本交互軌跡中精準(zhǔn)提取查詢-文檔對(duì)，以此為基礎(chǔ)對(duì)大模型實(shí)施輕量級(jí)監(jiān)督微調(diào)。微調(diào)時(shí)，研究人員巧妙調(diào)整提示中的少量詞匯，例如，加入“有用信息”“噪聲信息”等，引導(dǎo)大模型學(xué)習(xí)生成不同質(zhì)量的文檔。同時(shí)，將輸入問(wèn)題及其對(duì)應(yīng)的答案融入提示內(nèi)容，拓寬大模型的知識(shí)邊界。

ZeroSearch還通過(guò)引入“課程學(xué)習(xí)機(jī)制”，用于在訓(xùn)練過(guò)程中逐步調(diào)整生成文檔的質(zhì)量。其核心思想是，隨著訓(xùn)練的進(jìn)行，逐漸增加任務(wù)的難度，使模型從簡(jiǎn)單的檢索場(chǎng)景開(kāi)始，逐步適應(yīng)更具挑戰(zhàn)性的環(huán)境。

通過(guò)一個(gè)概率函數(shù)動(dòng)態(tài)調(diào)整生成噪聲文檔的可能性。在訓(xùn)練初期，模型主要接觸高質(zhì)量的文檔，以便快速學(xué)習(xí)基本的輸出格式和任務(wù)要求。隨著訓(xùn)練的深入，模型逐漸暴露于更多噪聲文檔，這迫使模型不斷提升其推理能力和魯棒性，以應(yīng)對(duì)更具挑戰(zhàn)性的檢索任務(wù)。

在強(qiáng)化學(xué)習(xí)的框架下，ZeroSearch采用了多種算法來(lái)優(yōu)化模型的搜索策略。這些算法包括近端策略優(yōu)化、組相對(duì)策略優(yōu)化等，通過(guò)最大化策略模型的期望獎(jiǎng)勵(lì)來(lái)訓(xùn)練模型，同時(shí)考慮參考模型和獎(jiǎng)勵(lì)函數(shù)。

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)專注于答案的準(zhǔn)確性，采用基于F1分?jǐn)?shù)的獎(jiǎng)勵(lì)機(jī)制，以平衡精確度和召回率。此外，為了提高訓(xùn)練的穩(wěn)定性，ZeroSearch還引入了損失掩蔽機(jī)制，確保梯度僅針對(duì)模型自身的輸出進(jìn)行計(jì)算，從而避免了由于外部生成的文檔標(biāo)記引入的噪聲。

ZeroSearch的訓(xùn)練模板是一個(gè)多輪交互模板，明確區(qū)分了模型的推理、搜索和回答階段。在推理階段，模型在其內(nèi)部進(jìn)行思考，并在<think>...</think>標(biāo)簽內(nèi)闡述其推理過(guò)程。如果模型認(rèn)為需要額外的信息，它會(huì)在<search>...</search>標(biāo)簽內(nèi)發(fā)出搜索查詢。檢索到的文檔由模擬搜索引擎生成，并在<information>...</information>標(biāo)簽內(nèi)返回給模型。

最后，大模型在<answer>...</answer>標(biāo)簽內(nèi)提供最終答案。這種結(jié)構(gòu)化的模板不僅提高了模型的透明度，還增強(qiáng)了其在實(shí)際應(yīng)用中的可靠性。

責(zé)任編輯：張燕妮來(lái)源： AIGC開(kāi)放社區(qū)

開(kāi)源搜索引擎模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超過(guò)谷歌搜索，成本猛降80%！阿里開(kāi)源創(chuàng)新大模型搜索引擎