超過(guò)谷歌搜索,成本猛降80%!阿里開(kāi)源創(chuàng)新大模型搜索引擎
昨天,阿里巴巴開(kāi)源了一種創(chuàng)新大模型搜索引擎——ZeroSearch。
ZeroSearch是一種無(wú)需與真實(shí)搜索引擎交互即可激勵(lì)大模型搜索能力的強(qiáng)化學(xué)習(xí)框架。主要利用了大模型在大規(guī)模預(yù)訓(xùn)練過(guò)程中積累的豐富知識(shí),將其轉(zhuǎn)化為一個(gè)檢索模塊,能夠根據(jù)搜索查詢生成相關(guān)內(nèi)容。同時(shí),還可以動(dòng)態(tài)控制生成內(nèi)容的質(zhì)量,這是傳統(tǒng)搜索引擎所不具備的特殊功能。
研究人員在NQ、TriviaQA、PopQA、HotpotQA等7大問(wèn)答數(shù)據(jù)集上進(jìn)行了綜合評(píng)測(cè)。結(jié)果顯示,一個(gè)70億參數(shù)的監(jiān)督微調(diào)模型使用ZeroSearch后,其搜索能力達(dá)到了33.06;140億參數(shù)的模型則達(dá)到了33.97,超過(guò)了谷歌搜索的32.47。
在成本方面,研究人員通過(guò)SerpAPI使用谷歌搜索進(jìn)行約64,000次搜索查詢的訓(xùn)練,成本約為586.70美元;而在四個(gè)A100GPU上使用140億參數(shù)的大模型進(jìn)行模擬時(shí),成本僅為70.80美元,成本降低了80%以上。
開(kāi)源地址:https://github.com/Alibaba-nlp/ZeroSearch
笑臉:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0
目前,為了解決大模型幻覺(jué)以及擴(kuò)大外部知識(shí)范圍,檢索增強(qiáng)生成(RAG)已成為標(biāo)配。不過(guò),早期的RAG主要采用基于提示的策略,通過(guò)引導(dǎo)大模型進(jìn)行查詢生成、查詢分解和多輪信息檢索來(lái)整合外部知識(shí),但這些方法對(duì)提示要求較高,且對(duì)模型的推理能力依賴較大。
還有研究嘗試通過(guò)監(jiān)督微調(diào)、蒙特卡洛樹搜索等方法來(lái)增強(qiáng)搜索能力,雖然取得了一定成果,但算力消耗很大,在實(shí)際部署中面臨很多難題。
隨著DeepSeek-R1、o1等模型的出現(xiàn),強(qiáng)化學(xué)習(xí)成為了一項(xiàng)改變模型邏輯推理能力的關(guān)鍵技術(shù)。這些模型完全依賴于獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí),而無(wú)需明確的逐步監(jiān)督。
因此,有不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用在大模型搜索中。例如,Search-R1通過(guò)強(qiáng)化學(xué)習(xí)自主生成多個(gè)搜索查詢,而ReSearch則通過(guò)強(qiáng)化學(xué)習(xí)教授模型通過(guò)搜索進(jìn)行推理,無(wú)需對(duì)中間推理步驟進(jìn)行監(jiān)督。但這些方法需要與谷歌等商業(yè)搜索引擎搭配使用才能達(dá)到最佳效果,成本方面非常高。
ZeroSearch則通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)大模型的搜索能力,同時(shí)避免了與真實(shí)搜索引擎交互帶來(lái)的高昂成本和不可控性。
ZeroSearch通過(guò)輕量級(jí)監(jiān)督微調(diào)將大模型轉(zhuǎn)化為一個(gè)檢索模塊。這一過(guò)程利用了大模型在大規(guī)模預(yù)訓(xùn)練中積累的豐富知識(shí),使其能夠根據(jù)給定的查詢生成相關(guān)或噪聲文檔。通過(guò)調(diào)整提示中的關(guān)鍵詞,模型可以靈活地控制生成文檔的質(zhì)量,從而為后續(xù)的訓(xùn)練提供多樣化的檢索場(chǎng)景。
這種能力是通過(guò)收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注和微調(diào)來(lái)實(shí)現(xiàn)的。主要是讓大模型與真實(shí)搜索引擎展開(kāi)多輪交互,直至得出最終答案。
在此過(guò)程中,詳細(xì)記錄下所有交互軌跡,這些軌跡涵蓋了從模型發(fā)起查詢,到搜索引擎返回文檔,以及模型據(jù)此生成最終答案的全過(guò)程。接著,對(duì)這些交互軌跡進(jìn)行細(xì)致標(biāo)注,將能產(chǎn)生正確答案的交互軌跡標(biāo)記為正樣本,意味著其中檢索到的文檔發(fā)揮了積極作用;而導(dǎo)致錯(cuò)誤答案的交互軌跡則歸為負(fù)樣本,表明對(duì)應(yīng)的檢索文檔屬于干擾信息。
從正樣本和負(fù)樣本交互軌跡中精準(zhǔn)提取查詢-文檔對(duì),以此為基礎(chǔ)對(duì)大模型實(shí)施輕量級(jí)監(jiān)督微調(diào)。微調(diào)時(shí),研究人員巧妙調(diào)整提示中的少量詞匯,例如,加入“有用信息”“噪聲信息”等,引導(dǎo)大模型學(xué)習(xí)生成不同質(zhì)量的文檔。同時(shí),將輸入問(wèn)題及其對(duì)應(yīng)的答案融入提示內(nèi)容,拓寬大模型的知識(shí)邊界。
ZeroSearch還通過(guò)引入“課程學(xué)習(xí)機(jī)制”,用于在訓(xùn)練過(guò)程中逐步調(diào)整生成文檔的質(zhì)量。其核心思想是,隨著訓(xùn)練的進(jìn)行,逐漸增加任務(wù)的難度,使模型從簡(jiǎn)單的檢索場(chǎng)景開(kāi)始,逐步適應(yīng)更具挑戰(zhàn)性的環(huán)境。
通過(guò)一個(gè)概率函數(shù)動(dòng)態(tài)調(diào)整生成噪聲文檔的可能性。在訓(xùn)練初期,模型主要接觸高質(zhì)量的文檔,以便快速學(xué)習(xí)基本的輸出格式和任務(wù)要求。隨著訓(xùn)練的深入,模型逐漸暴露于更多噪聲文檔,這迫使模型不斷提升其推理能力和魯棒性,以應(yīng)對(duì)更具挑戰(zhàn)性的檢索任務(wù)。
在強(qiáng)化學(xué)習(xí)的框架下,ZeroSearch采用了多種算法來(lái)優(yōu)化模型的搜索策略。這些算法包括近端策略優(yōu)化、組相對(duì)策略優(yōu)化等,通過(guò)最大化策略模型的期望獎(jiǎng)勵(lì)來(lái)訓(xùn)練模型,同時(shí)考慮參考模型和獎(jiǎng)勵(lì)函數(shù)。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)專注于答案的準(zhǔn)確性,采用基于F1分?jǐn)?shù)的獎(jiǎng)勵(lì)機(jī)制,以平衡精確度和召回率。此外,為了提高訓(xùn)練的穩(wěn)定性,ZeroSearch還引入了損失掩蔽機(jī)制,確保梯度僅針對(duì)模型自身的輸出進(jìn)行計(jì)算,從而避免了由于外部生成的文檔標(biāo)記引入的噪聲。
ZeroSearch的訓(xùn)練模板是一個(gè)多輪交互模板,明確區(qū)分了模型的推理、搜索和回答階段。在推理階段,模型在其內(nèi)部進(jìn)行思考,并在<think>...</think>標(biāo)簽內(nèi)闡述其推理過(guò)程。如果模型認(rèn)為需要額外的信息,它會(huì)在<search>...</search>標(biāo)簽內(nèi)發(fā)出搜索查詢。檢索到的文檔由模擬搜索引擎生成,并在<information>...</information>標(biāo)簽內(nèi)返回給模型。
最后,大模型在<answer>...</answer>標(biāo)簽內(nèi)提供最終答案。這種結(jié)構(gòu)化的模板不僅提高了模型的透明度,還增強(qiáng)了其在實(shí)際應(yīng)用中的可靠性。