成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超過(guò)谷歌搜索,成本猛降80%!阿里開(kāi)源創(chuàng)新大模型搜索引擎

人工智能 新聞
ZeroSearch是一種無(wú)需與真實(shí)搜索引擎交互即可激勵(lì)大模型搜索能力的強(qiáng)化學(xué)習(xí)框架。

昨天,阿里巴巴開(kāi)源了一種創(chuàng)新大模型搜索引擎——ZeroSearch。

ZeroSearch是一種無(wú)需與真實(shí)搜索引擎交互即可激勵(lì)大模型搜索能力的強(qiáng)化學(xué)習(xí)框架。主要利用了大模型在大規(guī)模預(yù)訓(xùn)練過(guò)程中積累的豐富知識(shí),將其轉(zhuǎn)化為一個(gè)檢索模塊,能夠根據(jù)搜索查詢生成相關(guān)內(nèi)容。同時(shí),還可以動(dòng)態(tài)控制生成內(nèi)容的質(zhì)量,這是傳統(tǒng)搜索引擎所不具備的特殊功能。

研究人員在NQ、TriviaQA、PopQA、HotpotQA等7大問(wèn)答數(shù)據(jù)集上進(jìn)行了綜合評(píng)測(cè)。結(jié)果顯示,一個(gè)70億參數(shù)的監(jiān)督微調(diào)模型使用ZeroSearch后,其搜索能力達(dá)到了33.06;140億參數(shù)的模型則達(dá)到了33.97,超過(guò)了谷歌搜索的32.47。

在成本方面,研究人員通過(guò)SerpAPI使用谷歌搜索進(jìn)行約64,000次搜索查詢的訓(xùn)練,成本約為586.70美元;而在四個(gè)A100GPU上使用140億參數(shù)的大模型進(jìn)行模擬時(shí),成本僅為70.80美元,成本降低了80%以上。

圖片

開(kāi)源地址:https://github.com/Alibaba-nlp/ZeroSearch

笑臉:https://huggingface.co/collections/sunhaonlp/zerosearch-681b4ce012b9b6899832f4d0

目前,為了解決大模型幻覺(jué)以及擴(kuò)大外部知識(shí)范圍,檢索增強(qiáng)生成(RAG)已成為標(biāo)配。不過(guò),早期的RAG主要采用基于提示的策略,通過(guò)引導(dǎo)大模型進(jìn)行查詢生成、查詢分解和多輪信息檢索來(lái)整合外部知識(shí),但這些方法對(duì)提示要求較高,且對(duì)模型的推理能力依賴較大。

還有研究嘗試通過(guò)監(jiān)督微調(diào)、蒙特卡洛樹搜索等方法來(lái)增強(qiáng)搜索能力,雖然取得了一定成果,但算力消耗很大,在實(shí)際部署中面臨很多難題。

隨著DeepSeek-R1、o1等模型的出現(xiàn),強(qiáng)化學(xué)習(xí)成為了一項(xiàng)改變模型邏輯推理能力的關(guān)鍵技術(shù)。這些模型完全依賴于獎(jiǎng)勵(lì)驅(qū)動(dòng)的學(xué)習(xí),而無(wú)需明確的逐步監(jiān)督。

因此,有不少研究將強(qiáng)化學(xué)習(xí)應(yīng)用在大模型搜索中。例如,Search-R1通過(guò)強(qiáng)化學(xué)習(xí)自主生成多個(gè)搜索查詢,而ReSearch則通過(guò)強(qiáng)化學(xué)習(xí)教授模型通過(guò)搜索進(jìn)行推理,無(wú)需對(duì)中間推理步驟進(jìn)行監(jiān)督。但這些方法需要與谷歌等商業(yè)搜索引擎搭配使用才能達(dá)到最佳效果,成本方面非常高。

圖片

ZeroSearch則通過(guò)強(qiáng)化學(xué)習(xí)激勵(lì)大模型的搜索能力,同時(shí)避免了與真實(shí)搜索引擎交互帶來(lái)的高昂成本和不可控性。

ZeroSearch通過(guò)輕量級(jí)監(jiān)督微調(diào)將大模型轉(zhuǎn)化為一個(gè)檢索模塊。這一過(guò)程利用了大模型在大規(guī)模預(yù)訓(xùn)練中積累的豐富知識(shí),使其能夠根據(jù)給定的查詢生成相關(guān)或噪聲文檔。通過(guò)調(diào)整提示中的關(guān)鍵詞,模型可以靈活地控制生成文檔的質(zhì)量,從而為后續(xù)的訓(xùn)練提供多樣化的檢索場(chǎng)景。

這種能力是通過(guò)收集與真實(shí)搜索引擎交互的軌跡數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注和微調(diào)來(lái)實(shí)現(xiàn)的。主要是讓大模型與真實(shí)搜索引擎展開(kāi)多輪交互,直至得出最終答案。

圖片

在此過(guò)程中,詳細(xì)記錄下所有交互軌跡,這些軌跡涵蓋了從模型發(fā)起查詢,到搜索引擎返回文檔,以及模型據(jù)此生成最終答案的全過(guò)程。接著,對(duì)這些交互軌跡進(jìn)行細(xì)致標(biāo)注,將能產(chǎn)生正確答案的交互軌跡標(biāo)記為正樣本,意味著其中檢索到的文檔發(fā)揮了積極作用;而導(dǎo)致錯(cuò)誤答案的交互軌跡則歸為負(fù)樣本,表明對(duì)應(yīng)的檢索文檔屬于干擾信息。

從正樣本和負(fù)樣本交互軌跡中精準(zhǔn)提取查詢-文檔對(duì),以此為基礎(chǔ)對(duì)大模型實(shí)施輕量級(jí)監(jiān)督微調(diào)。微調(diào)時(shí),研究人員巧妙調(diào)整提示中的少量詞匯,例如,加入“有用信息”“噪聲信息”等,引導(dǎo)大模型學(xué)習(xí)生成不同質(zhì)量的文檔。同時(shí),將輸入問(wèn)題及其對(duì)應(yīng)的答案融入提示內(nèi)容,拓寬大模型的知識(shí)邊界。

ZeroSearch還通過(guò)引入“課程學(xué)習(xí)機(jī)制”,用于在訓(xùn)練過(guò)程中逐步調(diào)整生成文檔的質(zhì)量。其核心思想是,隨著訓(xùn)練的進(jìn)行,逐漸增加任務(wù)的難度,使模型從簡(jiǎn)單的檢索場(chǎng)景開(kāi)始,逐步適應(yīng)更具挑戰(zhàn)性的環(huán)境。

圖片

通過(guò)一個(gè)概率函數(shù)動(dòng)態(tài)調(diào)整生成噪聲文檔的可能性。在訓(xùn)練初期,模型主要接觸高質(zhì)量的文檔,以便快速學(xué)習(xí)基本的輸出格式和任務(wù)要求。隨著訓(xùn)練的深入,模型逐漸暴露于更多噪聲文檔,這迫使模型不斷提升其推理能力和魯棒性,以應(yīng)對(duì)更具挑戰(zhàn)性的檢索任務(wù)。

在強(qiáng)化學(xué)習(xí)的框架下,ZeroSearch采用了多種算法來(lái)優(yōu)化模型的搜索策略。這些算法包括近端策略優(yōu)化、組相對(duì)策略優(yōu)化等,通過(guò)最大化策略模型的期望獎(jiǎng)勵(lì)來(lái)訓(xùn)練模型,同時(shí)考慮參考模型和獎(jiǎng)勵(lì)函數(shù)。

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)專注于答案的準(zhǔn)確性,采用基于F1分?jǐn)?shù)的獎(jiǎng)勵(lì)機(jī)制,以平衡精確度和召回率。此外,為了提高訓(xùn)練的穩(wěn)定性,ZeroSearch還引入了損失掩蔽機(jī)制,確保梯度僅針對(duì)模型自身的輸出進(jìn)行計(jì)算,從而避免了由于外部生成的文檔標(biāo)記引入的噪聲。

ZeroSearch的訓(xùn)練模板是一個(gè)多輪交互模板,明確區(qū)分了模型的推理、搜索和回答階段。在推理階段,模型在其內(nèi)部進(jìn)行思考,并在<think>...</think>標(biāo)簽內(nèi)闡述其推理過(guò)程。如果模型認(rèn)為需要額外的信息,它會(huì)在<search>...</search>標(biāo)簽內(nèi)發(fā)出搜索查詢。檢索到的文檔由模擬搜索引擎生成,并在<information>...</information>標(biāo)簽內(nèi)返回給模型。

最后,大模型在<answer>...</answer>標(biāo)簽內(nèi)提供最終答案。這種結(jié)構(gòu)化的模板不僅提高了模型的透明度,還增強(qiáng)了其在實(shí)際應(yīng)用中的可靠性。

責(zé)任編輯:張燕妮 來(lái)源: AIGC開(kāi)放社區(qū)
相關(guān)推薦

2023-04-10 08:00:00

2010-03-15 13:21:10

谷歌撤離中國(guó)

2025-02-28 01:00:00

2011-06-20 18:23:06

SEO

2020-02-24 08:52:08

開(kāi)源索引YaCy

2009-05-18 09:45:10

Google搜索引擎WolframAlph

2024-12-20 14:34:40

2024-04-30 08:50:17

2019-10-31 08:55:07

搜索引擎工具

2009-09-22 16:23:52

搜索引擎

2023-04-20 14:48:05

微軟AIChatGPT

2011-09-15 11:06:26

2017-08-07 08:15:31

搜索引擎倒排

2020-03-20 10:14:49

搜索引擎倒排索引

2011-05-10 15:00:45

SEO

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2009-02-19 09:41:36

搜索引擎搜狐百度

2010-04-20 11:43:46

2024-08-20 14:52:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 免费一区二区 | www.久草| 欧美1区 | 国产一区二区视频在线 | av先锋资源| 久久噜噜噜精品国产亚洲综合 | 中文字幕国产 | 欧美专区在线视频 | 亚洲午夜在线 | 国产一区二区在线免费观看 | 精品国产不卡一区二区三区 | 久久久国 | 日韩成人一区二区 | 狠狠干av | 一级黄色片在线看 | 免费黄色片视频 | 欧美激情精品久久久久 | 99精品免费久久久久久久久日本 | 一区二区三区国产好 | 男女视频在线观看免费 | 国内精品成人 | 日韩不卡三区 | 国产一级视频在线观看 | 国产精品乱码一区二三区小蝌蚪 | 亚洲精品乱码久久久久久按摩 | 日韩在线观看网站 | 密色视频 | 一区二区三区在线 | 免费一区二区三区在线视频 | 91豆花视频 | 成人精品一区二区 | 中文一区| 国产午夜精品一区二区三区在线观看 | 亚洲精品一区二区三区四区高清 | 欧日韩在线观看 | 日本免费一区二区三区 | 久草视频观看 | 91精品在线观看入口 | 久久区二区 | 日本高清视频在线播放 | av在线免费看网址 |