成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小紅書搜索:生成式檢索的探索與實(shí)踐

人工智能
本次分享主題為生成式檢索的探索和實(shí)踐,將介紹當(dāng)前常見(jiàn)的檢索范式,以及發(fā)表于 EACL 的關(guān)于生成式檢索的一篇論文,重點(diǎn)剖析記憶機(jī)制相關(guān)問(wèn)題。

一、研究團(tuán)隊(duì)

圖片

目前團(tuán)隊(duì)有四名成員,主要研究方向包括大模型評(píng)測(cè)推理及生成式檢索,目前在進(jìn)行技術(shù)攻關(guān)以實(shí)現(xiàn)大模型在搜索系統(tǒng)各環(huán)節(jié)的落地應(yīng)用。

二、檢索范式

圖片

目前常見(jiàn)的檢索范式包括:

  • 稀疏檢索,如 TF-IDF、BM25,以及一些擴(kuò)展的混合檢索;
  • 密集檢索,常見(jiàn)模型有 DSSM,還有一些變體,如難負(fù)樣本挖掘、后交互、知識(shí)蒸餾,以及 loss 上的一些工作(對(duì)比學(xué)習(xí))。
  • 生成式檢索,常見(jiàn)的有三種,一種是對(duì)現(xiàn)有檢索系統(tǒng)各個(gè)模塊進(jìn)行優(yōu)化,比如在 QP 環(huán)節(jié)對(duì)查詢進(jìn)行改寫,對(duì)最終結(jié)果進(jìn)行摘要,這在商品搜索、小紅書、抖音、快手等平臺(tái)都能看到,即 one box 查完后上文的摘要;第二種是今天要介紹的主題 GDR,根據(jù) query 直接生成筆記 ID 或文檔 ID,要求對(duì)檢索系統(tǒng)的召回環(huán)節(jié)進(jìn)行較大改動(dòng);第三種是理想態(tài),如 ChatGPT,直接生成結(jié)果的 context。從使用角度看,對(duì)于某一類問(wèn)題,用戶可能希望有直接生成的結(jié)果,但對(duì)于像小紅書、抖音、快手等內(nèi)容平臺(tái),用戶不僅希望看到搜索結(jié)果的摘要,還希望看到其他用戶在平臺(tái)上關(guān)于查詢內(nèi)容的分享,所以這幾種檢索類型都有必要。

三、GDR:記憶機(jī)制的雙刃劍效應(yīng)

接下來(lái)介紹我們發(fā)表在 EACL 2024 Oral 的一個(gè)工作:

圖片

主要探索生成式檢索的關(guān)鍵問(wèn)題——記憶機(jī)制。文章中分析了記憶機(jī)制的幾個(gè)問(wèn)題,并與密集檢索進(jìn)行了重要差異對(duì)比。針對(duì)生成式檢索的問(wèn)題,提出了一些解決方案。

圖片

簡(jiǎn)要回顧密集檢索,其本質(zhì)是利用語(yǔ)義向量匹配機(jī)制,在各個(gè)業(yè)務(wù)場(chǎng)景廣泛應(yīng)用。其優(yōu)點(diǎn)是具有較低的時(shí)延、可接受的在線計(jì)算開(kāi)銷,并且比較靈活,當(dāng)文檔庫(kù)發(fā)生動(dòng)態(tài)更新時(shí),可以快速高效地更新索引。采用雙塔模型,無(wú)論是 query 側(cè)還是筆記側(cè),都可以輸入豐富的信息,有助于模型捕捉細(xì)粒度特征。上圖中可以看到,雙塔一側(cè)是 query 的語(yǔ)義向量編碼,另一側(cè)是 doc 的語(yǔ)義向量編碼,在向量空間做距離計(jì)算,進(jìn)行優(yōu)化。

其不足之處是雙塔模型無(wú)法進(jìn)行深度交互,都是得到向量后,語(yǔ)義向量在歐氏空間進(jìn)行計(jì)算。我們知道深交互有助于特征交叉,提升模型性能。但在檢索環(huán)節(jié),由于對(duì)計(jì)算時(shí)間和開(kāi)銷的要求,一般不會(huì)進(jìn)行深度交互。另外一個(gè)缺點(diǎn)是,查詢和文檔之間具有一對(duì)多的特性,候選文檔的語(yǔ)義關(guān)聯(lián)可能較遠(yuǎn),而查詢想召回的所有候選文檔則要求它們?cè)谡Z(yǔ)義空間接近,產(chǎn)生了矛盾。

圖片

再來(lái)看一下生成式檢索。給定一個(gè) query,生成式檢索的編碼端首先得到一個(gè)向量,然后將這個(gè)向量給到文檔解碼器,用 Beam Search 解碼策略逐步得到每篇筆記的 ID。這意味著筆記需要通過(guò) ID 進(jìn)行表示,可以是單值或一串序列的值。預(yù)測(cè)過(guò)程是給 query 直接生成筆記 ID,而不是先得到 query 的向量,在歐氏空間和筆記向量進(jìn)行計(jì)算找到最相似的向量。其本質(zhì)是利用記憶機(jī)制,因?yàn)?query 進(jìn)去后,筆記沒(méi)有拿出向量,所以要求模型根據(jù) query 記住相關(guān)筆記的 ID 序列。

在較小規(guī)模的候選文檔場(chǎng)景下,生成式檢索展現(xiàn)出了優(yōu)于密集檢索的召回性能。具體優(yōu)點(diǎn)包括:模型以參數(shù)作為記憶載體,記住所有候選文檔,在解碼過(guò)程中隱式實(shí)現(xiàn)了候選文檔和查詢的深度交互,這是密集檢索的主要缺點(diǎn);另外,文檔被賦予了獨(dú)立的 ID,避免了密集檢索存在的 one to many 情況;如果將 query 的編碼器換成大語(yǔ)言模型,能有效利用預(yù)訓(xùn)練語(yǔ)言模型的語(yǔ)義理解能力。

但生成式檢索也存在不足,接下來(lái)從三個(gè)方面來(lái)詳細(xì)介紹。

圖片

首先,對(duì)候選文檔的細(xì)粒度特征有效記憶不足。生成式檢索的訓(xùn)練流程是先對(duì)文檔進(jìn)行表示,通過(guò)聚類得到層級(jí)樹(shù)狀圖,每篇筆記通過(guò)一條 path 表示。然后對(duì) query 進(jìn)行處理,為每篇筆記生成一堆 query 來(lái)表示筆記,將真實(shí) query 和生成 query 集合作為輸入,生成對(duì)應(yīng)的筆記 ID。但目前構(gòu)建 query 的方式不能很好地充分拿到所有筆記信息和進(jìn)行從細(xì)粒度到 high level的表示學(xué)習(xí),導(dǎo)致候選文檔不能很好地記住細(xì)粒度特征。

圖片

我們做了一個(gè)實(shí)驗(yàn),對(duì)比基線是常見(jiàn)的密集檢索模型和生成式模型 NCI。對(duì)文檔獲取語(yǔ)義向量后聚類,得到層次化 ID,分別用 AR2 和 NCI 模型召回筆記,在測(cè)試集上統(tǒng)計(jì)錯(cuò)誤率。發(fā)現(xiàn)生成式檢索模型在前面幾位錯(cuò)誤率較低,但越往后錯(cuò)誤率升得特別快,驗(yàn)證了對(duì)細(xì)粒度特征有效記憶不足的問(wèn)題。

圖片

其次,當(dāng)候選文檔規(guī)模增大時(shí),性能會(huì)顯著下降。原因是模型參數(shù)有限,記憶容量有限,當(dāng)候選文檔容量超過(guò)模型記憶容量時(shí),記憶出現(xiàn)瓶頸,性能下降明顯。我們做了一個(gè)實(shí)踐,構(gòu)建不同規(guī)模的候選文檔集合訓(xùn)練 NCI 模型,測(cè)試在不同候選文檔下的表現(xiàn),發(fā)現(xiàn)候選文檔增多時(shí),生成式模型的召回率下降明顯。

圖片

第三,候選文檔更新時(shí)可擴(kuò)展性差。對(duì)于密集檢索,新文檔加入后可以快速更新向量加入索引。但對(duì)于生成式檢索,文檔變了需要生成新的 query 加入模型訓(xùn)練,容易出現(xiàn)災(zāi)難性遺忘問(wèn)題。如果不訓(xùn)練直接應(yīng)用,可能會(huì)出現(xiàn)預(yù)測(cè)不準(zhǔn)確的問(wèn)題。我們做了一個(gè)驗(yàn)證實(shí)驗(yàn),將數(shù)據(jù)集均分為兩份,先用一份子集訓(xùn)練 NCI 模型,然后更新候選集不重新訓(xùn)練模型,測(cè)試在不同查詢集上的表現(xiàn),發(fā)現(xiàn)候選集擴(kuò)充后召回率下降。

圖片

總結(jié)一下生成式檢索和密集檢索的優(yōu)缺點(diǎn)。生成式檢索的本質(zhì)是記憶機(jī)制,是序列化生成筆記 ID,自回歸解碼范式導(dǎo)致時(shí)間和計(jì)算開(kāi)銷大,當(dāng)候選文檔多時(shí)代碼層數(shù)變多,對(duì)細(xì)粒度特征記憶不足,候選文檔庫(kù)變化時(shí)需要重新訓(xùn)練模型。但優(yōu)點(diǎn)是在解碼過(guò)程中實(shí)現(xiàn)了查詢和候選文檔的深交互,文檔有獨(dú)立 ID 且能利用大模型的理解能力。密集檢索本質(zhì)是向量匹配機(jī)制,優(yōu)點(diǎn)是較低的時(shí)延、可接受的計(jì)算開(kāi)銷,能捕捉細(xì)粒度特征,文檔庫(kù)動(dòng)態(tài)變化時(shí)可高效更新索引。但缺乏深交互,存在一對(duì)多的問(wèn)題。

經(jīng)過(guò)分析得出結(jié)論,兩者可以很好地互相補(bǔ)充。

圖片

我們可以利用生成式檢索的記憶能力記住 high level 的語(yǔ)義類 ID,到細(xì)粒度的地方用密集檢索做匹配。具體而言,記憶機(jī)制主要用來(lái)記憶候選文檔簇,一旦選到簇這個(gè)粒度之后,就會(huì)使用匹配機(jī)制,在更少的候選文檔集合-簇里面做細(xì)粒度的匹配。

圖片

給定 query,編碼器先編碼出向量,進(jìn)入解碼階段,首先對(duì)筆記進(jìn)行向量表示和聚類,解碼層級(jí)樹(shù)的前面部分 high level 的 ID,得到候選文檔簇的概率。在粗粒度生成后,在相關(guān)的葉子節(jié)點(diǎn)內(nèi)進(jìn)行細(xì)粒度的匹配,使用損失函數(shù)得到綜合分?jǐn)?shù)得到最終結(jié)果。

圖片

文檔簇 ID 層級(jí)結(jié)構(gòu)的構(gòu)建至關(guān)重要。傳統(tǒng)檢索表示到 doc ID 維度會(huì)有問(wèn)題,一是文檔數(shù)量增加時(shí)模型參數(shù)量也要增加,否則召回性能下降;二是目前文檔表示不一定有助于構(gòu)建層級(jí)文檔簇 ID。我們做了分析,如上圖中的公式,先用 Bert 對(duì)文檔進(jìn)行向量表示得到一個(gè)樹(shù),再以我們的方式,用雙塔模型進(jìn)行密集檢索訓(xùn)練,用文檔的 encoder 生成向量,構(gòu)建一個(gè)樹(shù),這樣得到兩個(gè)樹(shù)。在兩個(gè)樹(shù)里,分別對(duì)正確文檔的 ID 計(jì)算出最大公共子序列,最前面的最大公共子序列應(yīng)盡量一致,越一致,模型記憶的負(fù)荷越小。因此我們希望構(gòu)建易于記憶的文檔簇,減少模型記憶負(fù)荷。

圖片

我們還設(shè)計(jì)了約束,根據(jù)模型大小控制文檔簇?cái)?shù)量,每個(gè)葉子節(jié)點(diǎn)包含一定數(shù)量的文檔,留下部分通過(guò)細(xì)粒度匹配機(jī)制去匹配。

圖片

另外一個(gè)特別的設(shè)計(jì)是基于簇的自適應(yīng)負(fù)采樣策略,在細(xì)粒度匹配階段挑選正負(fù)樣例,讓匹配機(jī)制更有針對(duì)性。

圖片

實(shí)驗(yàn)結(jié)果表明,我們提出的 GDR(生成式密集檢索)在召回指標(biāo)方面是最優(yōu)的,準(zhǔn)確性方面 DR 是最好的,GDR 次之。

圖片

擴(kuò)展至更大候選集,傳統(tǒng)生成式檢索方法效果下降明顯,其他三種方式下降不明顯。

圖片

關(guān)于文檔更新,可以看到,相比于傳統(tǒng)方式,GDR 效果下降的幅度很小。檢索效率方面,包括時(shí)延、吞吐量,相比 BM25、AR2 有顯著提升,這也是需要繼續(xù)優(yōu)化的一個(gè)方向。

圖片

我們還做了消融實(shí)驗(yàn),驗(yàn)證了構(gòu)建記憶友好的文檔簇 ID 和自適應(yīng)負(fù)采樣策略的有效性,以及超參數(shù)的泛化性。

圖片

最后總結(jié)一下該工作的主要貢獻(xiàn)。首先我們對(duì)現(xiàn)有的兩種檢索范式,即 DR 和 GR 進(jìn)行了深入分析,然后針對(duì)性地設(shè)計(jì)了新的 GDR 范式,實(shí)現(xiàn)了 GR 和 DR 的優(yōu)勢(shì)互補(bǔ),為生成式檢索落地提供了有力支持。我們通過(guò)實(shí)驗(yàn)分析了 GDR 的潛力和問(wèn)題,并指出可能的解決方向。

上圖下半部分顯示了 GR、DR 和 GDR 在效率和效果上的表現(xiàn),可以看到,GR 的效率較低,但其召回效果是非常優(yōu)秀的;DR 的效率很高,但效果較弱;而我們的 GDR 的方式,則在效率和效果上進(jìn)行了平衡。

四、GDR:應(yīng)用場(chǎng)景

接下來(lái)介紹一些 GDR 落地的場(chǎng)景。

1. 在線流式筆記召回

圖片

通常在召回階段可以默認(rèn)觸發(fā) DR 密集檢索的過(guò)程,與此同時(shí)并行地調(diào)用 GDR 和 LLM 檢索,從而在利用 GDR 和 LLM 精準(zhǔn)的召回效果的同時(shí),避免其高時(shí)延的問(wèn)題。

2. 針對(duì)高頻 query 的檢索優(yōu)化

圖片

對(duì)于 query,可以預(yù)先離線通過(guò) GDR 進(jìn)行粗粒度相關(guān)筆記類召回,維護(hù)高頻 query 的相關(guān)筆記類索引庫(kù),之后再遇到該 query,即可快速匹配,進(jìn)而通過(guò) DR 在相關(guān)筆記類中進(jìn)行精準(zhǔn)的筆記檢索。這樣不僅可以降低時(shí)延,還能提升召回準(zhǔn)確度。

3. 搜前、搜中、搜后全流程推詞

圖片

推詞對(duì)應(yīng)的候選集數(shù)量相對(duì)較小(百萬(wàn)級(jí)),在 GDR 實(shí)驗(yàn)設(shè)定的候選集數(shù)量范圍中,當(dāng)前參數(shù)量下 GDR 模型的性能不會(huì)受到巨量候選集的影響(小紅書筆記庫(kù)在億級(jí)以上),其能力能夠充分發(fā)揮。另外,也可以對(duì) query 編碼端使用 LLM,利用其強(qiáng)大的理解能力和世界知識(shí),優(yōu)化查詢,尤其是長(zhǎng)尾查詢。

4. 未來(lái)落地場(chǎng)景一:GDR+LLM

圖片

未來(lái)的落地場(chǎng)景之一是將 LLM 應(yīng)用在 GDR 中。不僅可以提升對(duì) query 的理解能力,同時(shí)提升檢索性能。

5. 未來(lái)落地場(chǎng)景二:計(jì)算效率自適應(yīng)的檢索策略

圖片

計(jì)算效率會(huì)隨著硬件技術(shù)的改進(jìn)而不斷提升,在滿足基本用戶時(shí)延的前提下,實(shí)現(xiàn)更靈活的資源分配,提升檢索性能。

以上就是本次分享的內(nèi)容,謝謝大家。

五、問(wèn)答環(huán)節(jié)

Q1:如何解決層次聚類,即層次化 ID 不穩(wěn)定導(dǎo)致 GR 模型需要重新訓(xùn)練的問(wèn)題?

A1:GDR 可以避免這個(gè)問(wèn)題,在細(xì)粒度階段使用匹配機(jī)制,文檔變化可放到相近葉子節(jié)點(diǎn),不需要重新訓(xùn)練記憶模塊。

Q2:生成式檢索對(duì)于新文檔加入之后的處理流程是怎么樣?如何應(yīng)對(duì) ID 快速增量更新的問(wèn)題?

A2:一部分新文檔可直接加入葉子節(jié)點(diǎn),長(zhǎng)周期內(nèi)新文檔足夠多時(shí)可對(duì)記憶模塊進(jìn)行周級(jí)或月級(jí)更新,避免頻繁更新記憶模塊。

Q3:從現(xiàn)在只從文本信息中獲得 ID,是否會(huì)導(dǎo)致傳統(tǒng)模型中協(xié)同信息的缺失?

A3:會(huì)缺失,可以在解碼文檔 ID 階段加入用戶行為,讓模型有一定概率選擇真實(shí)筆記 ID 和探索別的,loss 上也可引入歷史行為特征。

Q4:從 1 到 6 的錯(cuò)誤率不是應(yīng)該累計(jì)增加嗎?為啥第六個(gè)的錯(cuò)誤率會(huì)降低?

A4:對(duì)于 AR2 這種向量檢索,訓(xùn)練過(guò)程沒(méi)有學(xué)習(xí)更高維向量的匹配,只算最后一個(gè)錯(cuò)誤率低是因?yàn)槠渑c細(xì)粒度筆記向量匹配更好,中間幾層沒(méi)有學(xué)習(xí)。

Q5:GR 里去記憶 ID 不就拋棄了大模型的優(yōu)勢(shì)嗎?

A5:沒(méi)有拋棄,query 的編碼用大模型對(duì)長(zhǎng)尾 query 理解能力更強(qiáng),可減少對(duì)每篇筆記生成大量 query 的需求,能用到大模型的能力。

Q6:層次數(shù)設(shè)置是幾層?每層多少個(gè)簇?一個(gè)文檔可能屬于多個(gè)簇嘛?

A6:模型大小決定簇的數(shù)量,超參設(shè)置每一層最多生成 10 個(gè)簇。目前一個(gè)文檔屬于一個(gè)簇,但在框架下允許一個(gè)文檔屬于多個(gè)簇,類似密集檢索中一個(gè)文檔有多個(gè)向量表示。

Q7:論文中講的這些東西在現(xiàn)實(shí)的生產(chǎn)環(huán)境中有沒(méi)有落地?

A7:已經(jīng)在推動(dòng)落地,在召回環(huán)節(jié)作為另一個(gè)通道,尤其是推詞階段更適合落地。

Q8:真實(shí)場(chǎng)景下如何應(yīng)對(duì)一個(gè)更新周期內(nèi)里從零開(kāi)始突然爆發(fā)式增長(zhǎng)的某一類筆記?

A8:可以馬上啟動(dòng)整個(gè)筆記的訓(xùn)練,或?qū)@一類筆記再做細(xì)致聚類,產(chǎn)生更多層級(jí)的表示。在框架下也可靈活更新 DR,對(duì)突然增長(zhǎng)的一類筆記進(jìn)行針對(duì)性學(xué)習(xí)。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2024-10-23 20:09:47

2024-09-10 09:36:26

2024-12-19 21:09:38

2022-05-10 08:27:15

小紅書FlinkK8s

2024-06-19 07:45:20

2022-08-12 12:23:28

神經(jīng)網(wǎng)絡(luò)優(yōu)化

2024-04-08 11:04:03

2024-12-05 12:01:09

2022-07-07 11:27:14

技術(shù)搜索模型

2022-08-21 21:28:32

數(shù)據(jù)庫(kù)實(shí)踐

2023-04-18 07:49:06

2025-06-10 05:00:00

2023-08-29 11:36:49

2024-04-29 11:06:53

GDR語(yǔ)言模型

2018-01-23 10:29:50

主搜索店鋪搜索

2021-12-08 10:35:04

開(kāi)源監(jiān)控Zabbix

2023-10-27 12:16:23

游戲發(fā)行平臺(tái)SOP

2017-09-08 17:25:18

Vue探索實(shí)踐

2023-06-30 13:10:54

數(shù)據(jù)聚合網(wǎng)關(guān)

2023-01-05 07:54:49

vivo故障定位
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一级黄a视频 | 久草免费在线视频 | 欧美在线视频观看 | 美日韩免费视频 | 亚洲成av人片在线观看无码 | 色婷婷一区二区三区四区 | 亚洲自拍偷拍av | 中国一级特黄毛片大片 | 亚洲黄色av | 成人性生交大片免费看中文带字幕 | 色婷婷综合久久久中字幕精品久久 | 我要看黄色录像一级片 | 精品一区精品二区 | 久久亚洲一区 | 99亚洲精品| 欧美11一13sex性hd | 中文字幕亚洲欧美日韩在线不卡 | 四虎影院新网址 | 亚洲第一av| 色视频在线播放 | 激情网站 | 欧美日韩电影一区二区 | 日韩福利一区 | 精品亚洲一区二区三区四区五区高 | 国产精品中文字幕在线 | 日韩精品 | 一区观看| 最新超碰| 精品一级 | 日韩在线免费看 | 亚洲精品国产a久久久久久 中文字幕一区二区三区四区五区 | 国产成人99久久亚洲综合精品 | 久操av在线 | 国产亚洲一区二区三区在线 | 四虎影院新地址 | 一区二区三区av | 国产a视频 | 国产精品视频 | 午夜a v电影 | 日韩精品成人 | 久久国产精品-国产精品 |