成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Salesforce 新方法讓RAG效果飆升

發(fā)布于 2025-2-17 07:18
瀏覽
0收藏

Diversity Enhances an LLM's Performance in RAG and Long-context Task大型語言模型(LLMs)的快速發(fā)展凸顯了上下文窗口限制的挑戰(zhàn),這主要是由于自注意力機(jī)制的二次時(shí)間復(fù)雜度((O(N^2)),其中 (N) 表示上下文窗口長度)。這一限制影響了問答(Q&A)中的檢索增強(qiáng)生成(RAG)和長上下文摘要等任務(wù)。一種常見的方法是選擇與查詢最相似的內(nèi)容;然而,這通常會(huì)導(dǎo)致冗余,并排除多樣化的相關(guān)信息。基于最大邊緣相關(guān)性(MMR)和最遠(yuǎn)點(diǎn)采樣(FPS)的原則,我們在內(nèi)容選擇過程中引入了多樣性。我們的研究發(fā)現(xiàn),在基于 LLM 的問答和摘要之前,將多樣性融入內(nèi)容選擇,可以顯著提高相關(guān)句子或塊的召回率。這些結(jié)果強(qiáng)調(diào)了在未來的 LLM 應(yīng)用中保持多樣性的重要性,以進(jìn)一步提升摘要和問答的效果。??https://arxiv.org/abs/2502.09017??

為什么大模型需要學(xué)會(huì)"挑食"?

在開發(fā)大語言模型應(yīng)用時(shí),我們常常遇到這樣的困境:面對(duì)海量文本數(shù)據(jù),模型就像面對(duì)滿漢全席的新手食客,既想品嘗所有美味,又受限于"胃容量"(上下文窗口)。這種限制主要源自 Transformer 架構(gòu)的自注意力機(jī)制——每增加一個(gè) token,計(jì)算量就會(huì)呈平方級(jí)增長。就像用 1000 塊拼圖拼一幅畫,每增加一塊新拼圖,都需要和之前所有 999 塊比對(duì)位置。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

盡管 GPT-4 已經(jīng)能將"胃容量"擴(kuò)展到 12.8 萬 token,但現(xiàn)實(shí)應(yīng)用中的挑戰(zhàn)依然嚴(yán)峻。想象你要開發(fā)一個(gè)法律咨詢系統(tǒng),需要同時(shí)處理上百份判例文書;或者開發(fā)醫(yī)療診斷助手,要分析患者長達(dá)十年的就診記錄。傳統(tǒng)解決方案就像讓食客只挑看起來最誘人的菜肴,但往往導(dǎo)致營養(yǎng)失衡——過度選擇相似內(nèi)容,漏掉關(guān)鍵信息。

多樣性篩選:大模型的營養(yǎng)師

這時(shí)候就需要引入"營養(yǎng)師"角色——多樣性篩選算法。它們的核心思想就像米其林餐廳的品鑒流程:既要保證食材品質(zhì)(相關(guān)性),又要講究菜品搭配(多樣性)。目前主流的兩種"營養(yǎng)搭配法"是:

1. 最大邊際相關(guān)(MMR):精準(zhǔn)的膳食平衡

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

MMR 算法的工作方式就像米其林大廚選食材。假設(shè)要為貴賓準(zhǔn)備 8 道菜的套餐,主廚會(huì):

  1. 1. 先選最符合客人偏好的主菜(比如龍蝦)
  2. 2. 接著選與主菜搭配又能帶來新味覺體驗(yàn)的輔菜(比如用松露而非普通蘑菇)
  3. 3. 持續(xù)平衡"客人喜好"和"菜單多樣性"

數(shù)學(xué)公式中的 α 參數(shù)就像口味調(diào)節(jié)旋鈕:α=0.7 時(shí)更注重菜品質(zhì)量,α=0.3 時(shí)強(qiáng)調(diào)菜品多樣性。在實(shí)際開發(fā)中,我們通過實(shí)驗(yàn)發(fā)現(xiàn)將 α 設(shè)置在 0.6-0.7 之間,能在問答任務(wù)中取得最佳效果。

2. 最遠(yuǎn)點(diǎn)采樣(FPS):聰明的空間布局

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

FPS 算法源自 3D 點(diǎn)云處理,其原理就像城市規(guī)劃師選址:

  1. 1. 隨機(jī)選擇第一個(gè)消防站位置
  2. 2. 第二個(gè)選址離第一個(gè)最遠(yuǎn)
  3. 3. 第三個(gè)選址離前兩個(gè)最遠(yuǎn)的位置
  4. 4. 以此類推確保全面覆蓋

當(dāng)應(yīng)用于文本選擇時(shí),這種策略能有效避免信息扎堆。比如處理醫(yī)療報(bào)告時(shí),傳統(tǒng)方法可能會(huì)重復(fù)選擇"血壓升高"的相關(guān)描述,而 FPS 能同時(shí)保留"心電圖異常"、"腎功能指標(biāo)"等不同維度的關(guān)鍵信息。

為什么多樣性篩選能創(chuàng)造奇跡?

在我們的實(shí)驗(yàn)中,采用多樣性篩選帶來了三大突破性提升:

1. 召回率提升

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

在長文本問答(Q&A)任務(wù)中,傳統(tǒng)方法傾向于選擇與查詢相似度最高的內(nèi)容,但這種方式容易導(dǎo)致信息冗余或遺漏關(guān)鍵細(xì)節(jié)。

通過引入最大邊際相關(guān)(MMR)和最遠(yuǎn)點(diǎn)采樣(FPS) 兩種多樣性篩選策略,顯著提升了候選內(nèi)容的召回率。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

實(shí)驗(yàn)顯示,在單文檔問答任務(wù)中,MMR和FPS相比基準(zhǔn)方法(SB)的召回率提升了2%-5%;

在多文檔問答任務(wù)中,MMR結(jié)合E5模型后,答案在檢索文檔中的召回率提升超過10%。

這種改進(jìn)源于多樣性篩選能覆蓋更廣泛的語義空間,減少重復(fù)內(nèi)容的干擾,確保關(guān)鍵信息不被遺漏。

2. 推理延遲降低 40%

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

盡管MMR和FPS均能提升召回率,但兩者的計(jì)算效率差異顯著。實(shí)驗(yàn)發(fā)現(xiàn),MMR的延遲遠(yuǎn)低于FPS,尤其是在處理長上下文時(shí)。例如,在自然問題(Natural Question)數(shù)據(jù)集上,當(dāng)壓縮比為0.2時(shí),MMR的延遲僅為FPS的1/3。這一優(yōu)勢源于MMR采用余弦相似度計(jì)算,而FPS依賴歐氏距離,后者計(jì)算復(fù)雜度更高。此外,MMR支持動(dòng)態(tài)調(diào)整超參數(shù)(如窗口大小和權(quán)重),進(jìn)一步優(yōu)化了實(shí)時(shí)性能。因此,MMR更適合實(shí)際應(yīng)用場景,尤其是需要快速響應(yīng)的工業(yè)級(jí)系統(tǒng)。

3. 內(nèi)容順序的隱藏價(jià)值

內(nèi)容的排列順序?qū)LM的理解能力影響深遠(yuǎn)。研究發(fā)現(xiàn),保持句子在原文中的順序(index sort) 能顯著提升問答準(zhǔn)確率。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

例如,在單文檔問答任務(wù)中,保持原始順序的MMR方法(SB+MMR index sort)相比亂序版本的性能高出3%-5%(如上圖)。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

而對(duì)于分塊(chunk)內(nèi)容,將關(guān)鍵塊置于提示的開頭或結(jié)尾可進(jìn)一步提升LLM的注意力(如上圖),這與“Lost in the Middle”現(xiàn)象一致——模型容易忽略中間位置的信息。

Salesforce 新方法讓RAG效果飆升-AI.x社區(qū)圖片

此外,分塊大小也影響效果:512詞塊的表現(xiàn)優(yōu)于256詞塊和句子級(jí)分割(表7),說明適度的上下文連貫性對(duì)模型推理至關(guān)重要。

實(shí)踐指南

在實(shí)際應(yīng)用中,總結(jié)了三大黃金法則:

1. 參數(shù)調(diào)優(yōu)四步法

? 第一步:確定基線 α=0.5

? 第二步:以 0.1 為步長進(jìn)行網(wǎng)格搜索

? 第三步:驗(yàn)證集上評(píng)估召回率和生成質(zhì)量

? 第四步:根據(jù)任務(wù)類型微調(diào)(問答任務(wù)建議 α=0.6,摘要任務(wù) α=0.55)

2. 混合策略配置

對(duì)于超長文本處理,可以采用分級(jí)篩選:

? 第一級(jí)用 FPS 快速粗選(窗口大小 100)

? 第二級(jí)用 MMR 精準(zhǔn)篩選(窗口大小 10)

? 最終按原文順序+相關(guān)性分?jǐn)?shù)排序

3. 避免的五個(gè)陷阱

? 盲目追求最大多樣性(α<0.4 會(huì)導(dǎo)致信息偏離)

? 忽視 embedding 模型的質(zhì)量(建議使用 bge-large-v1.5)

? 混合不同來源文檔時(shí)未做歸一化處理

? 固定窗口大小不調(diào)整(建議動(dòng)態(tài)設(shè)置:窗口大小=總 token 數(shù)/50)

? 忽略內(nèi)容順序的影響(特別是時(shí)序性文檔)

未來演進(jìn)方向

三個(gè)重要趨勢:

? 動(dòng)態(tài)多樣性調(diào)節(jié):根據(jù)上下文復(fù)雜度自動(dòng)調(diào)整 α 參數(shù)

? 多模態(tài)擴(kuò)展:將圖像特征納入多樣性考量

? 自監(jiān)督微調(diào):讓模型自主生成多樣性評(píng)估信號(hào)

站在開發(fā)者的角度,理解這些原理不僅能夠優(yōu)化現(xiàn)有系統(tǒng),更能為設(shè)計(jì)新一代語言模型提供啟發(fā)。就像優(yōu)秀的廚師懂得食材搭配的藝術(shù),聰明的開發(fā)者需要掌握信息篩選的平衡之道。將人類的信息處理智慧編碼進(jìn)算法,大模型才能真正成為稱職的"信息美食家"。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 一区二区三区精品在线 | 一二三四在线视频观看社区 | 欧美一级免费看 | 精品久久久久久国产 | 欧美在线a | 久久亚洲欧美日韩精品专区 | 久久精品久久精品久久精品 | 天天插天天操 | 欧美日韩在线播放 | 黄色大片免费网站 | 国产日韩精品视频 | 欧美国产一区二区 | 国产乱码精品一区二区三区中文 | 成人亚洲片 | 超碰天天 | 亚洲欧美一区二区三区1000 | 久草99 | 国产精品www| 日韩福利 | 一级免费在线视频 | 久久一日本道色综合久久 | 网站黄色在线 | 亚洲欧美在线观看 | 亚洲国产成人精品女人久久久 | 玖玖在线精品 | 日本精品一区二区三区在线观看视频 | 国产精品一区二区在线播放 | 一级黄色裸片 | 五月婷婷在线播放 | 亚洲精品高清视频在线观看 | 久久久精品高清 | 天天久久 | 免费国产一区二区 | 国产日韩欧美 | 成人在线免费观看 | 亚洲一区二区精品 | www.亚洲一区二区 | 日韩中文字幕在线 | 午夜精品一区 | 色综合久久88色综合天天 | 在线中文视频 |