成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG工程如何評(píng)測(cè)? 原創(chuàng)

發(fā)布于 2024-10-15 13:58
瀏覽
0收藏

?本篇主要講RAG工程的評(píng)測(cè)方法。

本篇屬于RAG系列,上一篇整理了RAG的基礎(chǔ),沒看過的小伙伴也可以參考~本篇來繼續(xù)介紹RAG工程如何評(píng)測(cè)。下面是一個(gè)快捷目錄。

一、RAG評(píng)估方法

二、RAG 的關(guān)鍵指標(biāo)和能力

三、RAG的評(píng)估框架

 一、RAG評(píng)估方法

有兩種方法評(píng)估RAG:獨(dú)立評(píng)估端到端

1. 獨(dú)立評(píng)估

獨(dú)立評(píng)估就是對(duì)檢索模塊和生成模型分布評(píng)估。

1)檢索模塊

評(píng)估RAG檢索模塊性能的指標(biāo)主要用于衡量系統(tǒng)(如搜索引擎、推薦系統(tǒng)或信息檢索系統(tǒng)),即根據(jù)查詢?cè)u(píng)估有效性。

具體指標(biāo)包括:命中率 (Hit Rate)、平均排名倒數(shù) (MRR)、歸一化折扣累積增益 (NDCG)、精確度 (Precision) 等。這塊跟推薦系統(tǒng)的評(píng)價(jià)指標(biāo)相同。

  • 命中率 (Hit Rate)

檢索結(jié)果中用戶實(shí)際檢索的實(shí)體詞或者關(guān)鍵詞所占的比例。

  • 平均排名倒數(shù) (MRR)

是用來衡量返回結(jié)果的排名質(zhì)量。MRR考慮了用戶第一次遇到相關(guān)檢索的排名;

結(jié)果列表中,第一個(gè)結(jié)果匹配,分?jǐn)?shù)為1,第二個(gè)匹配分?jǐn)?shù)為0.5,第n個(gè)匹配分?jǐn)?shù)為1/n,如果沒有匹配的句子分?jǐn)?shù)為0。最終的分?jǐn)?shù)為所有得分之和,再求平均。

計(jì)算方法

對(duì)于每個(gè)查詢,首先計(jì)算倒數(shù)排名(即第一個(gè)相關(guān)檢索的排名的倒數(shù)),如果沒有相關(guān)檢索結(jié)果,則倒數(shù)排名為0。然后,計(jì)算所有查詢的倒數(shù)排名的平均值。

RAG工程如何評(píng)測(cè)?-AI.x社區(qū)

  • 歸一化折扣累積增益 (NDCG)

NDCG用于衡量排名質(zhì)量。它考慮了所有相關(guān)結(jié)果的排名,并根據(jù)排名對(duì)其賦予不同的權(quán)重(排名越靠前,權(quán)重越大)

計(jì)算方法

首先計(jì)算DCG(Discounted Cumulative Gain),然后將其標(biāo)準(zhǔn)化。

RAG工程如何評(píng)測(cè)?-AI.x社區(qū)

2)端到端評(píng)估

RAG 對(duì)特定輸入生成的最終響應(yīng)進(jìn)行評(píng)估,主要是模型生成的答案與輸入查詢的相關(guān)性和一致性。

  • 對(duì)無標(biāo)簽的內(nèi)容評(píng)估評(píng)價(jià)指標(biāo):答案的準(zhǔn)確性、相關(guān)性和無害性
  • 有標(biāo)簽的內(nèi)容評(píng)估評(píng)價(jià)指標(biāo):準(zhǔn)確率 (Accuracy) 和精確匹配 (EM)

準(zhǔn)確率比較簡(jiǎn)單,主要具體講一下精準(zhǔn)匹配 (EM)。

精確匹配是指模型給出的答案與參考答案完全一致時(shí)的評(píng)價(jià)指標(biāo)。  

如果模型的答案與參考答案完全相同,則EM得分為1;否則為0。 

計(jì)算公式:  

EM = 1,如果答案與參考答案完全一致;  

EM = 0,如果答案與參考答案不一致。

 二、RAG 的關(guān)鍵指標(biāo)和能力

三個(gè)關(guān)鍵指標(biāo):答案的準(zhǔn)確性、答案的相關(guān)性和上下文的相關(guān)性。

四個(gè)關(guān)鍵能力:主要是看抗噪聲能力、拒絕無效回答能力、信息綜合能力和反事實(shí)穩(wěn)健性。

 三、RAG的評(píng)估框架

這里介紹的主要是RAGAS 和 ARES。

1. RAGAS

RAGAS 是一個(gè)基于簡(jiǎn)單手寫提示的評(píng)估框架,通過這些提示全自動(dòng)地衡量答案的準(zhǔn)確性、 相關(guān)性和上下文相關(guān)性。

算法原理: 

1) 答案忠實(shí)度評(píng)估:利用大語言模型 (LLM) 分解答案為多個(gè)陳述,檢驗(yàn)每個(gè)陳述與上下文 的一致性。即根據(jù)支持的陳述數(shù)量與總陳述數(shù)量的比例,計(jì)算出一個(gè)“忠實(shí)度得分”。

2) 答案相關(guān)性評(píng)估:使用大語言模型 (LLM) 創(chuàng)造可能的問題,并分析這些問題與原始問題的相似度。答案相關(guān)性得分是通過計(jì)算所有生成問題與原始問題相似度的平均值來得出的。 

3)上下文相關(guān)性評(píng)估:運(yùn)用大語言模型 (LLM) 篩選出直接與問題相關(guān)的句子,以這些句子占上下文總句子數(shù)量的比例來確定上下文相關(guān)性得分。

2. ARES

ARES 的目標(biāo)是自動(dòng)化評(píng)價(jià) RAG 系統(tǒng)在上下文相關(guān)性、答案忠實(shí)度和答案相關(guān)性三個(gè)方面的性能。

ARES 減少了評(píng)估成本,通過使用少量的手動(dòng)標(biāo)注數(shù)據(jù)和合成數(shù)據(jù),并應(yīng)用預(yù)測(cè)驅(qū)動(dòng)推理 (PDR) 提供統(tǒng)計(jì)置信區(qū)間,提高了評(píng)估的準(zhǔn)確性。

算法原理: 

1)生成合成數(shù)據(jù)集:ARES 首先使用語言模型從目標(biāo)語料庫中的文檔生成合成問題和答案,創(chuàng) 建正負(fù)兩種樣本。 

2)訓(xùn)練大語言模型 (LLM) 裁判:然后,ARES 對(duì)輕量級(jí)語言模型進(jìn)行微調(diào),利用合成數(shù)據(jù)集訓(xùn)練它們以評(píng)其上下文相關(guān)性、答案忠實(shí)度和答案相關(guān)性。 

3)基于置信區(qū)間對(duì)RAG系統(tǒng)排名:最后,ARES 使用這些裁判模型為 RAG 系統(tǒng)打分,并結(jié)合手動(dòng)標(biāo)注的驗(yàn)證集,采用 PPI 方法生成置信區(qū)間,從而可靠地評(píng)估RAG 系統(tǒng)的性能。

?

本文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/sts_izj1OXqN2W6L4kNtXg???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 69av在线视频 | 正在播放国产精品 | 国产一区二区av | 久久这里有精品 | 黄色香蕉视频在线观看 | 色性av | 97超碰成人| av色站| 日韩欧美一区二区三区四区 | 好好的日在线视频 | 亚洲一区高清 | 国产精品无码久久久久 | 欧美激情一区二区三区 | 欧美一区二不卡视频 | 青青久在线视频 | 日本不卡一区二区三区在线观看 | 91动漫在线观看 | 日韩在线小视频 | 久久噜噜噜精品国产亚洲综合 | 国产成人精品免高潮在线观看 | 在线视频一区二区 | 日本天堂视频在线观看 | 一区二区三区欧美 | 免费视频一区 | 国产超碰人人爽人人做人人爱 | 99久久99热这里只有精品 | 亚洲精品片| 特级特黄特色的免费大片 | 一区二区三区不卡视频 | 激情国产视频 | 在线色网站 | 国产资源在线视频 | 91亚洲国产成人精品一区二三 | 99精品在线免费观看 | 日韩精品在线观看一区二区三区 | 伊色综合久久之综合久久 | 香蕉国产在线视频 | 国产精品无 | 亚洲视频在线免费 | 91麻豆精品国产91久久久更新资源速度超快 | 日韩精品久久一区二区三区 |