成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%

發(fā)布于 2024-6-26 15:30

瀏覽

0收藏

檢索增強(qiáng)生成（RAG）將檢索階段與生成階段結(jié)合起來，后者通常由大型語言模型（LLMs）驅(qū)動(dòng)，RAG中的當(dāng)前常見實(shí)踐是使用“指導(dǎo)”的LLMs，這真的是最優(yōu)選擇嗎？

對(duì)RAG系統(tǒng)中的“instruct”模型及其模板與基礎(chǔ)版本（base）進(jìn)行了原則性評(píng)估。這些“instruct”模型通常經(jīng)過監(jiān)督訓(xùn)練來提高遵循指令的能力，并使用最先進(jìn)技術(shù)與人類偏好對(duì)齊。使用了兩個(gè)任務(wù)指令來評(píng)估模型，任務(wù)指令I(lǐng)要求模型從未提供的文檔中提取答案，任務(wù)指令I(lǐng)I要求模型提供證據(jù)來支持其答案。

在TriviaQA上的任務(wù)指令I(lǐng)下，基礎(chǔ)版與指導(dǎo)+模板版之間的比較。該圖展示了兩個(gè)版本的Llama 2 7B模型生成的回答之間的比較：基礎(chǔ)版和指導(dǎo)+模板版。每個(gè)版本都被賦予了基于提供文檔回答同一問題的任務(wù)。基礎(chǔ)模型正確地識(shí)別出答案為“Burgess Meredith”，而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于“Danny DeVito”。斜體文本表示模板

RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

在TriviaQA上的任務(wù)指令I(lǐng)I下，基礎(chǔ)版與指導(dǎo)+模板版之間的比較。這種比較展示了Llama 2 7B的基礎(chǔ)版和指導(dǎo)+模板版生成的回答之間的一個(gè)例子，其中基礎(chǔ)模型正確地識(shí)別了答案，而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于不同的演員。盡管如此，在兩種情況下，答案都與證據(jù)“一致”，因?yàn)槊宽?xiàng)證據(jù)都包含了生成的答案。斜體文本表示模板。

RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果顯示，在RAG任務(wù)中，基礎(chǔ)模型在沒有額外的指令特定微調(diào)的情況下，平均性能比“instruct”模型高出20%。這一發(fā)現(xiàn)挑戰(zhàn)了關(guān)于“instruct”LLMs在RAG應(yīng)用中優(yōu)越性的普遍假設(shè)。進(jìn)一步的調(diào)查揭示了更復(fù)雜的情況，提出了對(duì)RAG和評(píng)估程序的更廣泛討論的需求。

在NQ和TriviaQA上任務(wù)指令I(lǐng)的準(zhǔn)確度?？s寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。除了部分例外的Mistral，所有基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。

在NQ和TriviaQA上，需要提供證明的任務(wù)指令I(lǐng)I的準(zhǔn)確度?？s寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。在所有考慮的情況下，基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。

RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

盡管“instruct”模型在遵循任務(wù)指令方面更為有效，但它們?cè)跍?zhǔn)確拒絕回答（即當(dāng)檢索文檔中不包含答案時(shí)回答NO-RES）方面的表現(xiàn)不如基礎(chǔ)模型（備注：這地方的結(jié)論貌似與實(shí)驗(yàn)數(shù)據(jù)不匹配，有需要小伙伴自行評(píng)測(cè)哈）。此外，當(dāng)不要求模型在答案不出現(xiàn)在檢索文檔中時(shí)回答NO-RES時(shí)，基礎(chǔ)模型仍然表現(xiàn)更好，這表明監(jiān)督微調(diào)和對(duì)齊過程可能對(duì)模型在RAG任務(wù)中的能力產(chǎn)生了負(fù)面影響。

從參數(shù)化記憶中回憶 - Llama 2 7B - TriviaQA。報(bào)告的是參數(shù)化記憶回憶率，定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實(shí)例數(shù)，除以答案不在上下文中出現(xiàn)的次數(shù)。（左）如圖1所示的任務(wù)指令I(lǐng)；（右）無拒絕設(shè)置，即不指定在檢索文檔中不包含答案時(shí)回答NO-RES（如圖6所示的示例）。在這種情況下，兩個(gè)模型版本的參數(shù)化記憶回憶率都有所提高。

RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

圖6：在NQ上，任務(wù)指令I(lǐng)下的基礎(chǔ)版與指導(dǎo)版，不允許拒絕回答。這張圖展示了在不允許拒絕回答的設(shè)置下的回答情況，即模型不需要在檢索文檔中不包含答案時(shí)回答NO-RES。它比較了Falcon 7B的基礎(chǔ)版和指導(dǎo)版?；A(chǔ)模型準(zhǔn)確地識(shí)別出“Rocky”（洛奇）是1976年奧斯卡最佳影片獎(jiǎng)的獲獎(jiǎng)?wù)?，而指?dǎo)版錯(cuò)誤地引用了“Network”（電視臺(tái)）。

RAG生成任務(wù)：Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

在整個(gè)RAG流程中，除了Generation，還涉及Embedding、Indexing等等，PaperAgent團(tuán)隊(duì)RAG專欄進(jìn)行過詳細(xì)的歸納總結(jié)：高級(jí)RAG之36技（術(shù)），可私信留言試看：RAG專欄。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

LLM和RAG技術(shù)的比較探索

51CTO技術(shù)棧 ? 4167瀏覽 ? 0回復(fù)
通過檢索增強(qiáng)生成(RAG) 增強(qiáng)LLM的實(shí)戰(zhàn)演練

51CTO內(nèi)容精選 ? 3786瀏覽 ? 0回復(fù)
AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成規(guī)劃任務(wù)！

AIGC最前線 ? 3133瀏覽 ? 0回復(fù)
HippoRAG：協(xié)同LLM、KG與PPR的新型開源檢索框架，R@5比RAPTOR提高28%

PaperAgent ? 1.0w瀏覽 ? 0回復(fù)
無限的場(chǎng)景窗口會(huì)扼殺LLM微調(diào)和RAG嗎？

51CTO內(nèi)容精選 ? 3410瀏覽 ? 0回復(fù)
【LLM】CRAG - 綜合性RAG基準(zhǔn)測(cè)試

sbf_2000 ? 4894瀏覽 ? 0回復(fù)
如何訓(xùn)練LLM自動(dòng)在RAG和參數(shù)記憶之間進(jìn)行選擇

51CTO內(nèi)容精選 ? 2978瀏覽 ? 0回復(fù)
應(yīng)用程序任務(wù)驅(qū)動(dòng)：詳細(xì)解析LLM的評(píng)估指標(biāo)

51CTO內(nèi)容精選 ? 3927瀏覽 ? 0回復(fù)
LLM 合并新思路：進(jìn)化算法+零訓(xùn)練->新任務(wù)

amei2000go ? 3273瀏覽 ? 0回復(fù)
如何讓LLM學(xué)會(huì)"試錯(cuò)" | LLM竟然學(xué)會(huì)了"自我反省"，它真的有自我意識(shí)嗎？

sbf_2000 ? 2816瀏覽 ? 0回復(fù)
使用MCTS顯著提升LLM在復(fù)雜任務(wù)的推理能力

arnoldzhw ? 6823瀏覽 ? 0回復(fù)
支持20+視覺任務(wù)，多項(xiàng)SOTA！可擴(kuò)展多任務(wù)視覺基礎(chǔ)模型LaVin-DiT：融合時(shí)空VAE與DiT

angel ? 2523瀏覽 ? 0回復(fù)
20大LLM安全防護(hù)機(jī)制詳解：保障AI模型的安全、倫理和責(zé)任

Halo咯咯 ? 5071瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

小虎哦哦 ? 3643瀏覽 ? 0回復(fù)
多模態(tài)RAG利器，帶你跑通Qwen2-VL-7B-Instruct大模型

AI科技論談 ? 3738瀏覽 ? 0回復(fù)
高效抽取PDF文件打造RAG，從LlamaParse轉(zhuǎn)向PymuPDF4llm

AI科技論談 ? 3408瀏覽 ? 0回復(fù)
MIT：LLM的思考方式竟然和大腦相似

AIGC前沿技術(shù)追蹤 ? 2733瀏覽 ? 0回復(fù)
LLM合集：MiniMax-01 開源，性能比肩 GPT-4o，上下文窗口領(lǐng)先 20-32 倍

AIPaperDaily ? 2607瀏覽 ? 0回復(fù)
小紅書 NoteLLM：用于筆記推薦和標(biāo)簽生成的 LLM

amei2000go ? 6273瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Doc2X：為知識(shí)庫(kù)RAG接上高精度文檔解析的“智能引擎” 8天前發(fā)布
RAG-Anything：全面的一體化多模態(tài)文檔處理 RAG 系統(tǒng) 8天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

上一篇： RichRAG框架：為用戶提供豐富全面且令人滿意的回答

下一篇：文本分塊哪家強(qiáng)？LumberChunker、語義分塊、段落級(jí)、循環(huán)分塊、HyDE、命題級(jí)

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：成人免费在线视频 | 三级视频国产 | 成年人国产在线观看 | 亚洲精品一区二区三区蜜桃久 | 国外成人在线视频 | 亚洲精品一区国产精品 | 成人在线不卡 | 欧美片网站免费 | 亚洲欧美一区二区在线观看 | 日韩国产精品一区二区三区 | 爱草在线 | 99视频在线播放 | 日日摸日日爽 | 久久九九影视 | 日本午夜精品一区二区三区 | 精品国产一区二区三区久久 | 欧美一级二级视频 | 97视频人人澡人人爽 | www国产亚洲精品久久网站 | 一级一级毛片免费看 | 欧美一a | 91精品国产欧美一区二区 | 亚洲天堂一区二区 | 涩涩视频大全 | 91久久精品一区二区二区 | 日本不卡免费新一二三区 | 久久久久国产一区二区 | 亚洲免费精品 | 国精产品一品二品国精在线观看 | 日本一区二区三区免费观看 | 美女日批免费视频 | 人人人干 | 国产精品日日摸夜夜添夜夜av | 亚洲一区二区三区四区五区午夜 | 精品一区二区视频 | 亚洲高清视频在线观看 | 欧美午夜视频 | 精品一区二区免费视频 | 91pao对白在线播放 | 国产日韩欧美精品 | 日韩精品免费 |