成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%

發(fā)布于 2024-6-26 15:30
瀏覽
0收藏

檢索增強(qiáng)生成(RAG)將檢索階段與生成階段結(jié)合起來,后者通常由大型語言模型(LLMs)驅(qū)動(dòng),RAG中的當(dāng)前常見實(shí)踐是使用“指導(dǎo)”的LLMs,這真的是最優(yōu)選擇嗎?

對(duì)RAG系統(tǒng)中的“instruct”模型及其模板與基礎(chǔ)版本(base)進(jìn)行了原則性評(píng)估。這些“instruct”模型通常經(jīng)過監(jiān)督訓(xùn)練來提高遵循指令的能力,并使用最先進(jìn)技術(shù)與人類偏好對(duì)齊。使用了兩個(gè)任務(wù)指令來評(píng)估模型,任務(wù)指令I(lǐng)要求模型從未提供的文檔中提取答案,任務(wù)指令I(lǐng)I要求模型提供證據(jù)來支持其答案。

在TriviaQA上的任務(wù)指令I(lǐng)下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。該圖展示了兩個(gè)版本的Llama 2 7B模型生成的回答之間的比較:基礎(chǔ)版和指導(dǎo)+模板版。每個(gè)版本都被賦予了基于提供文檔回答同一問題的任務(wù)。基礎(chǔ)模型正確地識(shí)別出答案為“Burgess Meredith”,而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于“Danny DeVito”。斜體文本表示模板

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

在TriviaQA上的任務(wù)指令I(lǐng)I下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。這種比較展示了Llama 2 7B的基礎(chǔ)版和指導(dǎo)+模板版生成的回答之間的一個(gè)例子,其中基礎(chǔ)模型正確地識(shí)別了答案,而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于不同的演員。盡管如此,在兩種情況下,答案都與證據(jù)“一致”,因?yàn)槊宽?xiàng)證據(jù)都包含了生成的答案。斜體文本表示模板。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果顯示,在RAG任務(wù)中,基礎(chǔ)模型在沒有額外的指令特定微調(diào)的情況下,平均性能比“instruct”模型高出20%。這一發(fā)現(xiàn)挑戰(zhàn)了關(guān)于“instruct”LLMs在RAG應(yīng)用中優(yōu)越性的普遍假設(shè)。進(jìn)一步的調(diào)查揭示了更復(fù)雜的情況,提出了對(duì)RAG和評(píng)估程序的更廣泛討論的需求。

在NQ和TriviaQA上任務(wù)指令I(lǐng)的準(zhǔn)確度??s寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。除了部分例外的Mistral,所有基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。


在NQ和TriviaQA上,需要提供證明的任務(wù)指令I(lǐng)I的準(zhǔn)確度??s寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。在所有考慮的情況下,基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

盡管“instruct”模型在遵循任務(wù)指令方面更為有效,但它們?cè)跍?zhǔn)確拒絕回答(即當(dāng)檢索文檔中不包含答案時(shí)回答NO-RES)方面的表現(xiàn)不如基礎(chǔ)模型(備注:這地方的結(jié)論貌似與實(shí)驗(yàn)數(shù)據(jù)不匹配,有需要小伙伴自行評(píng)測(cè)哈)。此外,當(dāng)不要求模型在答案不出現(xiàn)在檢索文檔中時(shí)回答NO-RES時(shí),基礎(chǔ)模型仍然表現(xiàn)更好,這表明監(jiān)督微調(diào)和對(duì)齊過程可能對(duì)模型在RAG任務(wù)中的能力產(chǎn)生了負(fù)面影響。

從參數(shù)化記憶中回憶 - Llama 2 7B - TriviaQA。報(bào)告的是參數(shù)化記憶回憶率,定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實(shí)例數(shù),除以答案不在上下文中出現(xiàn)的次數(shù)。(左)如圖1所示的任務(wù)指令I(lǐng);(右)無拒絕設(shè)置,即不指定在檢索文檔中不包含答案時(shí)回答NO-RES(如圖6所示的示例)。在這種情況下,兩個(gè)模型版本的參數(shù)化記憶回憶率都有所提高。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)

圖6:在NQ上,任務(wù)指令I(lǐng)下的基礎(chǔ)版與指導(dǎo)版,不允許拒絕回答。這張圖展示了在不允許拒絕回答的設(shè)置下的回答情況,即模型不需要在檢索文檔中不包含答案時(shí)回答NO-RES。它比較了Falcon 7B的基礎(chǔ)版和指導(dǎo)版?;A(chǔ)模型準(zhǔn)確地識(shí)別出“Rocky”(洛奇)是1976年奧斯卡最佳影片獎(jiǎng)的獲獎(jiǎng)?wù)?,而指?dǎo)版錯(cuò)誤地引用了“Network”(電視臺(tái))。

RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%-AI.x社區(qū)


在整個(gè)RAG流程中,除了Generation,還涉及Embedding、Indexing等等,PaperAgent團(tuán)隊(duì)RAG專欄進(jìn)行過詳細(xì)的歸納總結(jié):高級(jí)RAG之36技(術(shù)),可私信留言試看:RAG專欄。

A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人免费在线视频 | 三级视频国产 | 成年人国产在线观看 | 亚洲精品一区二区三区蜜桃久 | 国外成人在线视频 | 亚洲精品一区国产精品 | 成人在线不卡 | 欧美片网站免费 | 亚洲欧美一区二区在线观看 | 日韩国产精品一区二区三区 | 爱草在线 | 99视频在线播放 | 日日摸日日爽 | 久久九九影视 | 日本午夜精品一区二区三区 | 精品国产一区二区三区久久 | 欧美一级二级视频 | 97视频人人澡人人爽 | www国产亚洲精品久久网站 | 一级一级毛片免费看 | 欧美一a | 91精品国产欧美一区二区 | 亚洲天堂一区二区 | 涩涩视频大全 | 91久久精品一区二区二区 | 日本不卡免费新一二三区 | 久久久久国产一区二区 | 亚洲免费精品 | 国精产品一品二品国精在线观看 | 日本一区二区三区免费观看 | 美女日批免费视频 | 人人人干 | 国产精品日日摸夜夜添夜夜av | 亚洲一区二区三区四区五区午夜 | 精品一区二区视频 | 亚洲高清视频在线观看 | 欧美午夜视频 | 精品一区二区免费视频 | 91pao对白在线播放 | 国产日韩欧美精品 | 日韩精品免费 |