RAG生成任務(wù):Base LLM竟然比Instruct LLM高出20%
檢索增強(qiáng)生成(RAG)將檢索階段與生成階段結(jié)合起來,后者通常由大型語言模型(LLMs)驅(qū)動(dòng),RAG中的當(dāng)前常見實(shí)踐是使用“指導(dǎo)”的LLMs,這真的是最優(yōu)選擇嗎?
對(duì)RAG系統(tǒng)中的“instruct”模型及其模板與基礎(chǔ)版本(base)進(jìn)行了原則性評(píng)估。這些“instruct”模型通常經(jīng)過監(jiān)督訓(xùn)練來提高遵循指令的能力,并使用最先進(jìn)技術(shù)與人類偏好對(duì)齊。使用了兩個(gè)任務(wù)指令來評(píng)估模型,任務(wù)指令I(lǐng)要求模型從未提供的文檔中提取答案,任務(wù)指令I(lǐng)I要求模型提供證據(jù)來支持其答案。
在TriviaQA上的任務(wù)指令I(lǐng)下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。該圖展示了兩個(gè)版本的Llama 2 7B模型生成的回答之間的比較:基礎(chǔ)版和指導(dǎo)+模板版。每個(gè)版本都被賦予了基于提供文檔回答同一問題的任務(wù)。基礎(chǔ)模型正確地識(shí)別出答案為“Burgess Meredith”,而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于“Danny DeVito”。斜體文本表示模板
在TriviaQA上的任務(wù)指令I(lǐng)I下,基礎(chǔ)版與指導(dǎo)+模板版之間的比較。這種比較展示了Llama 2 7B的基礎(chǔ)版和指導(dǎo)+模板版生成的回答之間的一個(gè)例子,其中基礎(chǔ)模型正確地識(shí)別了答案,而指導(dǎo)+模板版錯(cuò)誤地將答案歸因于不同的演員。盡管如此,在兩種情況下,答案都與證據(jù)“一致”,因?yàn)槊宽?xiàng)證據(jù)都包含了生成的答案。斜體文本表示模板。
實(shí)驗(yàn)結(jié)果顯示,在RAG任務(wù)中,基礎(chǔ)模型在沒有額外的指令特定微調(diào)的情況下,平均性能比“instruct”模型高出20%。這一發(fā)現(xiàn)挑戰(zhàn)了關(guān)于“instruct”LLMs在RAG應(yīng)用中優(yōu)越性的普遍假設(shè)。進(jìn)一步的調(diào)查揭示了更復(fù)雜的情況,提出了對(duì)RAG和評(píng)估程序的更廣泛討論的需求。
在NQ和TriviaQA上任務(wù)指令I(lǐng)的準(zhǔn)確度??s寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。除了部分例外的Mistral,所有基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。
在NQ和TriviaQA上,需要提供證明的任務(wù)指令I(lǐng)I的準(zhǔn)確度??s寫C和I分別表示指導(dǎo)模型的聊天版和指導(dǎo)版。后綴T表示使用模板來構(gòu)建其回答的指導(dǎo)模型。準(zhǔn)確度是在不同檢索文檔級(jí)別的報(bào)告。在所有考慮的情況下,基礎(chǔ)模型在性能上都大幅度超過了它們的指導(dǎo)版本。
盡管“instruct”模型在遵循任務(wù)指令方面更為有效,但它們?cè)跍?zhǔn)確拒絕回答(即當(dāng)檢索文檔中不包含答案時(shí)回答NO-RES)方面的表現(xiàn)不如基礎(chǔ)模型(備注:這地方的結(jié)論貌似與實(shí)驗(yàn)數(shù)據(jù)不匹配,有需要小伙伴自行評(píng)測(cè)哈)。此外,當(dāng)不要求模型在答案不出現(xiàn)在檢索文檔中時(shí)回答NO-RES時(shí),基礎(chǔ)模型仍然表現(xiàn)更好,這表明監(jiān)督微調(diào)和對(duì)齊過程可能對(duì)模型在RAG任務(wù)中的能力產(chǎn)生了負(fù)面影響。
從參數(shù)化記憶中回憶 - Llama 2 7B - TriviaQA。報(bào)告的是參數(shù)化記憶回憶率,定義為模型在檢索文檔不包含正確答案的情況下仍能正確回答的實(shí)例數(shù),除以答案不在上下文中出現(xiàn)的次數(shù)。(左)如圖1所示的任務(wù)指令I(lǐng);(右)無拒絕設(shè)置,即不指定在檢索文檔中不包含答案時(shí)回答NO-RES(如圖6所示的示例)。在這種情況下,兩個(gè)模型版本的參數(shù)化記憶回憶率都有所提高。
圖6:在NQ上,任務(wù)指令I(lǐng)下的基礎(chǔ)版與指導(dǎo)版,不允許拒絕回答。這張圖展示了在不允許拒絕回答的設(shè)置下的回答情況,即模型不需要在檢索文檔中不包含答案時(shí)回答NO-RES。它比較了Falcon 7B的基礎(chǔ)版和指導(dǎo)版?;A(chǔ)模型準(zhǔn)確地識(shí)別出“Rocky”(洛奇)是1976年奧斯卡最佳影片獎(jiǎng)的獲獎(jiǎng)?wù)?,而指?dǎo)版錯(cuò)誤地引用了“Network”(電視臺(tái))。
在整個(gè)RAG流程中,除了Generation,還涉及Embedding、Indexing等等,PaperAgent團(tuán)隊(duì)RAG專欄進(jìn)行過詳細(xì)的歸納總結(jié):高級(jí)RAG之36技(術(shù)),可私信留言試看:RAG專欄。
A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems
https://arxiv.org/pdf/2406.14972
https://github.com/florin-git/Base-vs-Instruct-LLMs-in-RAG-Systems
本文轉(zhuǎn)載自??PaperAgent??
