學(xué)會(huì)LLM思維:語(yǔ)料質(zhì)量的自評(píng)估 原創(chuàng)
日常工作中面對(duì)各類(lèi)的作業(yè),如何通過(guò)工程化的設(shè)計(jì),充分利用LLM的邏輯推理能力,是AI思維的最直接體現(xiàn)。今天開(kāi)始小編將帶著大家,遵循AI思維來(lái)解決日常作業(yè)中的各種問(wèn)題。今天探討的實(shí)際場(chǎng)景是語(yǔ)料質(zhì)量評(píng)估。在垂類(lèi)應(yīng)用或者RAG應(yīng)用,將企業(yè)知識(shí)或者領(lǐng)域知識(shí)轉(zhuǎn)化為語(yǔ)料是最為關(guān)鍵的一環(huán),但是如何來(lái)確定語(yǔ)料的質(zhì)量作為關(guān)鍵。
LLM的訓(xùn)練過(guò)程中因?yàn)槠漕A(yù)訓(xùn)練能力與困惑度(PPL)相關(guān),因此可以從不同的數(shù)據(jù)來(lái)源中分別提取困惑度排名靠前和排名靠后的語(yǔ)料,交予大模型自己去評(píng)估和分析,這些導(dǎo)致困惑度差異巨大的歸因,進(jìn)而得出評(píng)估標(biāo)準(zhǔn)。
上述的實(shí)驗(yàn)如下圖所示的確得出了與LLM性能相關(guān)的13個(gè)質(zhì)量標(biāo)準(zhǔn):準(zhǔn)確性、連貫性、創(chuàng)造性、語(yǔ)法多樣性、知識(shí)新穎性、語(yǔ)言一致性、原創(chuàng)性、專(zhuān)業(yè)性、語(yǔ)義密度、敏感性、結(jié)構(gòu)標(biāo)準(zhǔn)化、風(fēng)格一致性和主題聚焦,并形成了一個(gè)名為總體評(píng)分的綜合標(biāo)準(zhǔn)。
小編點(diǎn)評(píng):通過(guò)大模型完成語(yǔ)料質(zhì)量標(biāo)準(zhǔn)的分類(lèi)提取。在日常其余的企業(yè)應(yīng)用中,也可以將差異較大的語(yǔ)料通過(guò)滿(mǎn)血的大模型去協(xié)助提煉質(zhì)量評(píng)估標(biāo)準(zhǔn)。當(dāng)然如何構(gòu)建提示詞,引導(dǎo)大模型給出正確的結(jié)論十分重要。下面為提示詞示例,提醒大模型按照質(zhì)量評(píng)估細(xì)項(xiàng)進(jìn)行逐一打分。當(dāng)然這個(gè)過(guò)程需要和人類(lèi)專(zhuān)家進(jìn)行交叉對(duì)比驗(yàn)證,最終其與人類(lèi)偏好的共識(shí)度超過(guò)95%。
Please carefully read and analyze the following text, score it based on fourteen evaluation criteria and
their respective scoring definitions. Additionally, select the most appropriate category from the fifteen
domain types that best matches the content of the text. Let’s think step by step.
Text:{text}
Domain Types: [A]Medicine [B]Finance [C]Law [D]Education [E]Technology [F]Entertainment
[G]Mathematics [H]Coding [I]Government [J]Culture [K]Transportation [L]Retail E-commerce
[M]Telecommunication [N]Agriculture [O]Other
The Higher The Score, The Evaluation Criteria:
[1]Accuracy: the fewer grammar, referential, and spelling errors the text contains, and the more accurate
its expression. _/5
[2]Coherence: the more fluent the content is expressed, and the stronger its logical coherence. _/5
[3]Language Consistency: the more consistent the use of language in the text, with less mixing of
languages. _/5
[4]Semantic Density: the greater the proportion of valid information in the text, with less irrelevant or
redundant information. _/5
[5]Knowledge Novelty: the more novel and cutting-edge the knowledge provided by the text, with more
insightful views on the industry or topic. _/5
[6]Topic Focus: the more the text content focuses on the topic, with less deviation from the main theme.
_/5
[7]Creativity: the more creative elements are shown in the text’s expression. _/5
[8]Professionalism: the more professional terminology appears in the text, with more accurate use of
terms and more professional domain-specific expression. _/5
[9]Style Consistency: the more consistent the style of the text, with proper and appropriate style
transitions. _/5
[10]Grammatical Diversity: the more varied and correct the grammatical structures used in the text,
showing a richer language expression ability. _/5
[11]Structural Standardization: the clearer the structure followed by the text and the more standardized
its format. _/5
[12]Originality: the fewer repetitions and similar content in the text. _/5
[13]Sensitivity: the more appropriately sensitive topics are handled in the text, with less inappropriate
content. _/5
[14]Overall Score: the better the comprehensive evaluation of the text, with superior performance in all
aspects._/5
為了讓質(zhì)量評(píng)估更加具有廣泛性,研究人員引入15種數(shù)據(jù)常見(jiàn)的領(lǐng)域類(lèi)型,按照如上的方式構(gòu)建一套微調(diào)數(shù)據(jù)集。
最后利用這些質(zhì)量評(píng)估的語(yǔ)料,微調(diào)小模型形成DataMan模型,DataMan主要用于質(zhì)量評(píng)估打分。
通過(guò)上圖可以觀測(cè)到DataMan對(duì)于不同數(shù)據(jù)來(lái)源在不同質(zhì)量評(píng)估項(xiàng)的打分情況。行代表著每種質(zhì)量評(píng)估標(biāo)準(zhǔn),而每一列代表著來(lái)源為“自然爬取”,質(zhì)量的確較為一般。
最后為了證明DataMan的有效性,研究人員對(duì)Slimpajama語(yǔ)料庫(kù)中的447B個(gè)標(biāo)記進(jìn)行了質(zhì)量評(píng)分和領(lǐng)域類(lèi)型標(biāo)注,創(chuàng)建了DataPajama數(shù)據(jù)集。
通過(guò)DataMan對(duì)數(shù)據(jù)集的打分和分析可以觀測(cè)出編碼(Coding)由于其固定的語(yǔ)法格式,表現(xiàn)出最少的語(yǔ)法多樣性和較高的結(jié)構(gòu)標(biāo)準(zhǔn)化。來(lái)自專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)展示了較強(qiáng)的原創(chuàng)性和語(yǔ)義密度,具有較低的內(nèi)容冗余和有意義的內(nèi)容,提升了模型在垂直領(lǐng)域的表現(xiàn)。政府和娛樂(lè)領(lǐng)域表現(xiàn)出較低的敏感性,這可能與社交媒體上的言論自由和政治敏感話題有關(guān),幫助模型過(guò)濾有害言論和敏感內(nèi)容。總體而言,專(zhuān)業(yè)領(lǐng)域往往能獲得更高的總體評(píng)分,而長(zhǎng)尾領(lǐng)域和一般領(lǐng)域則相對(duì)較低。
從DataPajama中采樣了一個(gè)30B標(biāo)記的子集,并從頭開(kāi)始訓(xùn)練了Sheared-LLaMA-1.3B語(yǔ)言模型。在十個(gè)下游任務(wù)中,使用DataMan采樣的13個(gè)質(zhì)量標(biāo)準(zhǔn)訓(xùn)練的Sample-with-DataMan模型在上下文學(xué)習(xí)性能上超越了現(xiàn)有的最先進(jìn)(SOTA)基準(zhǔn),提高了0.4%到4.3%,展示了這些標(biāo)準(zhǔn)的有效性。隨著總體評(píng)分從1到5的提升,ICL性能和PPL都顯著改善,驗(yàn)證了質(zhì)量排序的必要性。
為了進(jìn)一步測(cè)試成果,研究人員采樣更大60B數(shù)據(jù)子集,并將構(gòu)造出來(lái)的最強(qiáng)的Sample-with-DataMan模型(總體評(píng)分l=5)與現(xiàn)有的SOTA基準(zhǔn)進(jìn)行了比較。
- PPL和ICL性能并不完全一致。
- 在指令跟隨任務(wù),所有使用DataMan的Sample-with-DataMan模型的勝率都遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)有的SOTA基準(zhǔn),勝率在67.1%到78.5%之間。
- 繼續(xù)使用DataMan注釋的高評(píng)分、領(lǐng)域特定數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練最強(qiáng)的總體評(píng)分l=5模型,在特定領(lǐng)域取得了優(yōu)越的ICL性能,從而驗(yàn)證了DataMan的領(lǐng)域混合能力。
- 對(duì)DataPajama數(shù)據(jù)集進(jìn)行了深入分析,探索了來(lái)自不同來(lái)源的DataMan質(zhì)量評(píng)分的分布,并檢查了每個(gè)質(zhì)量評(píng)分1、2、3、4、5對(duì)應(yīng)的原始文檔。
PPL(Perplexity,困惑度)是一種衡量語(yǔ)言模型預(yù)測(cè)能力的指標(biāo),常用于評(píng)估語(yǔ)言模型在給定文本的條件下生成下一個(gè)單詞的能力。具體來(lái)說(shuō),困惑度越低,表示模型在處理文本時(shí)更能準(zhǔn)確預(yù)測(cè)下一個(gè)單詞或字符,因此它的性能越好。反之表示模型的預(yù)測(cè)能力較差。在訓(xùn)練過(guò)程中,PPL用來(lái)評(píng)估模型的語(yǔ)言理解和生成能力,它反映了模型對(duì)于語(yǔ)言結(jié)構(gòu)的理解和對(duì)未來(lái)單詞預(yù)測(cè)的“困惑”程度。
ICL(上下文學(xué)習(xí)) 是指模型在推理或生成過(guò)程中,如何根據(jù)給定的上下文進(jìn)行學(xué)習(xí)和適應(yīng)。它不僅關(guān)注模型對(duì)語(yǔ)法或語(yǔ)義的理解,還強(qiáng)調(diào)模型根據(jù)上下文信息靈活地調(diào)整輸出,比如根據(jù)任務(wù)中的提示、問(wèn)題背景或用戶(hù)的需求來(lái)生成更合適的內(nèi)容。ICL 反映的是模型的下游泛化能力,即它在處理特定任務(wù)時(shí)如何靈活適應(yīng)和推理。
小編認(rèn)為這篇論文給出的幾點(diǎn)重要提示:
- 充分利用“滿(mǎn)血”大模型的邏輯推理和總結(jié)能力,讓其在語(yǔ)料標(biāo)注領(lǐng)域中扮演先鋒的角色。大模型不是萬(wàn)能的,但是可以在知識(shí)密集型的業(yè)務(wù)領(lǐng)域中完成第一道初篩的工作,減輕后續(xù)人類(lèi)介入和標(biāo)注的工作量。
- 利用精校好的語(yǔ)料庫(kù),選擇市面上優(yōu)質(zhì)的開(kāi)源大模型(1B-7B)進(jìn)行專(zhuān)業(yè)領(lǐng)域的子任務(wù)微調(diào)性?xún)r(jià)比最高,在資源和效果之間達(dá)到新的平衡點(diǎn)。
本文轉(zhuǎn)載自??魯班模錘??,作者:龐德公
