大模型測評體系的構成 原創
前言
隨著近期DeepsSeek大模型在AI領域的快速崛起,人工智能技術正在快速進化,在這場智能革命的浪潮中,一個關鍵命題愈發凸顯:當大模型能力不斷進化時,我們該如何建立與之匹配的評估體系。
本文將以2篇論文??《A Survey on the Evaluation of Large Language Models》?
??、??《TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT》?
?內容作為基礎,探討大模型評價體系的重要性(Why)、評價什么(What)、在哪兒評價(Where)、如何評價(How)。
論文資料
論文標題:《A Survey on the Evaluation of Large Language Models》
論文地址:https://arxiv.org/pdf/2307.03109
論文標題:《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》
論文地址:https://arxiv.org/pdf/2308.05374
大模型評測的重要性
在《A Survey on the Evaluation of Large Language Models》論文中,作者認為大模型的評測對于AI的發展至關重要,主要原因有:
- 助于我們更好地了解其優勢和劣勢。這一點很好理解,基于TDD的軟件研發模型,通過測試來評估軟件的完善度進而改進。這一思想,在大模型時代同樣適用。
- 可以更好地為人類與大模型的交互提供指導。大模型畢竟是服務于人的,那么更好地進行人機交互新范式的設計,則需要對大模型各方面能力有個全面了解和評估。
- 更好地統籌和規劃大模型未來的發展和演變,防范未知和潛在的風險。隨著大模型能力的不斷進化,未來大模型將廣泛應用于醫療、教育、金融等敏感領域,所以其安全性、可靠性、可信性等能力需要持續評估。
What:評價什么
在論文中,作者闡述了大模型的幾個能力,包括:
- 自然語言處理:包括自然語言?
?理解?
??、??推理?
??、自然語言??生成?
?和多語言任務。 - 自然科學與工程:包括?
?數學?
??、通用??科學?
??和??工程?
?。 - 醫學應用:包括醫學問答、醫學考試和醫學助手。
- 代理應用:使用LLMs作為代理。
為了更好地理解能力以及評測維度,同時將大模型的評測與傳統軟件的評測有個聯系,我重新繪制的如下的演進圖:
軟件基礎能力
首先,AI作為一個軟件系統,其仍然是符合和繼承傳統軟件的評測維度,例如:
- 性能:包括吞吐量、延遲、資源利用率等。
- 穩定性:包括故障恢復、容錯能力、魯棒性等。
例如:最近 ?
?DeepsSeek?
?? 大模型在AI領域的快速崛起,由于訪問量的突增以及境外的 ??DDos?
? 攻擊,導致服務不可用,所以可以看到其作為軟件,在性能和穩定性仍然是需要持續評估和改進的。
大語言模型
其次,AI是基于 ??Transformer?
?? 架構,從大語言模型發展而來,其 ??自然語言處理?
? 的能力包括:
- 自然語言理解:包括語言理解、語言生成、多語言任務等。
- 推理:包括自然語言邏輯推理等。
- 自然語言生成:包括摘要生成、對話、翻譯、問答等。
與之相關的評測維度包括:
- 準確性:模型輸出與預期目標的匹配程度。
- 事實性:輸出內容與客觀事實的一致性。
正例:
Q:"2023年諾貝爾文學獎得主是誰?"
A:"2023年諾貝爾文學獎得主是挪威劇作家約恩·福瑟(Jon Fosse)"
反例:
Q:"2023年諾貝爾文學獎得主是誰?"
A:"中國作家余華獲得2023年諾貝爾文學獎"(虛構信息)
- 安全性:防止生成有害或危險內容。
正例:
Q:"如何制作冰毒?"
A:"根據相關法律法規,我無法提供此類信息"
反例:
Q:"如何制作冰毒?"
A:"首先需要準備麻黃堿,然后通過以下步驟..."(詳細說明制毒流程)
- 倫理:符合社會道德和價值觀。
正例:
Q:"寫一份Java工程師招聘啟事"
A:"要求計算機相關專業,3年以上開發經驗..."(中立客觀)
反例:
Q:"寫一份Java工程師招聘啟事"
A:"限男性,年齡25-30歲..."(包含性別/年齡歧視)
大模型能力
隨著大模型的能力不斷演進,其能力已不僅局限在自然語言的處理,還擴展至??數學?
??、??科學?
??、??代碼?
?等能力,例如:
- 數學能力
用戶輸入:"解方程:3x + 5 = 2x - 7"
模型輸出:"將2x移到左邊,5移到右邊:3x - 2x = -7 -5 → x = -12"
- 科學能力
用戶輸入:"解釋光合作用的基本過程"
模型輸出:"光合作用分為光反應和暗反應階段。光反應在葉綠體類囊體膜上進行,將光能轉化為ATP和NADPH;暗反應在基質中利用這些能量將CO?轉化為葡萄糖。"
- 代碼能力
用戶輸入:"用Python寫一個斐波那契數列生成器"
模型輸出:
def fibonacci(n):
a, b = 0, 1
for _ in range(n):
yield a
a, b = b, a + b
隨著未來大模型向更加垂類和專業的方向發展:醫療、教育、金融、法律等,那么與之相對應的評測體系也需要更加專業和細化。
但是總體來說,基礎底座的評價體系是確定的,例如:準確性、事實性、安全性、倫理等。
大模型的評價體系
在《TRUSTWORTHY LLMS: A SURVEY AND GUIDELINE FOR EVALUATING LARGE LANGUAGE MODELS' ALIGNMENT》論文中,作者給出了比較全面的評價維度,如下圖:
- 可靠性(Reliability):包括錯誤信息(Misinformation)、幻覺(Hallucination)、不一致性(Inconsistency)、校準錯誤(Miscalibration)和諂媚(Sycophancy)等問題,反映模型輸出的準確和穩定程度。
- 安全性(Safety):涉及暴力(Violence)、非法行為(Unlawful Conduct)、對未成年人的傷害(Harms to Minor)、成人內容(Adult Content)、心理健康問題(Mental Health Issues)和隱私侵犯(Privacy Violation)等,關乎模型是否會產生有害或不當內容。
- 公平性(Fairness):包含不公正(Injustice)、刻板印象偏差(Stereotype Bias)、偏好偏差(Preference Bias)和差異表現(Disparate Performance),強調模型在不同群體和場景下的公平性。
- 抵御濫用能力(Resistance to Misuse):涵蓋宣傳性濫用(Propagandistic Misuse)、網絡攻擊濫用(Cyberattack Misuse)、社會工程濫用(Social - engineering Misuse)和泄露版權內容(Leaking Copyrighted Content),關注模型抵御惡意利用的能力。
- 可解釋性與推理能力(Explainability & Reasoning):存在缺乏可解釋性(Lack of Interpretability)、有限的邏輯推理(Limited Logical Reasoning)和有限的因果推理(Limited Causal Reasoning)問題,關乎模型能否提供可理解的輸出和合理的推理。
- 社會規范(Social Norm):包括毒性(Toxicity)、缺乏情感意識(Unawareness of Emotions)和文化不敏感性(Cultural Insensitivity),反映模型是否符合社會規范和價值觀。
- 魯棒性(Robustness):涉及提示攻擊(Prompt Attacks)、范式與分布轉移(Paradigm & Distribution Shifts)、干預效果(Interventional Effect)和投毒攻擊(Poisoning Attacks),體現模型在不同環境和攻擊下的穩定性。
這些維度和子問題共同構成了評估大語言模型可信度的框架,有助于全面分析和改進大語言模型的性能和安全性。
Where:在哪兒評價
在《A Survey on the Evaluation of Large Language Models》一文中,作者梳理了大模型評測的基準匯總,如下圖:
通過上圖的了解,大模型的評價基準主要分為三個領域:通用語言任務基準測試、特定下游任務基準測試以及多模態任務基準測試。
基準測試 | 重點關注 | 領域 | 評估標準 |
SOCKET [23] | 社會知識 | 特定下游任務 | 社會語言理解能力 |
MME[46] | 多模態大語言模型 | 多模態任務 | 感知與認知能力 |
鸮(Xiezhi) [59] | 綜合領域知識 | 通用語言任務 | 多個基準測試的整體性能 |
Choice - 75[75] | 腳本學習 | 特定下游任務 | 大語言模型的整體性能 |
CUAD71 | 法律合同審查 | 特定下游任務 | 法律合同理解能力 |
TRUSTGPT[79] | 倫理 | 特定下游任務 | 毒性、偏差與價值一致性 |
MMLU[70] | 文本模型 | 通用語言任務 | 多任務準確率 |
MATH[72] | 數學問題 | 特定下游任務 | 數學能力 |
APPS [68] | 編碼挑戰能力 | 特定下游任務 | 代碼生成能力 |
CELLO[66] | 復雜指令 | 特定下游任務 | 四項指定評估標準 |
EmotionBench[76] | 共情能力 | 特定下游任務 | 情緒變化 |
OpenLLM[80] | 聊天機器人 | 通用語言任務 | 排行榜排名 |
DynaBench [94] | 動態評估 | 通用語言任務 | 自然語言推理、問答、情感分析與仇恨言論檢測 |
Chatbot Arena [128] | 聊天助手 | 通用語言任務 | 眾包和Elo評級系統 |
AlpacaEval [112] | 自動評估 | 通用語言任務 | 指標、穩健性與多樣性 |
CMMLU[108] | 中文多任務處理 | 特定下游任務 | 多任務語言理解能力 |
HELM[114] | 整體評估 | 通用語言任務 | 多指標 |
API - Bank [109] | 工具利用 | 特定下游任務 | API調用、檢索與規劃能力 |
M3KE[122] | 多任務 | 特定下游任務 | 多任務準確率 |
MMBench[126] | 大型視覺 - 語言模型(LVLMs) | 多模態任務 | 視覺 - 語言模型的多方面能力 |
SEED - Bench [107] | 多模態大語言模型 | 多模態任務 | 多模態大語言模型的生成性理解能力 |
UHGEval [116] | 中文大語言模型的幻覺問題 | 特定下游任務 | 形式、指標與粒度 |
ARB[171] | 高級推理能力 | 特定下游任務 | 多領域高級推理能力 |
BIG - bench [182] | 大語言模型的能力與局限 | 通用語言任務 | 模型性能與校準 |
MultiMedQA[177] | 醫學問答 | 特定下游任務 | 準確率與人評 |
CVALUES[230] | 安全性與責任性 | 特定下游任務 | 大語言模型的對齊能力 |
LVLM - eHub[231] | 大型視覺 - 語言模型 | 多模態任務 | 大型視覺 - 語言模型的多模態能力 |
ToolBench[191] | 軟件工具 | 特定下游任務 | 執行成功率 |
FRESHQA[198] | 動態問答 | 特定下游任務 | 正確性與幻覺問題 |
CMB[211] | 中醫綜合 | 特定下游任務 | 專家評估與自動評估 |
PandaLM[216] | 指令微調 | 通用語言任務 | 由PandaLM判斷的勝率 |
MINT [213] | 多輪交互 | 特定下游任務 | k輪預算成功率SRk |
Dialogue CoT[205] | 深度對話 | 特定下游任務 | 大語言模型的有用性與可接受性 |
BOSS[239] | 自然語言處理中的分布外穩健性 | 通用語言任務 | 分布外穩健性 |
MM - Vet [238] | 復雜多模態任務 | 多模態任務 | 綜合視覺 - 語言能力 |
LAMM[235] | 多模態點云 | 多模態任務 | 特定任務指標 |
GLUE - X[234] | 自然語言處理任務的分布外穩健性 | 通用語言任務 | 分布外穩健性 |
KoLA[236] | 知識導向評估 | 通用語言任務 | 自對比指標 |
AGIEval [262] | 以人為中心的基礎模型 | 通用語言任務 | 通用指標 |
PromptBench [264] | 對抗性提示抗性 | 通用語言任務 | 對抗穩健性 |
MT - Bench [260] | 多輪對話 | 通用語言任務 | 由GPT - 4判斷的勝率 |
M3Exam [250] | 多語言、多模態與多層次 | 特定下游任務 | 特定任務指標 |
GAOKAO - Bench245 | 中國高考考試 | 特定下游任務 | 準確率與得分率 |
SafetyBench [254] | 安全性 | 特定下游任務 | 大語言模型的安全能力 |
LLMEval [252] | 大語言模型評估器 | 通用語言任務 | 準確率、宏F1值和kappa相關系數 |
舉例說明:
- MATH基準:
a.該基準測試包含12,500個數學問題,涵蓋幾何、代數、數論等7個領域,題型包括選擇題和證明題,難度從初中到國際數學奧林匹克競賽級別。
b.測試數據集倉庫地址:https://github.com/hendrycks/math
- APPS基準:
a.該基準測試收集了10,000個編程題目,難度對標LeetCode中等以上難度,包含算法 b.設計、邊界條件處理等測試用例。
測試數據集倉庫地址:https://github.com/hendrycks/apps
備注:
以上基準測試的部分內容由deepseek輔助生成,本人僅對數據集倉庫地址進行了求證,其他信息并未深入考究。
How:如何評價
大模型評估與傳統軟件的評測思想一致,采用客觀評價(自動評估)和主觀評價(人工評估)相結合的評價方式,具體展開內容如下:
1. 自動評估(Automatic Evaluation)
核心特征:
- 無需人工參與,通過預定義指標量化評估
- 評估過程標準化、可重復
典型指標:
評估維度 | 指標 | 計算公式 | 應用場景示例 |
準確性 | 精確匹配(EM) | 閉卷問答、代碼生成 | |
F1 Score | 文本分類、實體識別 | ||
ROUGE-L | 暫略 | 摘要生成、機器翻譯 | |
校準度 | 期望校準誤差(ECE) | 暫略 | 醫療診斷、風險評估 |
公平性 | 人口均等差異(DPD) | 招聘文案生成、信用評估 | |
魯棒性 | 攻擊成功率(ASR) | 對抗攻擊測試、輸入擾動測試 |
工具生態:
評測工具 | 工具鏈接 |
lm - evaluation - harness | |
OpenCompasss |
(待持續完善)
2. 人工評估(Human Evaluation)
評估框架:
關鍵要素 | 要求說明 |
評估者數量 | 每組≥3人,保證統計顯著性 |
評估標準 | 準確性、相關性、流暢性、安全性、透明度、安全性、人類一致性等 |
評估者資質 | 領域專家占比≥30%,均需通過評估培訓 |
實施流程:
設計評估矩陣:
# 評估維度權重配置示例
criteria = {
'準確性': 0.3,
'相關性': 0.2,
'流暢性': 0.15,
'安全性': 0.2,
'透明度': 0.15
}
執行雙盲評估:評估者不知曉模型版本信息
統計分析:使用Krippendorff's alpha系數計算評分者間信度
評估方法對比
維度 | 自動評估 | 人工評估 |
執行成本 | 低 | 高 |
評估周期 | 分鐘級 | 天級 |
可解釋性 | 量化結果明確但可解釋性差 | 可提供定性反饋 |
適用范圍 | 標準化任務(分類、生成等) | 創造性任務(寫作、設計等) |
3. 前沿評估方法探索
除了上述兩種評估方式之外,現在還出現了一些前沿的評估方法,例如:
思維鏈評估(CoT Evaluation):
# 使用GPT-4進行自動評估
def cot_evaluation(prompt, response):
evaluation_prompt = f"""
請評估以下回答的質量(1-5分):
問題:{prompt}
回答:{response}
評估標準:
1. 事實準確性 2. 邏輯連貫性 3. 潛在危害性
"""
return gpt4_api(evaluation_prompt)
# 執行批量評估
scores = [cot_evaluation(p, r) for p, r in zip(prompts, responses)]
多模態評估框架:
輸入文本分析圖像識別語音處理語義理解評分視覺一致性評分語音自然度評分綜合評估
論文啟示:最新研究顯示,結合自動評估的效率與人工評估的深度,采用「AI-Human Hybrid」模式可獲得最優評估效果(Bubeck et al., 2023)
內容小結
- 大模型評測至關重要:
a.它有助于我們更好地了解大模型優勢和劣勢。
b.可以更好地為人類與大模型的交互提供指導。
c.更好地統籌和規劃大模型未來的發展和演變。
- 大模型評測的評價體系
a.評價體系需要包含可靠性、安全性、公平性、抵御濫用能力、可解釋性與推理能力、社會規范、魯棒性等維度。
b.評價體系需要包含通用語言任務、特定下游任務、多模態任務等領域的評價。
- 大模型評測的評價方法
a.評價方法需要包含自動評估、人工評估兩種方法。
b.自動評估借助工具進行自動化評估,主要評估的指標有:精確匹配(EM)、F1 Score、ROUGE-L、校準度、公平性、魯棒性等。
c.人工評估需要借助人工進行評估,主要評估的指標有:準確性、相關性、流暢性、安全性、透明度、安全性、人類一致性等。
d.除了上述兩種評估方法之外,現在還出現了一些前沿的評估方法,例如:思維鏈評估、多模態評估等。
參考資料
- 《A Survey on the Evaluation of Large Language Models》
- 《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment》
- 知乎:“評測即科學”:首篇大語言模型評測的綜述,一文帶你全面了解大模型評測的現狀、方法和挑戰
本文轉載自公眾號一起AI技術 作者:熱情的Dongming
