將入學(xué)考試題搬進(jìn)中文大模型數(shù)據(jù)集，20477道題目，還帶4個候選答案

作者：機(jī)器之心 2023-05-24 15:27:59

本文提出了 M3KE 基準(zhǔn)數(shù)據(jù)集，以零樣本、少樣本形式測試中文大模型對于多級多學(xué)科知識的掌握能力。

隨著中文大規(guī)模語言模型在自然語言理解與自然語言生成方面展現(xiàn)出強(qiáng)大的性能，現(xiàn)有針對特定自然語言處理任務(wù)的中文評測基準(zhǔn)數(shù)據(jù)集已經(jīng)不足以對中文大模型進(jìn)行有效地評估。傳統(tǒng)的中文評測基準(zhǔn)主要關(guān)注模型對于簡單常識（如雨天出門需要帶傘）和表層語義（如籃球比賽的報道是體育類還是科技類新聞）的理解能力，而忽略了人類復(fù)雜知識的挖掘和利用。目前，針對中文大模型復(fù)雜知識評測的數(shù)據(jù)集十分匱乏，特別是涉及我國教育體系下不同層次和不同領(lǐng)域的專業(yè)知識。

為了彌補(bǔ)這一差距，天津大學(xué)自然語言處理實(shí)驗(yàn)室與華為諾亞方舟實(shí)驗(yàn)室聯(lián)合發(fā)布了 M3KE（A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models）基準(zhǔn)數(shù)據(jù)集，以零樣本、少樣本形式測試中文大模型對于多級多學(xué)科知識的掌握能力。

論文鏈接：https://arxiv.org/abs/2305.10263
數(shù)據(jù)鏈接：https://github.com/tjunlp-lab/M3KE

M3KE 數(shù)據(jù)集

數(shù)據(jù)集介紹

M3KE 收集了 20,477 個真人標(biāo)準(zhǔn)化考試題目（包含 4 個候選答案），覆蓋 71 個任務(wù)，包括小學(xué)、初中、高中、大學(xué)、研究生入學(xué)考試題目，涉及人文、歷史、政治、法律、教育、心理學(xué)、科學(xué)、工程技術(shù)、藝術(shù)等學(xué)科，分布如 Fig 1 所示。

研究人員基于兩個標(biāo)準(zhǔn)構(gòu)建 M3KE 數(shù)據(jù)集：

1，契合中國教育體系，覆蓋多教育階段

研究人員模仿中國學(xué)生的教育經(jīng)歷，即小學(xué)、初中、高中、大學(xué)等主要教育階段，旨在評估中文大模型在不同教育階段下的表現(xiàn)。由于每個教育階段需要掌握的知識點(diǎn)不同（例如，在語文學(xué)科中，小學(xué)和初中的知識或考點(diǎn)存在明顯的差異），因此，M3KE 在不同教育階段會包含相同的學(xué)科。為了提高數(shù)據(jù)集中學(xué)科知識點(diǎn)的覆蓋范圍，研究人員選擇了中國升學(xué)考試中的統(tǒng)考試題，包括小升初、中考、高考，研究生入學(xué)考試和中國公務(wù)員考試等真題題目。

2，覆蓋多學(xué)科領(lǐng)域

為提高數(shù)據(jù)集的學(xué)科覆蓋率，研究人員基于人文藝術(shù)、社會科學(xué)和自然科學(xué)三大類進(jìn)行構(gòu)建，包括：文學(xué)、理學(xué)，歷史、政治、法學(xué)、教育學(xué)、心理學(xué)、科學(xué)、工程技術(shù)、藝術(shù)等學(xué)科。為進(jìn)一步拓展數(shù)據(jù)集的豐富度，研究人員補(bǔ)充了中醫(yī)、宗教以及計算機(jī)等級考試等任務(wù)。

數(shù)據(jù)集統(tǒng)計

Table 3 顯示了 M3KE 的整體統(tǒng)計數(shù)據(jù)。上述四個學(xué)科類別中的任務(wù)數(shù)量分別為 12、21、31 和 7，而四個學(xué)科類別中的問題數(shù)量分別為 3,612、6,222、8,162 和 2,126。任務(wù)中包含的問題最大數(shù)量為 425，最小數(shù)量為 100。社會科學(xué)和自然科學(xué)的問題通常比藝術(shù)與人文學(xué)科和其他科目的問題更長，而它們的答案選項(xiàng)較短。

多學(xué)科視角下的 M3KE 介紹及示例

人文藝術(shù)

人文與藝術(shù)學(xué)科包括語文、藝術(shù)和歷史等多個領(lǐng)域的學(xué)科。這些學(xué)科注重對文學(xué)和文化文物的分析和解釋等，以小學(xué)語文為例，考試題目旨在評估 7 至 13 歲學(xué)生的語言運(yùn)用和文學(xué)欣賞能力，如使用同義詞和反義詞的能力。歷史學(xué)科則涵蓋從古代到現(xiàn)代的中國和世界歷史。除人文學(xué)科外，M3KE 還包括藝術(shù)科目，如舞蹈、美術(shù)、音樂、電影等，藝術(shù)是人類文化的重要組成部分，評測中文大模型在藝術(shù)領(lǐng)域的表現(xiàn)同樣重要。

美術(shù)任務(wù)示例：

下面關(guān)于拉斯科洞穴壁畫說法錯誤的是？

A. 這個壁畫是在法國發(fā)現(xiàn)的

B. 發(fā)現(xiàn)的動物形象有 100 多個

C. 發(fā)現(xiàn)的時間為 1940 年

D. 壁畫顏色以黑色為主

世界近現(xiàn)代史任務(wù)示例：

從尼德蘭革命到法國大革命歷時兩個多世紀(jì)，而此后僅半個世紀(jì)資本主義就初步形成了一個世界體系，這主要是因?yàn)椋?/span>

A. 法國大革命的影響得到廣泛傳播

B. 維也納體系激化了各國社會矛盾

C. 工業(yè)革命使資本主義力量迅速增強(qiáng)

D. 殖民統(tǒng)治遍及世界各大洲

社會科學(xué)

社會科學(xué)重在人文學(xué)科的應(yīng)用，如法律、政治、教育和心理等學(xué)科。政治課程貫穿初中、高中、大學(xué)、研究生多個教育階段，其他學(xué)科則主要分布在大學(xué)階段的課程中。社會科學(xué)還包括經(jīng)濟(jì)和管理學(xué)任務(wù)，這些任務(wù)的試題選自中國研究生入學(xué)考試中的經(jīng)濟(jì)學(xué)聯(lián)考和管理學(xué)聯(lián)考，知識涉及微觀經(jīng)濟(jì)學(xué)、宏觀經(jīng)濟(jì)學(xué)、管理學(xué)和邏輯學(xué)等。

刑法學(xué)任務(wù)示例：

甲欲殺乙，將毒藥投入乙的飯食中。乙服食后，甲后悔，趕緊說明情況，并將乙送往醫(yī)院。醫(yī)院在過程中檢查發(fā)現(xiàn)，甲所投放的 "毒藥" 根本沒有毒性，乙安然無恙。甲的行為屬于？

A. 不構(gòu)成犯罪

B. 犯罪未遂

C. 犯罪中止

D. 犯罪既遂

教育學(xué)原理任務(wù)示例：

教育研究中最基本、最常用的研究方法是？

A. 教育觀察研究

B. 教育調(diào)查研究

C. 教育測量研究

D. 教育實(shí)驗(yàn)研究

自然科學(xué)

自然科學(xué)包括工程學(xué)、科學(xué)、醫(yī)學(xué)和數(shù)學(xué)、物理學(xué)、化學(xué)、生物學(xué)等基礎(chǔ)學(xué)科。這些學(xué)科通常需要復(fù)雜的計算、分析和邏輯推理能力。在我國教育體系中，同一學(xué)科在不同階段會涉及不同類型的知識。例如，小學(xué)數(shù)學(xué)主要學(xué)習(xí)基本的算術(shù)運(yùn)算，而高中數(shù)學(xué)則涵蓋更高級的數(shù)學(xué)概念，如數(shù)列、導(dǎo)數(shù)、幾何等。

動物生理學(xué)任務(wù)示例：

使用普魯卡因麻醉神經(jīng)纖維，影響了神經(jīng)纖維傳導(dǎo)興奮的哪一項(xiàng)特征？

A. 生理完整性

B. 絕緣性

C. 雙向傳導(dǎo)性

D. 相對不疲勞性

操作系統(tǒng)任務(wù)示例：

目錄形式對文件的檢索效率影響很大，下列最高級的目錄形式是？

A. 單級目錄

B. 兩級目錄

C. 三級目錄

D. 樹形目錄

其它

其他類型的任務(wù)包括宗教、中國公務(wù)員考試，計算機(jī)等級考試等。這些任務(wù)需要的知識不局限于上述單一層次或?qū)W科的知識。如中國公務(wù)員考試涉及常識、人文、邏輯等知識，因此研究人員將這些任務(wù)視為對中文大模型綜合知識的評估。

中國公務(wù)員考試任務(wù)示例：

以前有幾項(xiàng)研究表明，食用巧克力會增加食用者患心臟病的可能性。而一項(xiàng)最新的、更為可靠的研究得出的結(jié)論是：食用巧克力與心臟病發(fā)病率無關(guān)。估計這項(xiàng)研究成果公布以后，巧克力的消費(fèi)量將會大大增加。上述推論基于以下哪項(xiàng)假設(shè)？

A. 盡管有些人知道食用巧克力會增加患心臟病的可能性，卻照樣大吃特吃

B. 人們從來也不相信進(jìn)食巧克力會更容易患心臟病的說法

C. 現(xiàn)在許多人吃巧克力是因?yàn)樗麄儧]有聽過巧克力會導(dǎo)致心臟病的說法

D. 現(xiàn)在許多人不吃巧克力完全是因?yàn)樗麄兿嘈徘煽肆T發(fā)心臟病

中醫(yī)學(xué)任務(wù)示例：

人參有大補(bǔ)元?dú)狻⒁鏆夤堂摰淖饔茫糜诼蕴撊跣约膊〕Ｒ院嗡幾鞔闷罚?/span>

丹參

黨參

黃芪

太子參

多教育階段視角下的 M3KE 介紹和示例

研究人員按照中國教育體系對數(shù)據(jù)集進(jìn)行了分階段，包括小學(xué)、初中、高中、大學(xué)及研究生入學(xué)考試。同樣，研究人員還選擇一些教育體系外的考試科目，如計算機(jī)等級考試和中國公務(wù)員考試等。

小學(xué)

小學(xué)語文任務(wù)示例：

下列詞語書寫完全正確的一項(xiàng)是？

A. 天籟之音行云流水筆走龍蛇翻箱倒柜

B. 高山流水輕歌曼舞畫龍點(diǎn)睛別出心栽

C. 余音繞梁巧奪天功妙筆生花焦躁不安

D. 黃鐘大呂惟妙惟肖栩栩如生精兵減政

小學(xué)數(shù)學(xué)任務(wù)示例：

一件商品，先提價 20%，以后又降價 20%，現(xiàn)在的價格與原來相比？

A. 提高了

B. 降低了

C. 不變

D. 不知道

初中

初中語文任務(wù)示例：

下列說法正確的一項(xiàng)是？

A. 《最苦與最樂》選自《梁啟超文選》，作者梁啟超是明代思想家、學(xué)者

B. 《鄒忌諷齊王納諫》選自《戰(zhàn)國策》，《戰(zhàn)國策》是戰(zhàn)國時游說之士的策謀和言論的匯編，由東漢的劉向編訂為三十三篇

C. 詞又稱 “長短句”，句式長短不一。興盛于宋代，蘇軾和辛棄疾是豪放派的代表人物，而李清照是婉約派的代表人物

D.《岳陽樓記》實(shí)際上是一篇借物言志的文章，寄寓了作者與民同樂的思想

初中政治任務(wù)示例：

班級要以 “崇尚法治精神” 為主題制作黑板報，小蘭負(fù)責(zé) “踐行平等” 版塊內(nèi)容的編寫。以下她搜集的素材適合入選的是？

A. 公交車上設(shè)有 “老弱病戲孕” 愛心專座

B. 中學(xué)生到革命傳統(tǒng)教育基地參加研學(xué)活動

C. 解放軍戰(zhàn)士不畏嚴(yán)寒酷暑，守衛(wèi)祖國邊疆

D. 同學(xué)們利用節(jié)假日到街頭清除小廣告

高中

高中語文任務(wù)示例：

沈括在《夢溪筆談》中說道：“天地之變，寒暑風(fēng)雨，水旱螟蝗，率皆有法。” 這句話的哲學(xué)寓意是？

A. 規(guī)律是客觀事物變化的根本原因

B. 規(guī)律具有客觀性、普遍性

C. 要學(xué)會用聯(lián)系的觀點(diǎn)看問題

D. 要學(xué)會用發(fā)展的觀點(diǎn)看問題

高中生物任務(wù)示例：

環(huán)境容納量取決于一個種群所處的環(huán)境條件。下列敘述正確的是？

甲乙兩地的灰喜鵲種群的環(huán)境容納量一定是相同的

生活在某草原的東亞飛蝗不同年份的環(huán)境容納量可能是相同的

當(dāng)種群數(shù)量接近環(huán)境容納量時，死亡率會升高，出生率不變

生活在微山湖中的鯽魚和黑魚環(huán)境容納量是相同的

大學(xué)

大學(xué)口腔醫(yī)學(xué)任務(wù)示例：

排在我國口腔癌之首的是？

A. 牙槽黏膜癌

B. 頰黏膜癌

C. 唇癌

D. 舌癌

大學(xué)經(jīng)濟(jì)學(xué)綜合任務(wù)示例：

下列項(xiàng)目哪一項(xiàng)應(yīng)計入 GDP？

A. 政府轉(zhuǎn)移支付

B. 購買一輛用過的汽車

C. 企業(yè)支付的貸款和債券利息

D. 購買彩票贏得的 1 萬元

其它

計算機(jī)等級考試之計算機(jī)基礎(chǔ)任務(wù)示例:

因某工作表數(shù)據(jù)非常多，在滾動瀏覽時第一行的標(biāo)題無法始終看到，應(yīng)如何操作才能始終看到標(biāo)題行，最快捷的方法是？

A. 設(shè)置 “打印標(biāo)題”

B. 凍結(jié)窗格

C. 凍結(jié)首行

D. 凍結(jié)首列

宗教任務(wù)示例：

宗教能夠與社會主義社會相適應(yīng)的政治基礎(chǔ)是？

A. 人民民主專政國家政權(quán)的建立

B. 廣大教徒是擁護(hù)社會主義制度的，同全國人民在根本利益上是一致的

C. 中國共產(chǎn)黨領(lǐng)導(dǎo)和執(zhí)政地位的確立

D. 獨(dú)立自主，自辦教會

實(shí)驗(yàn)

評測模型

GLM-335M/10B/130B，由清華大學(xué)開發(fā)的預(yù)訓(xùn)練大語言模型，支持中、英文雙語。研究人員選擇 GLM 中文版的三個模型，參數(shù)規(guī)模分別為 335M, 10B 和 130B。
BLOOM-7.1B，Hugging Face 推出的多語言大模型，由數(shù)百名研究人員合作開發(fā)。
ChatGLM-6B，由清華大學(xué)開發(fā)的語言模型，使用指令數(shù)據(jù)微調(diào)，并通過基于人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)一步訓(xùn)練。
MOSS-16B-SFT, 由復(fù)旦大學(xué)開發(fā)的語言模型，實(shí)驗(yàn)中使用經(jīng)過指令微調(diào)版的 MOSS-moon-003-SFT 版本。
BELLE-7B-0.2M，基于 BLOOMZ-7.1B-mt 開發(fā)的經(jīng)過 20 萬條指令微調(diào)的語言模型。
BELLE-7B-2M，基于 BLOOMZ-7.1B-mt 開發(fā)的經(jīng)過 200 萬條指令微調(diào)的語言模型。
GPT-3.5-turbo，由 OpenAI 開發(fā)的語言模型。采用人工構(gòu)建的高質(zhì)量指令數(shù)據(jù)，進(jìn)行人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練。

Zero-shot/Few-shot 評估

在零樣本設(shè)置條件下，模型要求直接回答問題；在少樣本設(shè)置條件下，會預(yù)先給定模型同任務(wù)的若干示例，引導(dǎo)模型進(jìn)行情景學(xué)習(xí)（In-Context Learning）。在 M3KE 中，所有題目均使用準(zhǔn)確率計算得分。

不同學(xué)科類別下的評測結(jié)果

不同教育階段下的評測結(jié)果

實(shí)驗(yàn)結(jié)果分析

1，在零樣本評估中（Table 4&6），所有參數(shù)小于 10B 的預(yù)訓(xùn)練語言模型（未經(jīng)過微調(diào)）準(zhǔn)確率都低于隨機(jī)結(jié)果（25%），少樣本的設(shè)置（Table 5&7）有助于模型性能的提升。但是，GLM130B 在零樣本評估的結(jié)果好于少樣本評估結(jié)果，原因可能是 GLM130B 在預(yù)訓(xùn)練階段已經(jīng)使用了部分指令數(shù)據(jù)，使其已經(jīng)具備較好的零樣本學(xué)習(xí)能力。

2，大部分經(jīng)過微調(diào)后的中文大模型僅達(dá)到隨機(jī)結(jié)果（25%）水平，即使在小學(xué)階段的測試中（Table 6&7）。這說明較低教育階段中的知識仍然是當(dāng)前中文大模型的短板之一。

3，在零樣本評估中，BELLE-7B-2M 取得了中文大模型中最好的成績，但仍然與 GPT-3.5-turbo 有 14.8% 的差距。此外，有監(jiān)督微調(diào)指令的數(shù)量也是一個重要的因素，經(jīng)過兩百萬指令微調(diào)的 BELLE-7B-2M 好于經(jīng)過二十萬指令微調(diào)的 BELLE-7B-0.2M（Table 4）。

4，少樣本的設(shè)置在大多數(shù)情況下并沒有帶來性能的改善（Table 5&7 vs Table 4&6），尤其是經(jīng)過指令微調(diào)或基于人類反饋的強(qiáng)化學(xué)習(xí)訓(xùn)練后的語言模型。這表明對預(yù)訓(xùn)練語言模型進(jìn)行指令微調(diào)可以顯著提升語言模型的零樣本學(xué)習(xí)能力，不需要額外的示例就能理解指令或問題的意圖。

結(jié)論

研究人員提出了一個新的基準(zhǔn) M3KE，用于評估中文大模型在多個學(xué)科和不同教育階段下中文大模型知識掌握能力。M3KE 包含 71 個任務(wù)和 20,447 個問題。研究人員發(fā)現(xiàn)，所有參與評估的開源中文大模型都明顯落后于 GPT-3.5。研究人員希望 M3KE 有助于發(fā)現(xiàn)中文大模型的知識漏洞，促進(jìn)中文大模型進(jìn)一步的發(fā)展。

M3KE 中所有的任務(wù)