成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

將入學(xué)考試題搬進(jìn)中文大模型數(shù)據(jù)集,20477道題目,還帶4個候選答案

人工智能 新聞
本文提出了 M3KE 基準(zhǔn)數(shù)據(jù)集,以零樣本、少樣本形式測試中文大模型對于多級多學(xué)科知識的掌握能力。

隨著中文大規(guī)模語言模型在自然語言理解與自然語言生成方面展現(xiàn)出強(qiáng)大的性能,現(xiàn)有針對特定自然語言處理任務(wù)的中文評測基準(zhǔn)數(shù)據(jù)集已經(jīng)不足以對中文大模型進(jìn)行有效地評估。傳統(tǒng)的中文評測基準(zhǔn)主要關(guān)注模型對于簡單常識(如雨天出門需要帶傘)和表層語義(如籃球比賽的報道是體育類還是科技類新聞)的理解能力,而忽略了人類復(fù)雜知識的挖掘和利用。目前,針對中文大模型復(fù)雜知識評測的數(shù)據(jù)集十分匱乏,特別是涉及我國教育體系下不同層次和不同領(lǐng)域的專業(yè)知識。

為了彌補(bǔ)這一差距,天津大學(xué)自然語言處理實(shí)驗(yàn)室與華為諾亞方舟實(shí)驗(yàn)室聯(lián)合發(fā)布了 M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基準(zhǔn)數(shù)據(jù)集,以零樣本、少樣本形式測試中文大模型對于多級多學(xué)科知識的掌握能力。

圖片


  • 論文鏈接:https://arxiv.org/abs/2305.10263
  • 數(shù)據(jù)鏈接:https://github.com/tjunlp-lab/M3KE

M3KE 數(shù)據(jù)集

數(shù)據(jù)集介紹

M3KE 收集了 20,477 個真人標(biāo)準(zhǔn)化考試題目(包含 4 個候選答案),覆蓋 71 個任務(wù),包括小學(xué)、初中、高中、大學(xué)、研究生入學(xué)考試題目,涉及人文、歷史、政治、法律、教育、心理學(xué)、科學(xué)、工程技術(shù)、藝術(shù)等學(xué)科,分布如 Fig 1 所示。

圖片

研究人員基于兩個標(biāo)準(zhǔn)構(gòu)建 M3KE 數(shù)據(jù)集:

1,契合中國教育體系,覆蓋多教育階段

研究人員模仿中國學(xué)生的教育經(jīng)歷,即小學(xué)、初中、高中、大學(xué)等主要教育階段,旨在評估中文大模型在不同教育階段下的表現(xiàn)。由于每個教育階段需要掌握的知識點(diǎn)不同(例如,在語文學(xué)科中,小學(xué)和初中的知識或考點(diǎn)存在明顯的差異),因此,M3KE 在不同教育階段會包含相同的學(xué)科。為了提高數(shù)據(jù)集中學(xué)科知識點(diǎn)的覆蓋范圍,研究人員選擇了中國升學(xué)考試中的統(tǒng)考試題,包括小升初、中考、高考,研究生入學(xué)考試和中國公務(wù)員考試等真題題目。

2,覆蓋多學(xué)科領(lǐng)域

為提高數(shù)據(jù)集的學(xué)科覆蓋率,研究人員基于人文藝術(shù)、社會科學(xué)和自然科學(xué)三大類進(jìn)行構(gòu)建,包括:文學(xué)、理學(xué),歷史、政治、法學(xué)、教育學(xué)、心理學(xué)、科學(xué)、工程技術(shù)、藝術(shù)等學(xué)科。為進(jìn)一步拓展數(shù)據(jù)集的豐富度,研究人員補(bǔ)充了中醫(yī)、宗教以及計算機(jī)等級考試等任務(wù)。

數(shù)據(jù)集統(tǒng)計

Table 3 顯示了 M3KE 的整體統(tǒng)計數(shù)據(jù)。上述四個學(xué)科類別中的任務(wù)數(shù)量分別為 12、21、31 和 7,而四個學(xué)科類別中的問題數(shù)量分別為 3,612、6,222、8,162 和 2,126。任務(wù)中包含的問題最大數(shù)量為 425,最小數(shù)量為 100。社會科學(xué)和自然科學(xué)的問題通常比藝術(shù)與人文學(xué)科和其他科目的問題更長,而它們的答案選項(xiàng)較短。

圖片

多學(xué)科視角下的 M3KE 介紹及示例

人文藝術(shù)

人文與藝術(shù)學(xué)科包括語文、藝術(shù)和歷史等多個領(lǐng)域的學(xué)科。這些學(xué)科注重對文學(xué)和文化文物的分析和解釋等,以小學(xué)語文為例,考試題目旨在評估 7 至 13 歲學(xué)生的語言運(yùn)用和文學(xué)欣賞能力,如使用同義詞和反義詞的能力。歷史學(xué)科則涵蓋從古代到現(xiàn)代的中國和世界歷史。除人文學(xué)科外,M3KE 還包括藝術(shù)科目,如舞蹈、美術(shù)、音樂、電影等,藝術(shù)是人類文化的重要組成部分,評測中文大模型在藝術(shù)領(lǐng)域的表現(xiàn)同樣重要。

美術(shù)任務(wù)示例:

下面關(guān)于拉斯科洞穴壁畫說法錯誤的是?

A. 這個壁畫是在法國發(fā)現(xiàn)的

B. 發(fā)現(xiàn)的動物形象有 100 多個

C. 發(fā)現(xiàn)的時間為 1940 年

D. 壁畫顏色以黑色為主

世界近現(xiàn)代史任務(wù)示例:

從尼德蘭革命到法國大革命歷時兩個多世紀(jì),而此后僅半個世紀(jì)資本主義就初步形成了一個世界體系,這主要是因?yàn)椋?/span>

A. 法國大革命的影響得到廣泛傳播

B. 維也納體系激化了各國社會矛盾

C. 工業(yè)革命使資本主義力量迅速增強(qiáng)

D. 殖民統(tǒng)治遍及世界各大洲

社會科學(xué)

社會科學(xué)重在人文學(xué)科的應(yīng)用,如法律、政治、教育和心理等學(xué)科。政治課程貫穿初中、高中、大學(xué)、研究生多個教育階段,其他學(xué)科則主要分布在大學(xué)階段的課程中。社會科學(xué)還包括經(jīng)濟(jì)和管理學(xué)任務(wù),這些任務(wù)的試題選自中國研究生入學(xué)考試中的經(jīng)濟(jì)學(xué)聯(lián)考和管理學(xué)聯(lián)考,知識涉及微觀經(jīng)濟(jì)學(xué)、宏觀經(jīng)濟(jì)學(xué)、管理學(xué)和邏輯學(xué)等。

刑法學(xué)任務(wù)示例:

甲欲殺乙,將毒藥投入乙的飯食中。乙服食后,甲后悔,趕緊說明情況,并將乙送往醫(yī)院。醫(yī)院在過程中檢查發(fā)現(xiàn),甲所投放的 "毒藥" 根本沒有毒性,乙安然無恙。甲的行為屬于?

A. 不構(gòu)成犯罪

B. 犯罪未遂

C. 犯罪中止

D. 犯罪既遂

教育學(xué)原理任務(wù)示例:

教育研究中最基本、最常用的研究方法是?

A. 教育觀察研究

B. 教育調(diào)查研究

C. 教育測量研究

D. 教育實(shí)驗(yàn)研究

自然科學(xué)

自然科學(xué)包括工程學(xué)、科學(xué)、醫(yī)學(xué)和數(shù)學(xué)、物理學(xué)、化學(xué)、生物學(xué)等基礎(chǔ)學(xué)科。這些學(xué)科通常需要復(fù)雜的計算、分析和邏輯推理能力。在我國教育體系中,同一學(xué)科在不同階段會涉及不同類型的知識。例如,小學(xué)數(shù)學(xué)主要學(xué)習(xí)基本的算術(shù)運(yùn)算,而高中數(shù)學(xué)則涵蓋更高級的數(shù)學(xué)概念,如數(shù)列、導(dǎo)數(shù)、幾何等。

動物生理學(xué)任務(wù)示例:

使用普魯卡因麻醉神經(jīng)纖維,影響了神經(jīng)纖維傳導(dǎo)興奮的哪一項(xiàng)特征?

A. 生理完整性

B. 絕緣性

C. 雙向傳導(dǎo)性

D. 相對不疲勞性

操作系統(tǒng)任務(wù)示例:

目錄形式對文件的檢索效率影響很大,下列最高級的目錄形式是?

A. 單級目錄

B. 兩級目錄

C. 三級目錄

D. 樹形目錄

其它

其他類型的任務(wù)包括宗教、中國公務(wù)員考試,計算機(jī)等級考試等。這些任務(wù)需要的知識不局限于上述單一層次或?qū)W科的知識。如中國公務(wù)員考試涉及常識、人文、邏輯等知識,因此研究人員將這些任務(wù)視為對中文大模型綜合知識的評估。

中國公務(wù)員考試任務(wù)示例:

以前有幾項(xiàng)研究表明,食用巧克力會增加食用者患心臟病的可能性。而一項(xiàng)最新的、更為可靠的研究得出的結(jié)論是:食用巧克力與心臟病發(fā)病率無關(guān)。估計這項(xiàng)研究成果公布以后,巧克力的消費(fèi)量將會大大增加。上述推論基于以下哪項(xiàng)假設(shè)?

A. 盡管有些人知道食用巧克力會增加患心臟病的可能性,卻照樣大吃特吃

B. 人們從來也不相信進(jìn)食巧克力會更容易患心臟病的說法

C. 現(xiàn)在許多人吃巧克力是因?yàn)樗麄儧]有聽過巧克力會導(dǎo)致心臟病的說法

D. 現(xiàn)在許多人不吃巧克力完全是因?yàn)樗麄兿嘈徘煽肆T發(fā)心臟病

中醫(yī)學(xué)任務(wù)示例:

人參有大補(bǔ)元?dú)狻⒁鏆夤堂摰淖饔茫糜诼蕴撊跣约膊〕R院嗡幾鞔闷罚?/span>

丹參

黨參

黃芪

太子參

多教育階段視角下的 M3KE 介紹和示例

研究人員按照中國教育體系對數(shù)據(jù)集進(jìn)行了分階段,包括小學(xué)、初中、高中、大學(xué)及研究生入學(xué)考試。同樣,研究人員還選擇一些教育體系外的考試科目,如計算機(jī)等級考試和中國公務(wù)員考試等。

小學(xué)

小學(xué)語文任務(wù)示例:

下列詞語書寫完全正確的一項(xiàng)是?

A. 天籟之音   行云流水   筆走龍蛇   翻箱倒柜

B. 高山流水   輕歌曼舞   畫龍點(diǎn)睛   別出心栽

C. 余音繞梁   巧奪天功   妙筆生花   焦躁不安

D. 黃鐘大呂   惟妙惟肖   栩栩如生   精兵減政

小學(xué)數(shù)學(xué)任務(wù)示例:

一件商品,先提價 20%,以后又降價 20%,現(xiàn)在的價格與原來相比?

A. 提高了

B. 降低了

C. 不變

D. 不知道

初中

初中語文任務(wù)示例:

下列說法正確的一項(xiàng)是?

A. 《最苦與最樂》選自《梁啟超文選》,作者梁啟超是明代思想家、學(xué)者

B. 《鄒忌諷齊王納諫》選自《戰(zhàn)國策》,《戰(zhàn)國策》是戰(zhàn)國時游說之士的策謀和言論的匯編,由東漢的劉向編訂為三十三篇

C. 詞又稱 “長短句”,句式長短不一。興盛于宋代,蘇軾和辛棄疾是豪放派的代表人物,而李清照是婉約派的代表人物

D.《岳陽樓記》實(shí)際上是一篇借物言志的文章,寄寓了作者與民同樂的思想

初中政治任務(wù)示例:

班級要以 “崇尚法治精神” 為主題制作黑板報,小蘭負(fù)責(zé) “踐行平等” 版塊內(nèi)容的編寫。以下她搜集的素材適合入選的是?

A. 公交車上設(shè)有 “老弱病戲孕” 愛心專座

B. 中學(xué)生到革命傳統(tǒng)教育基地參加研學(xué)活動

C. 解放軍戰(zhàn)士不畏嚴(yán)寒酷暑,守衛(wèi)祖國邊疆

D. 同學(xué)們利用節(jié)假日到街頭清除小廣告

高中

高中語文任務(wù)示例:

沈括在《夢溪筆談》中說道:“天地之變,寒暑風(fēng)雨,水旱螟蝗,率皆有法。” 這句話的哲學(xué)寓意是?

A. 規(guī)律是客觀事物變化的根本原因

B. 規(guī)律具有客觀性、普遍性  

C. 要學(xué)會用聯(lián)系的觀點(diǎn)看問題     

D. 要學(xué)會用發(fā)展的觀點(diǎn)看問題

高中生物任務(wù)示例:

環(huán)境容納量取決于一個種群所處的環(huán)境條件。下列敘述正確的是?

甲乙兩地的灰喜鵲種群的環(huán)境容納量一定是相同的

生活在某草原的東亞飛蝗不同年份的環(huán)境容納量可能是相同的

當(dāng)種群數(shù)量接近環(huán)境容納量時,死亡率會升高,出生率不變

生活在微山湖中的鯽魚和黑魚環(huán)境容納量是相同的

大學(xué)

大學(xué)口腔醫(yī)學(xué)任務(wù)示例:

排在我國口腔癌之首的是?

A. 牙槽黏膜癌

B. 頰黏膜癌

C. 唇癌

D. 舌癌

大學(xué)經(jīng)濟(jì)學(xué)綜合任務(wù)示例:

下列項(xiàng)目哪一項(xiàng)應(yīng)計入 GDP?

A. 政府轉(zhuǎn)移支付

B. 購買一輛用過的汽車

C. 企業(yè)支付的貸款和債券利息

D. 購買彩票贏得的 1 萬元

其它

計算機(jī)等級考試之計算機(jī)基礎(chǔ)任務(wù)示例:

因某工作表數(shù)據(jù)非常多,在滾動瀏覽時第一行的標(biāo)題無法始終看到,應(yīng)如何操作才能始終看到標(biāo)題行,最快捷的方法是?

A. 設(shè)置 “打印標(biāo)題”

B. 凍結(jié)窗格

C. 凍結(jié)首行

D. 凍結(jié)首列

宗教任務(wù)示例:

宗教能夠與社會主義社會相適應(yīng)的政治基礎(chǔ)是?

A. 人民民主專政國家政權(quán)的建立

B. 廣大教徒是擁護(hù)社會主義制度的,同全國人民在根本利益上是一致的

C. 中國共產(chǎn)黨領(lǐng)導(dǎo)和執(zhí)政地位的確立

D. 獨(dú)立自主,自辦教會

實(shí)驗(yàn)

評測模型

  • GLM-335M/10B/130B,由清華大學(xué)開發(fā)的預(yù)訓(xùn)練大語言模型,支持中、英文雙語。研究人員選擇 GLM 中文版的三個模型,參數(shù)規(guī)模分別為 335M, 10B 和 130B。
  • BLOOM-7.1B,Hugging Face 推出的多語言大模型,由數(shù)百名研究人員合作開發(fā)。
  • ChatGLM-6B,由清華大學(xué)開發(fā)的語言模型,使用指令數(shù)據(jù)微調(diào),并通過基于人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)一步訓(xùn)練。
  • MOSS-16B-SFT, 由復(fù)旦大學(xué)開發(fā)的語言模型,實(shí)驗(yàn)中使用經(jīng)過指令微調(diào)版的 MOSS-moon-003-SFT 版本。
  • BELLE-7B-0.2M,基于 BLOOMZ-7.1B-mt 開發(fā)的經(jīng)過 20 萬條指令微調(diào)的語言模型。
  • BELLE-7B-2M,基于 BLOOMZ-7.1B-mt 開發(fā)的經(jīng)過 200 萬條指令微調(diào)的語言模型。
  • GPT-3.5-turbo,由 OpenAI 開發(fā)的語言模型。采用人工構(gòu)建的高質(zhì)量指令數(shù)據(jù),進(jìn)行人類反饋強(qiáng)化學(xué)習(xí)訓(xùn)練。

Zero-shot/Few-shot 評估

在零樣本設(shè)置條件下,模型要求直接回答問題;在少樣本設(shè)置條件下,會預(yù)先給定模型同任務(wù)的若干示例,引導(dǎo)模型進(jìn)行情景學(xué)習(xí)(In-Context Learning)。在 M3KE 中,所有題目均使用準(zhǔn)確率計算得分。

不同學(xué)科類別下的評測結(jié)果

圖片


圖片

不同教育階段下的評測結(jié)果

圖片

實(shí)驗(yàn)結(jié)果分析

1,在零樣本評估中(Table 4&6),所有參數(shù)小于 10B 的預(yù)訓(xùn)練語言模型(未經(jīng)過微調(diào))準(zhǔn)確率都低于隨機(jī)結(jié)果(25%),少樣本的設(shè)置(Table 5&7)有助于模型性能的提升。但是,GLM130B 在零樣本評估的結(jié)果好于少樣本評估結(jié)果,原因可能是 GLM130B 在預(yù)訓(xùn)練階段已經(jīng)使用了部分指令數(shù)據(jù),使其已經(jīng)具備較好的零樣本學(xué)習(xí)能力。

2,大部分經(jīng)過微調(diào)后的中文大模型僅達(dá)到隨機(jī)結(jié)果(25%)水平,即使在小學(xué)階段的測試中(Table 6&7)。這說明較低教育階段中的知識仍然是當(dāng)前中文大模型的短板之一。

3,在零樣本評估中,BELLE-7B-2M 取得了中文大模型中最好的成績,但仍然與 GPT-3.5-turbo 有 14.8% 的差距。此外,有監(jiān)督微調(diào)指令的數(shù)量也是一個重要的因素,經(jīng)過兩百萬指令微調(diào)的 BELLE-7B-2M 好于經(jīng)過二十萬指令微調(diào)的 BELLE-7B-0.2M(Table 4)。

4,少樣本的設(shè)置在大多數(shù)情況下并沒有帶來性能的改善(Table 5&7 vs Table 4&6),尤其是經(jīng)過指令微調(diào)或基于人類反饋的強(qiáng)化學(xué)習(xí)訓(xùn)練后的語言模型。這表明對預(yù)訓(xùn)練語言模型進(jìn)行指令微調(diào)可以顯著提升語言模型的零樣本學(xué)習(xí)能力,不需要額外的示例就能理解指令或問題的意圖。

結(jié)論

研究人員提出了一個新的基準(zhǔn) M3KE,用于評估中文大模型在多個學(xué)科和不同教育階段下中文大模型知識掌握能力。M3KE 包含 71 個任務(wù)和 20,447 個問題。研究人員發(fā)現(xiàn),所有參與評估的開源中文大模型都明顯落后于 GPT-3.5。研究人員希望 M3KE 有助于發(fā)現(xiàn)中文大模型的知識漏洞,促進(jìn)中文大模型進(jìn)一步的發(fā)展。

M3KE 中所有的任務(wù)

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2009-09-29 09:22:00

CCNA考試題目分析CCNA

2009-10-10 15:36:00

CCNA考試題目CCNA

2023-05-24 09:52:05

模型測試

2011-06-13 15:22:13

WPS金山軟件

2011-05-24 09:19:42

seo

2025-06-27 08:47:12

2018-02-25 16:35:32

前端CSS面試題

2010-08-11 09:29:25

FlexJava數(shù)據(jù)模型

2009-09-15 14:27:57

CCNA考試題型

2009-09-27 10:41:38

CCNA認(rèn)證

2025-07-02 09:17:13

2023-11-09 16:13:00

TypeScript前端

2019-05-15 16:45:13

SpringBoot面試題Java

2023-12-04 13:51:00

模型數(shù)據(jù)

2009-05-22 12:37:02

軟考真題答案

2024-01-03 18:53:13

語言模型LLM

2024-05-31 14:23:15

2024-02-04 12:22:47

AI數(shù)據(jù)

2023-09-26 22:19:36

Java限流器

2023-11-27 16:11:14

Web 開發(fā)HTML
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久久久久国产精品免费 | 91久久综合亚洲鲁鲁五月天 | 欧美日韩在线一区 | 日日日日日日bbbbb视频 | 一本大道久久a久久精二百 欧洲一区二区三区 | 欧美精品第一页 | 黄色毛片免费视频 | 日韩在线视频播放 | 日韩午夜场| 91视频大全 | 国产精品久久久久久久久久免费看 | 午夜精品久久久久久久久久久久久 | 精品不卡| 天天干夜夜操 | 欧美日高清视频 | 超碰在线亚洲 | 精品国产乱码久久久久久蜜柚 | 国产精品乱码一二三区的特点 | 911精品美国片911久久久 | 久久久久久a| 国产成人精品一区二区 | 九九热热九九 | 亚洲毛片在线观看 | 亚洲人精品午夜 | 国产福利91精品 | 成人免费网站 | 日韩日韩日韩日韩日韩日韩日韩 | 亚洲欧美精品 | 国产福利观看 | 国产精品精品久久久 | 又黑又粗又长的欧美一区 | 天堂久久一区 | 婷婷色国产偷v国产偷v小说 | 欧美mv日韩mv国产网站91进入 | 欧美日韩三区 | 欧美一级淫片免费视频黄 | 水蜜桃久久夜色精品一区 | 喷水毛片 | 亚洲精品aⅴ | 久久久亚洲 | 黄色一级毛片 |