行業首個少樣本NER數據集,清華聯合阿里達摩院開發
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
NER(命名實體識別)作為NLP的一項基本任務,其日常是訓練人工智能(zhang)對一段文本中的專有名詞(人名、地名、機構名等)進行識別和分類。
△煙臺:我招誰惹誰了?
翻譯成計算機語言,就是從一段非結構化的自然語言中找到各種實體,并將其分為合適的類別。且避免出現“江大橋同志到底就任了多少年南京市長”這樣的問題
但在數據缺乏,樣本不足的前提下,如何基于先驗知識進行分類和學習,這就是目前NLPer面臨的一道難題——少樣本(Few-Shot)。
雖然已有越來越多針對少樣本NER的研究出現(比如預訓練語言模型BERT),但仍沒有一個專屬數據集以供使用。
而現在,共包含來自維基百科的18萬條句子,49萬個實體和460萬標注,并具有8個粗粒度(coarse-grained types)實體類型和66個細粒度(fine-grained types)實體類型的數據集來了。
△目前已被ACL-IJCNLP 2021接受
這就是清華大學聯合阿里達摩院共同開發的,行業內第一個人工標注(human-annotated)的少樣本NER數據集,FEW-NERD。
什么樣的數據集?
對比句子數量、標記數、實體類型等統計數據,FEW-NERD比相關領域內已有的NER數據集都要更大。

此外,它也是規模最大的人工標注的數據集。
為實體命名常常需要聯系上下文,尤其是在實體類型很多時,注解難度將大大增加。
而FEW-NERD的注釋來自70位擁有語言學知識的注釋者,以及10位經驗豐富的專家。
具體而言,每個段落會交由兩人獨立完成注釋,然后由專家審查,再對分批抽取數據進行雙重檢查。這很好地保證了注釋的準確性。

比如上述“London is the fifth album by the British rock band…”這句話中的實體“London”,就被準確標注成了“Art-Music”。
而在以段落為單位進行標注時,因為樣本量并不多,所以FEW-NERD數據的類別分布預計是相對平衡的,這也是它與以往NER數據集的一個關鍵區別。
并且在實踐中,大多數未見的實體類型都是細粒度的。而傳統的NER數據集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18個粗粒度的類型。
這就難以構建足夠多的N元任務(N-way metatasks),并訓練學習相關特征。
相比之下,FEW-NERD共包含了112個實體標簽, 并具有8個粗粒度實體類型,和66個細粒度實體類型。
△內圈代表粗粒度的實體類型,外圈代表細粒度的實體類型。
基準的選擇
為了探索FEW-NERD所有實體類型之間的知識相關性(knowledge correlations),研究者進行了實體類型相似性的實證研究。

△方塊代表兩個實體類型的相似度。
從實驗結果得知,相同粗粒度類型的實體類型具有較大的相似性,從而使知識遷移更加容易。
這啟發了研究者從知識遷移的角度進行基準設定。最終設置了三個基準:
- FEW-NERD (SUP)
采用標準的監督式NER設置,將70%的數據隨機分割為訓練數據,10%為驗證數據,20%為測試數據。

- FEW-NERD(INTRA)
少樣本學習任務,只包含粗粒度實體類型。

- FEW-NRTD (INTER)
少樣本學習任務,包含60%的細粒度類型,20%的細粒度類型。

實際的應用
針對少樣本命名實體識別,FEW-NERD提供了一個同時包含粗粒度和細粒度,且統一基準的大型數據集。
而作者也指出,由于精確的上下文標注,FEW-NERD數據集不僅可以用于少樣本場景,在監督學習、終身學習、開放信息抽取、實體分類等任務上也可以發揮作用。
此外,建立在FEW-NERD基礎上的模型和系統,還能幫助構建各個領域的知識圖譜(KGs),包括生物醫學、金融和法律領域,并進一步促進NLP在特定領域的應用發展。
開發者還表示,將在未來增加跨域注釋、遠距離注釋和更精細的實體類型來擴展FEW-NERD。
數據集官網鏈接:
https://ningding97.github.io/fewnerd/
數據集下載:
https://github.com/thunlp/Few-NERD
論文地址:
https://arxiv.org/abs/2105.07464