成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國內外頂尖高校聯合發布首個「新冠NLP數據集」METS-CoV|NeurIPS 2022

新聞
對新冠的研究仍在繼續!在本文中,研究者構建了首個面向新冠相關推文的醫學實體識別和情感分析數據集METS-CoV,該數據集從醫學研究的角度構建。

來自浙江大學、北京大學、哈佛醫學院、劍橋大學及西湖大學的交叉研究團隊在NeurIPS 2022 Datasets and Benchmarks 發布數據集METS-CoV,是首個從醫學角度標注新冠社交媒體文本的命名實體(NER)和目標實體情感分析(TSA)的數據,可幫助研究人員使用自然語言處理模型從社交媒體文本中挖掘更有價值的醫學信息。

圖片

發表會議:NeurIPS 2022

論文地址:https://arxiv.org/abs/2209.13773

GitHub地址:https://github.com/YLab-Open/METS-CoV

實驗室主頁:https://ylab.top

引言

近年來,新冠肺炎(COVID-19)的爆發對人們的生活產生了嚴重影響,給公共衛生安全帶來了巨大挑戰。為了評估疫情對公眾的影響,流行病學專家及醫學研究人員一般通過臨床隨訪、問卷調查和應用程序跟蹤等方式開展研究,但仍存在樣本規模小和即時性差等問題。

而社交媒體由于用戶群龐大、用戶參與度高且信息傳播速度快,已成為公眾發表其對新冠相關話題的評論和感受的重要渠道,使得開展大規模、低成本的新冠疫情追蹤研究成為可能。

進一步地,通過社交媒體平臺(如Twitter)跟蹤和分析人們的觀點,可以推動醫學研究的發展及公共衛生管理政策的指定,因此具有極大的研究價值。

然而,現有自然語言處理(NLP)工具一般面向通用領域開發,對文本的質量有著較為嚴格的要求,而社交媒體文本不同于正式文本,一般并不遵循嚴格的排版和語言規則,語言風格更加隨意,這加大了現有NLP工具的分析難度,導致其準確性下降。

此外,現有的NLP工具并非專門為醫學或公共衛生研究而設計,因此難以滿足流行病學專家對于新冠相關主題分析的需求。

換言之,目前NLP工具之所以在新冠相關社交媒體文本上表現不佳,其根本原因在于缺乏從醫學角度設計和標注的新冠相關社交媒體文本數據集。

另一方面,對于在社交媒體文本上開展的新冠相關研究,最重要的分析目標之一是找到用戶討論的實體(包括通用實體類型和醫學實體類型)及對它們的觀點或態度。

對應于兩個基本的NLP任務:命名實體識別(NER)和目標實體情感分析(TSA)。

NER旨在從非結構化文本中提取實體信息,而TSA旨在預測用戶對目標實體的情感極性。盡管目前已有不少面向通用領域或者特定領域如新聞、電商的NER和TSA數據集,但面向醫療領域社交媒體文本的數據集仍然空缺,這也加大了在社交媒體文本上進行細粒度分析并開展新冠相關研究的難度。

圖片

在本文中,來自浙江大學、北京大學、哈佛醫學院、劍橋大學及西湖大學的交叉研究團隊在NeurIPS 2022 Datasets and Benchmarks 發布數據集METS-CoV,是首個從醫學角度標注新冠社交媒體文本的命名實體(NER)和目標實體情感分析(TSA)的數據,旨在幫助研究人員使用自然語言處理模型從社交媒體文本中挖掘更有價值的醫學信息。

該數據集包含10,000條推文,對4種醫學實體類型(疾病、藥物、癥狀和疫苗)和3種通用實體類型(人、地點和組織)進行了人工標注。

此外,為了研究用戶對特定實體的態度,標注人員還對人、組織、藥物和疫苗四種實體的情感極性進行了標注。

與其他NER和TSA數據集不同,METS-CoV是從公共衛生研究的角度構建的,有助于自然語言處理工具在醫療領域的定制化開發,從而促進計算社會科學(特別是流行病學)研究的開展。

例如,使用基于METS-CoV數據集訓練的NER和TSA模型,研究人員可以追蹤公眾對新冠疫苗接種的態度,以制定更有效的疫苗政策;可以追蹤公眾在新冠傳播的不同階段的心理狀況,提供解決全球心理健康危機的潛在解決方案等。

為了保證數據集的質量,研究者設計了詳細的標注指南,使用的標注人員均具有醫學相關教育背景。

進一步地,基于METS-CoV數據集,研究者對NER和TSA任務上所采用的經典機器學習模型和最先進的深度學習模型進行了性能基準測試。測試結果表明,現有模型在METS-CoV數據集上還有較大的提升空間。

數據集描述

數據收集與標注

研究者收集了從2020年2月1日到2021年9月30日期間用戶發表的新冠推文,所有推文均通過Twitter的官方API獲取,嚴格遵守平臺的數據安全政策。

在進行數據預處理時,研究者首先刪除了非英語推文、轉推以及包含URL的推文(它們通常是第三方消息的重述,不能直接反映用戶的意圖和態度),然后,使用癥狀關鍵詞列表來篩選與醫學相關的推文。預處理完成后,還剩下2,208,676條推文。

METS-CoV的標注過程可以劃分為兩個階段:命名實體標注和目標實體情感標注。相應的,METS-CoV數據集可以按照任務類型劃分為兩個數據子集,即METS-CoV-NER數據集和METS-CoV-TSA數據集。

所有標注工作均通過YEDDA標注平臺(https://github.com/jiesutd/YEDDA)完成,所有的標注者都具有醫學教育背景,如醫學、公共衛生和制藥科學等。

在進行命名實體標注時,研究者首先根據公共衛生研究的需求,定義了 7 種實體類型,包括 3 種通用實體類型和 4 種醫學實體類型,接著,從預處理的推文中隨機采樣了 6,000 條推文進行命名實體標注。

然后使用這 6,000 條已標注數據訓練基于 BERT 的命名實體識別模型,由該模型完成其余推文的標注。為了在數據集中包括更多的醫學實體,研究者從模型標注的推文中篩選了 4,000 條包含藥物或疫苗實體的推文,由標注人員進行人工校驗并加入到數據集中。

最終,構建好的METS-CoV-NER數據集中一共包含了 10,000 條推文。

進一步地,研究者選擇了人、組織、藥物和疫苗四種實體作為目標實體并從METS-CoV-NER數據集中篩選出包含目標實體的推文,標注人員根據目標實體所在的上下文標注其情感極性。

情感極性標簽一共有3種:積極、消極和中性。最終,METS-CoV-TSA數據集中一共包含5,278條推文。

數據集統計信息

大多數推文的長度都小于80個token。其中,長度為50左右的推文占比最高。

圖片

METS-CoV中推文長度的分布情況

推文總數為10,000條, 一共標注了19,057個實體,平均每個推文中包含了1.91個實體。在所有實體中,癥狀實體的出現頻率最高,這是由于在預處理階段使用了癥狀關鍵詞列表進行數據預過濾。

除了癥狀實體以外,其他六種實體類型的比例均衡。

圖片

METS-CoV-NER數據集的統計信息

在METS-CoV-TSA數據集的統計信息中可以發現,中性情感占據的比例最高。對于藥物實體來說,用戶的正面情感明顯高于負面情感,而對于疫苗實體,用戶的正負面情感比例相近。

模型基準測試

在本文中,研究者系統評估了統計機器學習模型、神經網絡、通用領域大規模預訓練語言模型(PLM)以及新冠相關的PLM四大類模型在METS-CoV-NER和METS-CoV-TSA上的性能,并進行了深入的分析和討論。

命名實體識別

baseline模型

包括CRF、WLSTM、CCNN、CLSTM、BERT、RoBERTa、BART、BERTweet-covid19和COVID-TWITTER-BERT。所有實驗使用NCRF++(https://github.com/jiesutd/NCRFpp)完成。模型的超參數使用Yang等人(2018a)的默認設置。

數據處理

按照70:15:15的比例將數據集劃分為訓練集、驗證集和測試集,統計結果見表1。

實驗結果:研究者使用micro-F1來評估所有的模型,表3展示了測試結果。從該表中可以發現,COVID-TWITTER-BERT性能表現最佳,平均micro-F1值為83.88,顯著優于基于CRF或BiLSTM(及其變體)的傳統NER模型和通用領域PLM。

進一步地,研究者從統計機器學習、神經網絡、通用領域PLM和新冠相關PLM四大類別中選擇每個類別中表現最佳的模型,即CRF、WLSTM+CCNN+CRF、RoBERTa-large和COVID-TWITTER-BERT,采用Span F1和Type Accuracy(Type Acc.)兩大指標來評估它們的性能。

Span F1表示NER中實體范圍的正確性,而Type Acc.指標則表示預測實體中范圍和類型均預測正確的實體占所有預測實體的比例。

如表4和表5所示,COVID-TWITTER-BERT在兩個指標上的平均表現最佳,其次是RoBERTa-large。

圖片


具體來說,COVID-TWITTER-BERT在人物和組織實體上的表現比RoBERTa-large更好,在Span F1方面分別提高了3.72%和2.53%。對于Type Acc指標,COVID-TWITTER-BERT在四種實體類型(人物、地點、組織和藥物)上的表現最好。這些結果驗證了在新冠相關推文上對語言模型進行增量預訓練的有效性。

此外,研究者還探究了推文長度對模型性能的影響:如圖3所示,當推文長度較短(少于40個token)時,所有模型的表現都更好,而處理的推文越長,模型的性能越差。研究者還計算了COVID-TWITTER-BERT模型在測試集上的混淆矩陣。

從圖4中可以發現,在大多數情況下,COVID-TWITTER-BERT可以正確提取實體。但是,在識別癥狀和疾病實體時容易出現混淆,因為這兩類實體通常具有相似的表達和上下文語境。以上實驗和分析表明,COVID-TWITTER-BERT可以被視為METS-CoV- NER數據集的一個強基線模型,盡管如此,現有模型在該數據集上的性能表現仍有很大的提升空間。例如,疾病和組織實體的F1值仍然較低。

目標實體情感分析

baseline模型

SVM、ASGCN、LSTM、TDLSTM、MemNet、IAN、MGAN、TNet-LF、BERT-base-uncased+AEN/LCF/BERT-SPC/depGCN/kumaGCN/dotGCN,COVID-TWITTER-BERT+BERT-SPC/depGCN/kumaGCN/dotGCN。模型的超參數均采用與原論文一致的設置。

數據處理

TSA訓練數據集是NER訓練數據集的子集,僅保留包含目標實體的推文。采用類似的方式可以構建TSA的開發集和測試集。

實驗結果:研究者使用正確率(Acc.)和F1值來評估所有的基線模型,實驗結果如表6所示:將COVID-TWITTER-BERT作為特征提取器的模型明顯優于其他類型的模型。

圖片

具體來說,與基于BERT的depGCN相比,基于COVID-TWITTER-BERT的depGCN模型在人物實體上表現最佳,其Acc.和F1值分別提高了8.46%和10.35%。

對于組織實體,基于COVID-TWITTER-BERT的depGCN模型性能最優,準確率和F1值相較于其他模型至少提高了5.4%和8.32%。

對于藥物實體,基于COVID-TWITTER-BERT的depGCN模型顯著優于其他模型,與基于BERT的depGCN相比,其準確率和F1值分別提高了13.31%和18.03%。

對于疫苗實體,基于COVID-TWITTER-BERT的BERT-SPC模型表現最佳,與其他模型相比其準確率和F1值分別提高了1.6%和11.4%。

研究者從各類模型中篩選出最佳模型,即SVM,MemNet,depGCN(BERT-base)和depGCN(COVID-TWITTER-BERT)并探索了推文長度對這四種模型的影響。

如圖5所示,推文長度對不同TSA模型的影響存在明顯差異。對于SVM和TNET,F1值隨著推文長度的增加而逐漸下降。對于dotGCN,當推文長度在20到40之間時,F1值會有一定程度的波動,之后,F1值會隨著推文長度的增加而提高。對于depGCN(COVID-TWITTER-BERT),當推文長度小于50時,F1值保持穩定,然后增加到0.8,最后降至約0.6。

最后研究者對平均性能表現最佳的模型,即depGCN(COVID-TWITTER-BERT),進行了深入分析,計算其在測試集上的混淆矩陣(圖6)。

結果顯示,對于所有的目標實體,大部分的混淆是由于積極(消極)和中性之間的誤分類引起的。

總而言之,雖然可以利用在新冠推文上增量預訓練的模型(例如COVID-TWITTER-BERT)來進一步改善現有TSA模型在METS-CoV-TSA數據集上的性能,但是情感極性的區分效果欠佳,亟需開發更加強大且穩健的TSA模型以更加準確地識別出目標實體的情感極性。

結論

在本文中,研究者構建了首個面向新冠相關推文的醫學實體識別和情感分析數據集METS-CoV,該數據集從醫學研究的角度構建。

充分考慮了醫學領域的特點,因此可以幫助研究人員使用自然語言處理模型從推文中挖掘有價值的醫學信息。

此外,研究者以該數據集為基礎,對目前最先進的NER模型和TSA模型進行了全面的性能評估。

實驗結果表明,METS-CoV是一個具有挑戰性的數據集,現有模型尚未在該數據集上取得令人滿意的性能表現。

除了數據集之外,研究者還開源了標注指南、基準模型和源代碼,希望借此鼓勵更多的研究人員參與到醫學相關數據集和模型的構建工作中來,為推動醫學社交媒體研究的發展貢獻力量。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-04-28 15:17:04

2013-07-29 10:45:51

BaaS后端即服務云存儲

2020-05-03 12:42:23

數據泄露漏洞信息安全

2023-06-16 13:38:37

上海昇思AI框架昇思

2009-06-15 09:11:12

Java論壇Java

2023-08-28 13:37:00

前端技術前端技術大會

2024-11-13 15:00:00

模型數據

2014-12-23 17:46:27

2010-08-09 17:04:25

綠色數據中心能耗測量指

2019-09-12 08:42:38

工具可視化BI系統

2011-09-09 14:30:52

2012-09-07 09:43:23

云計算

2009-01-06 11:10:44

2012-11-22 09:55:05

云計算云計算概念云應用

2022-09-15 10:09:22

Byte Camp推薦算法

2013-02-18 10:05:47

數據中心建設規模對比

2023-07-25 10:14:26

評測AI

2025-04-09 09:34:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品免费一区二区三 | 男人天堂免费在线 | 久草福利 | 亚洲欧洲国产视频 | 国产一区不卡在线观看 | 久久免费精品视频 | 女朋友的闺蜜3韩国三级 | 国产精品亚洲视频 | 91在线视频观看免费 | 男女羞羞视频在线观看 | 日韩精品一区二区在线 | 日韩精品免费 | 91视频在线观看免费 | 视频一区二区在线观看 | 欧美成人一区二区三区 | 欧美综合一区二区 | 日本不卡一区二区三区在线观看 | 中文字幕av免费 | 国产美女精品视频 | 欧美一区二区三区国产精品 | 国产亚洲一区二区三区 | 精品久久久一区二区 | 色片在线观看 | 黄色av网站在线观看 | 国产精品久久久久久婷婷天堂 | 欧美一级免费看 | 欧美电影一区 | 色眯眯视频在线观看 | 欧美午夜一区二区三区免费大片 | 99热这里有精品 | 久艹网站| 久久久激情 | 四季久久免费一区二区三区四区 | 亚洲精品国产电影 | 五月婷婷激情网 | 毛片a| 日韩激情在线 | 国产精品国色综合久久 | 久久久在线视频 | 欧美黄色小视频 | 成人午夜精品 |