一文了解大數(shù)據(jù)在國內(nèi)外疾病監(jiān)測與預防中的應(yīng)用現(xiàn)狀
2020年,一場新冠疫情使多個國家公共衛(wèi)生系統(tǒng)不堪重負,暴露出應(yīng)急處置能力的薄弱等問題,改革和加強公共衛(wèi)生事件應(yīng)急處置已成為全球關(guān)注焦點。今年2月,習總書記來到北京市朝陽區(qū)CDC進行調(diào)研指導時指出:“這場疫情對全國各級疾控中心的應(yīng)急處置能力是一次大考。這次抗擊疫情斗爭既展示了良好精神狀態(tài)和顯著制度優(yōu)勢,也暴露出許多不足。要把全國疾控體系建設(shè)作為一項根本性建設(shè)來抓,加強各級防控人才、科研力量、立法等建設(shè),推進疾控體系現(xiàn)代化”。
現(xiàn)代化的疾控體系離不開大數(shù)據(jù)、人工智能等新興技術(shù)的加持。對于公共衛(wèi)生部門,可以通過覆蓋全國的患者電子病例數(shù)據(jù)庫,快速監(jiān)測傳染病,進行全面的疫情監(jiān)測,并通過集成疾病監(jiān)測與響應(yīng)程序,快速進行響應(yīng)。大數(shù)據(jù)在常態(tài)化監(jiān)測、疫情預警處置、趨勢預測研判、傳染源追本溯源、資源調(diào)配和防控救治方面都能起到至關(guān)作用。
如今,全世界各國都深刻認識到健康醫(yī)療大數(shù)據(jù)作為國家基礎(chǔ)性戰(zhàn)略資源重要性,爭相建設(shè)國家健康醫(yī)療數(shù)據(jù)庫,搶占醫(yī)學研究、精準診療和尖端移動設(shè)備前沿陣地。2016年,在原國家衛(wèi)生和計劃生育委員會牽頭下,逐步建設(shè)國家基因庫,落實1個國家數(shù)據(jù)中心、5個區(qū)域數(shù)據(jù)中心、X個應(yīng)用發(fā)展中心(即“1+5+X”)健康醫(yī)療大數(shù)據(jù)規(guī)劃,催生新業(yè)態(tài)、促進新經(jīng)濟。
一、大數(shù)據(jù)在我國疾病監(jiān)測領(lǐng)域中的應(yīng)用現(xiàn)狀
2003年SARS爆發(fā),暴露了我國傳染病監(jiān)測報告信息嚴重滯后的問題,暢通的疾病監(jiān)測信息網(wǎng)絡(luò)成為疾病預防控制信息建設(shè)的當務(wù)之急。因此,自2003年后,我國啟動了應(yīng)急管理體系建設(shè),其核心是圍繞“一案三制”,建立“國家統(tǒng)一領(lǐng)導、綜合協(xié)調(diào)、分類管理、分級負責、屬地管理為主的應(yīng)急管理體制”。其中,“一案三制”是指國家突發(fā)公共事件應(yīng)急預案體系及國家應(yīng)急管理的體制、機制和法制。2004年初,以現(xiàn)代網(wǎng)絡(luò)傳輸技術(shù)為依托,以“橫向到邊、縱向到底”連接全國各地為原則,以統(tǒng)一、高速、快速、準確傳遞信息為目標的中國疾病預防控制信息系統(tǒng)初具雛形。
2020年新冠疫情爆發(fā),很多人質(zhì)疑為什么從2004年開始運行、當時耗資7.3億元巨資建設(shè)的國家傳染病與突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)直報系統(tǒng)沒有發(fā)揮預警作用。事實上,疾控直報專網(wǎng)并非沒有發(fā)生作用。據(jù)媒體報道,疾控直報專網(wǎng)的數(shù)據(jù)來源完全取決于上報數(shù)據(jù),由于種種因素,疾控直報專網(wǎng)無法與醫(yī)院內(nèi)部網(wǎng)絡(luò)進行直接連通。由于采集不到數(shù)據(jù),這一系統(tǒng)自然無從發(fā)揮功能。2月3日,衛(wèi)健委發(fā)布了《關(guān)于加強信息化支撐新型冠狀病毒感染的肺炎疫情防控工作的通知》。各地衛(wèi)健委根據(jù)通知不斷改進采集方式,多數(shù)醫(yī)院開始采用網(wǎng)絡(luò)直報的方式,總算逐漸發(fā)揮了專網(wǎng)的作用。由此可見,對于大數(shù)據(jù)來說,真實的數(shù)據(jù)來源是極其重要的一步。
在醫(yī)療健康數(shù)據(jù)庫方面,2006年我國開始建設(shè)國家醫(yī)療健康數(shù)據(jù)庫,整合區(qū)域范圍內(nèi)醫(yī)院、基層衛(wèi)生機構(gòu)及公共衛(wèi)生機構(gòu)的各類數(shù)據(jù),形成以個人為中心的全生命周期電子健康檔案庫。2015年,原國家衛(wèi)計委啟動了十省互聯(lián)互通項目,我國約50%的委屬醫(yī)院,42%的省屬醫(yī)院和38%的市屬醫(yī)院已啟動醫(yī)院信息平臺建設(shè)。2016年,原國家衛(wèi)計委啟動“1+5+X”健康醫(yī)療大數(shù)據(jù)發(fā)展規(guī)劃,建設(shè)江蘇省(東)、貴州省(西)、福建省(南)、山東省(北)以及安徽省(中)五大數(shù)據(jù)中心。2017年,原國家衛(wèi)計委牽頭組建醫(yī)療健康數(shù)據(jù)三大集團,包括中國健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有限公司、中國健康醫(yī)療大數(shù)據(jù)科技發(fā)展集團公司及中國健康醫(yī)療大數(shù)據(jù)股份有限公司,以承擔國家健康醫(yī)療大數(shù)據(jù)中心、區(qū)域中心、應(yīng)用發(fā)展中心和產(chǎn)業(yè)園建設(shè)任務(wù)。
在生物數(shù)據(jù)庫方面,國家基因庫2016年正式建成,該基因庫集生物資源樣本庫、生物信息數(shù)據(jù)庫和生物資源信息網(wǎng)絡(luò)為一體。福建省和江蘇省作為國家健康醫(yī)療大數(shù)據(jù)中心的“先行者”,立足自身優(yōu)勢,逐步建立了政策保障體系和數(shù)據(jù)平臺。
總體來說,在傳染病防控工作中讓AI+大數(shù)據(jù)技術(shù)發(fā)揮作用,既需要打通行業(yè)內(nèi)“部-省-市-區(qū)縣”自上而下的垂直領(lǐng)域數(shù)據(jù),又要橫向打通跨行業(yè)部門“信息孤島”。從頂層設(shè)計就要實時結(jié)構(gòu)化信息互聯(lián)互通,業(yè)務(wù)聯(lián)防聯(lián)動。
在今年防疫過程中,有幾個企業(yè)助力疾控中心、醫(yī)院建設(shè)疾病與監(jiān)測預警系統(tǒng)值得參考。
比如,北京大數(shù)醫(yī)達為南京市疾控中心建設(shè)的疾病與監(jiān)測預警系統(tǒng)便直接打通連接了當?shù)蒯t(yī)院的電子病歷系統(tǒng)(EMR)。這一疾控監(jiān)測預警系統(tǒng)應(yīng)用了大數(shù)醫(yī)達最先進的大數(shù)據(jù)和人工智能技術(shù),對醫(yī)學知識圖譜建立模型,再直接提取EMR進行語義結(jié)構(gòu)化,由人工智能匹配知識庫判斷EMR中是否包含新冠肺炎等傳染病的關(guān)鍵詞。一旦被人工智能判斷為疑似或者是高度疑似則上報疾控部門,避免醫(yī)院因故遺漏或者遲報。
系統(tǒng)直接打通并連接到醫(yī)院的EMR,作為省市疾控中心的上報分析、數(shù)據(jù)匯總及預警分析系統(tǒng)。它具有很細的顆粒度,除了40種法定傳染病,也支持各地區(qū)自己補充當?shù)卣J定的多發(fā)性傳染病。同時,系統(tǒng)結(jié)合歷史疾控數(shù)據(jù)進行學習,并結(jié)合區(qū)域密度和人口流動率等大數(shù)據(jù),可以對疑似數(shù)據(jù)對傳染病的發(fā)展速度及分布區(qū)域等進行預測,從而為疾控決策給出參考數(shù)據(jù)。
大數(shù)醫(yī)達為江蘇省承建的這套系統(tǒng)原本是為春季流感高峰而準備,沒想在這次更加嚴重的新冠疫情中發(fā)揮了作用。根據(jù)統(tǒng)計,如果以疫情爆發(fā)的中心城市武漢為原點,沿著高鐵線路畫一條半徑約為2小時的圓圈,可以清晰地看到各個地區(qū)疾控水平并不一樣。相對而言,江蘇省的新冠疫情控制的就比周邊要好很多。
另外,也有企業(yè)試圖解決醫(yī)生在當下傳染病報卡中的痛點。目前醫(yī)院的傳染病監(jiān)測報卡系統(tǒng)不夠智能、對醫(yī)生的干預方案不夠有效、醫(yī)院傳染病疫情管理部門對傳染病遲報漏報篩查耗時耗力,長沙雙數(shù)科技經(jīng)過熟練的實踐,認為這些痛點可以利用大數(shù)據(jù)解決。在長沙雙數(shù)科技的傳染病疾病智能監(jiān)測解決方案中,首先匯集EMR、實驗室信息管理系統(tǒng)(LIS)、醫(yī)學影像存檔和通訊系統(tǒng)(PACS)及醫(yī)院信息系統(tǒng)(HIS)四大系統(tǒng)診療數(shù)據(jù),再運用雙數(shù)傳染病專家知識庫、語義分析技術(shù),對診療數(shù)據(jù)進行傳染病疾病相關(guān)特征提取、標記。其后,使用傳染病疾病分析模型對特征進行分析比對,從而認知傳染病。一旦認知到傳染病病例,系統(tǒng)即時推送或延遲推送到具體醫(yī)生電腦前端,并可強制鎖死系統(tǒng)要求醫(yī)生必須完成重要的傳染病報告。
這一傳染病智能監(jiān)測解決方案還實現(xiàn)了關(guān)口前移,把疾控直報專網(wǎng)上報的校驗邏輯全面前移到醫(yī)生填寫傳染病報告的階段。校驗不過就完成不了上報,這樣就有效解決了報卡完整性和準確性問題。醫(yī)生完成報告?zhèn)魅静罂ê螅瑪?shù)據(jù)完整準確的傳染病報卡經(jīng)醫(yī)院傳染病疫情報告人員審核后再上報至疾控直報專網(wǎng),也解決了及時性的問題。在解決醫(yī)生傳染病報卡的基礎(chǔ)上,雙數(shù)科技進一步實現(xiàn)了從醫(yī)院內(nèi)網(wǎng)至疾控直報專網(wǎng)的一鍵直報功能。2017年5月,中南大學湘雅醫(yī)院利用該系統(tǒng)實現(xiàn)了傳染病報卡醫(yī)院內(nèi)網(wǎng)一鍵直報功能,耗時不到3秒。這在當時也是極個別可以實現(xiàn)內(nèi)網(wǎng)直報的案例。目前除了湖南省的中南大學湘雅醫(yī)院外,重慶醫(yī)科大學附屬兒童醫(yī)院和貴州遵義醫(yī)科大學附屬醫(yī)院均已采用內(nèi)網(wǎng)一鍵直報的方案。根據(jù)統(tǒng)計,利用大數(shù)據(jù)和人工智能的雙數(shù)傳染病監(jiān)測方案可以將杜絕遲報漏報的有效率做到95%以上;將醫(yī)生的平均傳染病報卡所耗時間從以往的5-8分鐘大幅降低到40秒以內(nèi);疾控直報專網(wǎng)上報所耗時間也從2-3分鐘縮短至幾秒鐘。
事實上,武漢大學中南醫(yī)院也剛剛在去年采用雙數(shù)傳染病監(jiān)測方案,并在后續(xù)的疫情報告效率上體現(xiàn)出了優(yōu)勢。不過,在突發(fā)性的未知傳染病早期預警上,雙數(shù)科技認為對單個醫(yī)院的數(shù)據(jù)分析的結(jié)果、在說服力還是相對不足。相對而言,雙數(shù)科技認為區(qū)域一體化傳染病疫情預警監(jiān)測方案是應(yīng)對區(qū)域重大傳染病最好的建設(shè)方案。目前,雙數(shù)科技已經(jīng)完成了區(qū)域一體化傳染病疫情預警監(jiān)測方案的研發(fā),已經(jīng)在其他省市加快部署計劃,希望能為中國整體的傳染病信息化進程探索新模式。
繼這次新冠肺炎疫情之后,我國開始意識到建立突發(fā)公共衛(wèi)生事件的全國性長效管理機制的重要性,多個省份紛紛出臺疾控體系改革措施,強調(diào)要充分利用大數(shù)據(jù)、人工智能等新興技術(shù)。比如今年7月,湖北省衛(wèi)健委牽頭起草了《關(guān)于改革完善疾病預防控制體系的實施意見》等4個配套文件。文件提出,湖北將建立以網(wǎng)絡(luò)直報、輿情監(jiān)測、醫(yī)療衛(wèi)生人員報告、可疑病例討論報告、科研發(fā)現(xiàn)報告、零售藥店藥物銷售等信息為基礎(chǔ)的多渠道監(jiān)測預警機制。并且,下一步將實現(xiàn)健康相關(guān)數(shù)據(jù)的自動抓取,利用“大數(shù)據(jù)+網(wǎng)格化”等手段,開展精準流調(diào),實施精準防控。探索健康相關(guān)信息與醫(yī)保、農(nóng)業(yè)、生態(tài)環(huán)境等部門相關(guān)信息的協(xié)同共享,運用人工智能、大數(shù)據(jù)、云計算等,在監(jiān)測預警、病毒溯源、趨勢預測研判、資源調(diào)配等方面發(fā)揮支撐作用。
二、大數(shù)據(jù)在西方國家疾病監(jiān)測領(lǐng)域中的應(yīng)用現(xiàn)狀
有系統(tǒng)的疾病監(jiān)測工作開始于本世紀40年代末的美國疾病控制中心(CDC)。1968年第21屆世界衛(wèi)生大會(WHA)討論了國家和國際傳染病監(jiān)測問題。70年代以后,許多國家廣泛開展監(jiān)測,觀察傳染病疫情動態(tài),以后又擴展到非傳染病,并評價預防措施和防病效果,而且逐漸從單純的生物醫(yī)學角度發(fā)展向生物-心理-社會方面進行監(jiān)測。
在醫(yī)療數(shù)據(jù)方面,由于美國、日本等很早就開啟了診療數(shù)字化的進程,以幫助醫(yī)護人員提升工作效率,降低工作強度,也因此積累了大量高質(zhì)量的數(shù)據(jù)。比如美國的電子健康記錄系統(tǒng)(Electronic health records,EHRs),十年內(nèi)積累了1000萬名病人的記錄。其中包括疾病診斷記錄、病人用藥效果、基因數(shù)據(jù)、家庭病史等重要信息。2011年之后,日本醫(yī)療數(shù)據(jù)也已經(jīng)全面采用電子化報送系統(tǒng),個人可以通過網(wǎng)絡(luò)隨時查閱云端保存的各種醫(yī)療信息。
目前,發(fā)達國家已搭建較為成熟的健康醫(yī)療大數(shù)據(jù)平臺,并在有效管理和技術(shù)升級上展開激烈競爭。美國擁有完整的醫(yī)療健康大數(shù)據(jù)庫,建成覆蓋本土的12個區(qū)域電子病歷數(shù)據(jù)中心、9個醫(yī)療知識中心、8個醫(yī)學影像與生物信息數(shù)據(jù)中心。英國斥資55億英鎊建設(shè)全國一體化醫(yī)療照護信息儲存服務(wù)系統(tǒng),收集和儲存了超過23000個醫(yī)療信息系統(tǒng)數(shù)據(jù),覆蓋超過5000萬居民醫(yī)療信息,并已為130萬名醫(yī)務(wù)人員提供服務(wù)。丹麥成立國家生物銀行,集中和管理了超過700萬生物樣本,樣品可經(jīng)倫理委員會審批使用,供科研人員研究流行病學和疾病圖譜。日本實施國立大學醫(yī)院醫(yī)療信息遠程傳輸網(wǎng)絡(luò)系統(tǒng)計劃,福山大學附屬醫(yī)院累計收集超過1700萬病歷記錄和1.43億件用藥處方及300萬件病名,可實現(xiàn)處方自動分析和匹配功能。
在利用大數(shù)據(jù)、人工智能實現(xiàn)疾病監(jiān)測與預警方面,目前發(fā)達國家有多個成功案例,比如在新冠疫情大爆發(fā)之前,12月30日,波士頓兒童醫(yī)院(Boston Children's Hospital)的自動健康地圖系統(tǒng)就發(fā)布了中國境外首次有關(guān)這種新型冠狀病毒的公共警報。這套系統(tǒng)就得益于人工智能技術(shù)自然語言處理的支持。通過掃描在線新聞、社交媒體報道和政府報告,尋找傳染病爆發(fā)跡象的早期預警系統(tǒng),并將預警的嚴重程度分為5級(新冠被定為3級),從而可以幫助WHO等在語言障礙可能出現(xiàn)的情況下率先洞察疫情。
放眼全球,2003年英國帝國理工學院研究人員基于SARS流行病學調(diào)查數(shù)據(jù),構(gòu)建傳播動力學模型;2004年美國約翰·霍普金斯大學應(yīng)用物理實驗室的研究人員開發(fā)了基于社區(qū)的疫情早期監(jiān)測與報告系統(tǒng)ESSENCE;2009年美國華盛頓大學基于美國H1N1疫情數(shù)據(jù),建模構(gòu)建了H1N1家庭和學校傳播的流行病學參數(shù)(基本再生數(shù)和世代間隔)。現(xiàn)階段,如WHO全球流感監(jiān)測網(wǎng)絡(luò)、谷歌流感趨勢(Google Flu Trends),都是值得研究和學習的案例。
此外,在利用機器學習追蹤病原體軌跡方面也有多項成果。比如美國卡里生態(tài)系統(tǒng)研究所就針對2000多種嚙齒類動物建立了一套龐大的數(shù)據(jù)庫,并訓練AI認知它們的生活歷史、生態(tài)環(huán)境、行為、生理特征和地理分布情況。并成功通過該模型,發(fā)現(xiàn)了超過150種新的潛在嚙齒類動物和超過50種新的活躍型動物,可能攜帶多種病原體并傳染給人類。由此,可以繪制出影響各種疾病的嚙齒類動物分布,以及容易被新生寄生蟲和病原體傳染的熱點地區(qū),以便實現(xiàn)疾病的早期預警監(jiān)測。
在追蹤人流去向方面,不同于中國在應(yīng)對新冠疫情時通過大數(shù)據(jù)+AI對重點人群進行行蹤溯源預警,其他國家的AI主要表現(xiàn)為算法預防。比如英聯(lián)邦科學與工業(yè)研究組織使用貝葉斯推理開發(fā)了Data61模型,用以追蹤將昆士蘭州登革熱病毒是如何傳播到澳大利亞,并如何在人與人之間轉(zhuǎn)移。借助昆士蘭州衛(wèi)生局提供的15年內(nèi)匿名記錄的登革熱病例來進行訓練,Data61可以綜合判斷多種人員流動信息,比如航空公司乘客數(shù)據(jù)、地理標記、社交媒體、旅游情況等等,從而預測可能發(fā)生疫情的時間和地點,讓醫(yī)療機構(gòu)早做準備。據(jù)說,該模型還可以用于預測萊姆病、埃博拉和瘧疾等人畜共生的疾病。
不過,盡管歐美國家更加長于算法,由于隱私法案的影像,歐美許多地區(qū)禁止采集公眾信息,對人臉識別等前沿技術(shù)的使用也出臺了相關(guān)限制,這在一定程度上保護了公眾信息安全,而另一方面,由于社會智能化的防范與遲緩,也使其在面對大型公共衛(wèi)生事件時,展現(xiàn)出了應(yīng)對能力薄弱、救災(zāi)過程滯后、人員有限重復勞動等問題,在防疫效率上還有很大的提升空間。
三、當前健康大數(shù)據(jù)所面臨的挑戰(zhàn)
繼大數(shù)據(jù)在抗疫過程中表現(xiàn)亮眼后,如今多個省份地區(qū)都將利用大數(shù)據(jù)、人工智能實現(xiàn)現(xiàn)代化疾控作為發(fā)展計劃,可以遇見健康大數(shù)據(jù)將會快速應(yīng)用到公共衛(wèi)生領(lǐng)域,但同時也面臨了諸多挑戰(zhàn):
1、健康大數(shù)據(jù)使用中的安全、保密、共享、開放等醫(yī)學倫理問題
健康大數(shù)據(jù)不可避免地涉及人群的隱私信息,包括身體現(xiàn)狀、健康史、個人信息、甚至基因、蛋白數(shù)據(jù)等。如若泄漏,極可能會使患者個體的日常生活受到難以預料的侵擾。2018年,《信息安全技術(shù)個人信息安全規(guī)范》中提出了保護個人信息安全應(yīng)遵循的原則,但缺少針對醫(yī)療隱私保護的詳細法律法規(guī)。而涉及到病人數(shù)據(jù)這類高保密級別數(shù)據(jù),就對隱私保護、系統(tǒng)安全提出了更高的要求。
2、突破大數(shù)據(jù)的關(guān)鍵技術(shù)
如今,半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)量在呈幾何級數(shù)量增長,傳統(tǒng)的分析技術(shù)面臨著較大的沖擊和挑戰(zhàn)。數(shù)據(jù)的廣泛存在性使得數(shù)據(jù)越來越多的以不同的形勢散布于不同的系統(tǒng)和平臺之中。為了便于進行健康大數(shù)據(jù)分析,需要解決數(shù)據(jù)的多源異構(gòu)性、數(shù)據(jù)的質(zhì)量問題,各方面產(chǎn)生的大數(shù)據(jù)有待進行有效整合。此外,數(shù)據(jù)信息孤島問題始終普遍存在,標準化難以實施等技術(shù)和非技術(shù)困難尚未得到有效徹底地解決。
3、甄別健康大數(shù)據(jù)中的使用誤差,提高精度
大數(shù)據(jù)疾病預警也有可能產(chǎn)生“大錯誤”,它就如同汽車報警器一樣,既容易觸發(fā),也容易被忽略。一個主要的原因是,不同機構(gòu)、不同平臺的數(shù)據(jù)都可能會阻礙算法。哈佛大學(Harvard University)流行病學家Andrew Beam表示,掃描在線報告中的關(guān)鍵詞有助于揭示趨勢,但準確性取決于數(shù)據(jù)的質(zhì)量。比如谷歌就高估了AI對流感的流行程度,偏差超出了實際值的50%。最后在2015年關(guān)閉了該網(wǎng)站,并將其技術(shù)交給了HealthMap等非營利組織。
4、健康大數(shù)據(jù)框架應(yīng)有頂層設(shè)計
一直以來,公共衛(wèi)生與預防學學科強調(diào)“三級預防”,但作為政府行為的“零級預防”非常關(guān)鍵。從星羅云布的大數(shù)據(jù)中通過分析快速獲得有效信息,并及時為公共衛(wèi)生決策提供依據(jù),是一項基礎(chǔ)、長遠的工作,需要政府層面的長期鼎力支持。健康大數(shù)據(jù)框架需要國家層次進行頂層設(shè)計,擔負相應(yīng)責任。政府可以加強科學引導,開放平臺邀請更多社會資本參與,整合力量共建國家健康大數(shù)據(jù)研究中心。