如何克服安全障礙去解鎖醫(yī)療數(shù)據(jù)
?醫(yī)療保健行業(yè)是數(shù)據(jù)最豐富的行業(yè)之一,但由于嚴(yán)格的隱私和安全法律,數(shù)據(jù)科學(xué)家無法利用這些數(shù)據(jù)做太多事情。但現(xiàn)在,由于云計(jì)算中強(qiáng)大的安全設(shè)置和隱私保護(hù)分析技術(shù)的使用,Providence健康公司開始解開數(shù)據(jù)科學(xué)家的“手銬”,并在大醫(yī)療數(shù)據(jù)上展開創(chuàng)新。
Providence健康與服務(wù)公司擁有52家醫(yī)院、1000多家診所和約12萬名員工,是美國最大的醫(yī)療保健集團(tuán)之一。與大多數(shù)醫(yī)療保健公司一樣,Providence健康公司采取措施維護(hù)患者數(shù)據(jù)的完整性。畢竟,沒有人想要違反HIPAA(Health Insurance Portability and Accountability Act 健康保險(xiǎn)攜帶和責(zé)任法案/醫(yī)療電子交換法案),每違反一次就要罰款5萬美元。
在這家總部位于華盛頓倫頓(Renton)的公司著手更新其數(shù)據(jù)分析架構(gòu)時,安全問題是他們最關(guān)心的問題,首先是將老舊的SQL Server數(shù)據(jù)倉庫遷移到微軟Azure云上。Providence的數(shù)據(jù)科學(xué)總監(jiān)林賽·米科表示,該公司在2019年底與Databricks和其他公司合作建立新的數(shù)據(jù)環(huán)境時,采取了額外的預(yù)防措施,以確保對數(shù)據(jù)保持嚴(yán)格的控制。
“Providence為安全云設(shè)置了一個獨(dú)特的高標(biāo)準(zhǔn),”米科說。“與我合作的每一家科技公司....認(rèn)為這就是安全云的樣子。然后他們開始與我們合作,他們很快就會對標(biāo)準(zhǔn)的設(shè)定產(chǎn)生疑慮。我們與微軟和Databricks攜手合作,打造新的部署架構(gòu),我們需要一些與公共互聯(lián)網(wǎng)隔絕的東西能夠妥善保護(hù)患者數(shù)據(jù)。”
Snowflake也參與了Providence新的基于云的數(shù)據(jù)架構(gòu)。最初的項(xiàng)目是將老化的SQL Server倉庫遷移到Snowflake數(shù)據(jù)倉庫中,后者將為分析業(yè)務(wù)和臨床數(shù)據(jù)提供一個更可伸縮的系統(tǒng)。Providence足夠大,可以容納多個數(shù)據(jù)倉庫中的用戶,因此Databricks和Snowflake環(huán)境是獨(dú)立存在的。
成本控制是Providence新云倉庫的一個重要目標(biāo),該云倉庫用于傳統(tǒng)分析以及構(gòu)建和運(yùn)行機(jī)器學(xué)習(xí)模型。作為一家非營利性天主教醫(yī)院,Providence的使命是幫助窮人和有需要的人,它有責(zé)任提供負(fù)擔(dān)得起的醫(yī)療服務(wù),而分析可以在這方面提供幫助。
“我們還知道,醫(yī)療保健存在成本泡沫。病人的費(fèi)用一直在上漲。醫(yī)療保健系統(tǒng)的利潤極其微薄。這是雙輸,”他說。“因此,找到利用數(shù)據(jù)和分析控制成本的方法——這是整個醫(yī)療保健體系的存在價值。”
一些最初的用例涉及到使用機(jī)器學(xué)習(xí)模型來預(yù)測患者需求,包括像發(fā)病率和住院時間等。這些預(yù)測被輸入到一個人員配置模型中,該模型告訴Providence,在接下來的兩個月里,服務(wù)人員需求可能會是什么樣子。
云端的無限彈性是公司之前使用的一個重大升級。雖然數(shù)據(jù)倉庫遷移在COVID-19大流行之前就開始了,但米科和他的團(tuán)隊(duì)在大流行期間完成了大部分工作。這家醫(yī)療保健公司利用了Epic Systems公司的電子病歷(EMR)軟件自帶的幾個開箱即用的機(jī)器學(xué)習(xí)模型,這些模型運(yùn)行良好。作為Epic最大的用戶,機(jī)器學(xué)習(xí)模型的成功對Epic的研發(fā)團(tuán)隊(duì)來說是個好兆頭。
同時它加速了下一代系統(tǒng)的部署,包括遠(yuǎn)程醫(yī)療。“我們已經(jīng)準(zhǔn)備好了。我們有一個非常強(qiáng)大的基礎(chǔ)設(shè)施來處理遠(yuǎn)程醫(yī)療。能夠向遠(yuǎn)程醫(yī)療轉(zhuǎn)移大量的數(shù)據(jù)。它還推動了預(yù)測分析的發(fā)展。圍繞死亡風(fēng)險(xiǎn)、ICU住院時間和大流行早期的一些其他模型部署了一些模型。這些都是內(nèi)置在Epic中的應(yīng)用。這只是漫長旅程的第一步。人工智能在改善臨床護(hù)理方面有更多的機(jī)會。”米科說。
例如,該公司正在對源自Epic的健康級別7 (HL7)醫(yī)療文件進(jìn)行實(shí)時分析。使用Spark Streaming處理這些數(shù)據(jù),然后將其實(shí)時加載到Databricks倉庫的表單中。
他說:“這項(xiàng)工作一開始是為了建立我們所說的任務(wù)控制中心,它可以實(shí)時查看醫(yī)院的情況。”
任務(wù)控制中心的早期用例之一是獲得對單個醫(yī)院資源的可見性,以確定它是否能夠處理傳入的病人。這是有助于防止醫(yī)院人滿為患的有用工具,在COVID-19疫情高峰期,醫(yī)院人滿為患是一個非常現(xiàn)實(shí)的威脅。
利用分析和人工智能改善業(yè)務(wù)和臨床運(yùn)營,他說:“這是一個很好的起點(diǎn),一旦你對醫(yī)療保健系統(tǒng)正在發(fā)生的事情有了實(shí)時的了解——誰在那里,你需要什么,并與他們的圖表聯(lián)系起來——你就可以開始預(yù)測接下來會發(fā)生什么。你可以開始優(yōu)化關(guān)于臨床護(hù)理或手術(shù)的決策。所以我對任務(wù)控制非常感興趣。”
該公司正在考慮利用一些更強(qiáng)大的人工智能技術(shù),包括深度學(xué)習(xí),以進(jìn)一步優(yōu)化其運(yùn)營和改善醫(yī)療服務(wù)。具體來說,它正在與John Snow實(shí)驗(yàn)室及其Spark NLP模型合作,以便能夠從醫(yī)生的病歷中提取有意義的數(shù)據(jù)。??
在處理這種級別的敏感數(shù)據(jù)時,安全性和隱私性是最重要的,因此Spark NLP的首要任務(wù)是去識別關(guān)于患者的醫(yī)生記錄。這家醫(yī)療保健公司正在使用來自John Snow實(shí)驗(yàn)室的經(jīng)過預(yù)先訓(xùn)練的模型,該模型可以識別日期、姓名、地址和郵政編碼等標(biāo)識符。
Providence旗下的技術(shù)和服務(wù)公司Tegria的高級數(shù)據(jù)科學(xué)家納達(dá)·泰亞布(Nadaa Taiyab)說,“它的工作效果令人驚訝地好。”
在標(biāo)記標(biāo)識符之后,Providence用虛擬數(shù)據(jù)替換數(shù)據(jù),從而消除了私人健康信息(PHI)的風(fēng)險(xiǎn)。這一過程使Providence能夠使用聚合的醫(yī)療數(shù)據(jù)進(jìn)行高級分析和訓(xùn)練機(jī)器學(xué)習(xí)模型。
Taiyab說,雖然混淆步驟降低了PHI落入錯誤之手的風(fēng)險(xiǎn),但有時需要真實(shí)的患者數(shù)據(jù),特別是在使用機(jī)器學(xué)習(xí)模型時。“如果你把它聚合起來,就不能把它用于機(jī)器學(xué)習(xí),如果你試圖在病人的水平上預(yù)測一些東西。”“如果你想在群體水平上預(yù)測它,這是一回事。但你需要有患者級別的數(shù)據(jù)”來進(jìn)行患者級別的預(yù)測。
Providence還可以通過系統(tǒng)生物學(xué)研究所(ISB),將其患者數(shù)據(jù)用于進(jìn)一步的醫(yī)學(xué)研究。ISB是一家位于華盛頓州西雅圖的醫(yī)學(xué)分析公司,由人類基因組計(jì)劃的研究人員之一Leroy Hood博士創(chuàng)建。Providence所做的數(shù)據(jù)安全工作使其能夠與2016年收購的ISB共享數(shù)據(jù)。
米科表示,ISB挖掘Providence的大型醫(yī)療數(shù)據(jù)倉庫的能力對ISB對健康狀況的研究非常重要,例如長期COVID-19。“這只是一個例子,說明當(dāng)你能夠在安全的云環(huán)境中部署和集成數(shù)據(jù)時意味著什么。”他說。
隨著Providence探索使用高級分析和人工智能的其他方法來改善其醫(yī)療保健使命,對構(gòu)建安全云數(shù)據(jù)架構(gòu)的投資有望獲得回報(bào)。
“Providence已經(jīng)為醫(yī)療保健的安全云設(shè)計(jì)了一幅藍(lán)圖,”米科說。“這需要大量的反復(fù)練習(xí),大量的學(xué)習(xí),與我們的合作伙伴進(jìn)行大量的合作。在每一步都在改進(jìn)它。當(dāng)我們學(xué)習(xí)新東西時,部署模型會發(fā)生變化。但我們認(rèn)為有一個非常可靠的藍(lán)圖。”獲取數(shù)據(jù)仍然是這方面取得進(jìn)展的主要障礙之一。Providence為降低安全和隱私風(fēng)險(xiǎn)所做的工作是良好的第一步,但還有更多的工作要做。?