如何解釋AI做出的決策?一文梳理算法應(yīng)用場景和可解釋性
英國的 Information Commissioner’s Office (ICO)和 The Alan-Turing Institute 聯(lián)合發(fā)布了《Explanation decisions made with AI》指南。該指南旨在為機構(gòu)和組織提供實用建議,以幫助向受其影響的個人解釋由 AI 提供或協(xié)助的程序、服務(wù)和決定,同時幫助機構(gòu)和組織遵循歐盟 GDPR 等與個人信息保護相關(guān)的政策要求。該指南分為三個部分,第 1 部分:可解釋 AI 的基礎(chǔ)知識;第 2 部分:可解釋 AI 的實踐;第 3 部分:可解釋 AI 對機構(gòu) / 組織的意義。指南最后給出了主流的 AI 算法 / 模型的適用場景,以及對這些算法 / 模型的可解釋性分析,可作為實踐任務(wù)中結(jié)合應(yīng)用場景特點選擇能夠滿足領(lǐng)域要求的可解釋性的 AI 算法 / 模型的參考。
本文結(jié)合《Explanation decisions made with AI》指南,重點對算法的應(yīng)用場景和可解釋性分析進行了梳理總結(jié)。此外,我們還解讀了一篇醫(yī)學領(lǐng)域可解釋性方法的最新論文—《評估藥物不良事件預(yù)測中基于注意和 SHAP 時間解釋的臨床有效性》,以了解關(guān)于可解釋性方法的最新研究進展。
1、算法的應(yīng)用場景和可解釋性分析
《Explanation decisions made with AI》指南給出了主流的 AI 算法 / 模型的適用場景,以及對這些算法 / 模型的可解釋性分析,作者對主流模型的可解釋性情況進行了梳理總結(jié)。
算法類型 | 可能的應(yīng)用 | 解釋 |
線性回歸 (LR) | 在金融(如信用評分)和醫(yī)療保健(根據(jù)生活方式和現(xiàn)有的健康狀況預(yù)測疾病風險)等高度監(jiān)管的行業(yè)中具有優(yōu)勢,因為它的計算和監(jiān)督都比較簡單。 | 由于線性和單調(diào)性,具有較高的可解釋性。隨著特征數(shù)量的增加(即高維度),可解釋性會變差。 |
邏輯回歸 | 像線性回歸一樣,在高度管制和安全關(guān)鍵部門有優(yōu)勢,特別是在基于分類問題的用例中,如對風險、信用或疾病的是/否決策。 | 良好的可解釋性,但不如LR,因為特征是通過邏輯函數(shù)轉(zhuǎn)換的,與概率結(jié)果的關(guān)系是對數(shù),而不是相加。 |
正則化回歸(LASSO和Ridge) | 與線性回歸一樣,在要求結(jié)果可理解、可獲得和透明的高度監(jiān)管和安全關(guān)鍵部門中具有優(yōu)勢。 | 由于通過更好的特征選擇程序改善了模型的稀疏性,因此具有高度的可解釋性。 |
廣義線性模型(GLM) | 適用于目標變量具有需要指數(shù)族分布集的約束條件的用例(例如,如果目標變量涉及人數(shù)、時間單位或結(jié)果的概率,則結(jié)果必須具有非負值。) | 良好的可解釋性水平,跟蹤了LR的優(yōu)點,同時也引入了更多的靈活性。因為其鏈接功能,確定特征的重要性可能不如用加性特征簡單的LR那么直接,一定程度上失去了透明度。 |
廣義加性模型(GAM) | 適用于預(yù)測變量和響應(yīng)變量之間的關(guān)系不是線性的(即輸入-輸出關(guān)系在不同時間以不同速度變化),但需要最佳可解釋性的用例。 | 良好的可解釋性,因為即使在存在非線性關(guān)系的情況下,GAM也可以用圖形清晰地表示預(yù)測變量對響應(yīng)變量的影響。 |
決策樹 | 由于產(chǎn)生DT結(jié)果的分步邏輯對非技術(shù)用戶來說很容易理解(取決于節(jié)點/特征的數(shù)量),這種方法可用于需要透明度的高風險和安全關(guān)鍵的決策支持情況,以及相關(guān)特征數(shù)量相當少的許多其他用例。 | 如果DT保持相當小的規(guī)模,那么可解釋的程度就很高,這樣就可以從頭到尾跟蹤邏輯。與LR相比,DT的優(yōu)勢在于前者可以適應(yīng)非線性和變量交互,同時保持可解釋性。 |
規(guī)則/決定清單和集 | 與DT一樣,由于產(chǎn)生規(guī)則列表和規(guī)則集的邏輯對非技術(shù)用戶來說很容易理解,這種方法可用于需要透明度的高風險和安全關(guān)鍵的決策支持情況,以及其他許多需要明確和完全透明地說明結(jié)果的用例。 | 規(guī)則列表和規(guī)則集是所有最佳性能和不透明的算法技術(shù)中具有最高程度的可解釋性之一。然而,它們也與DT有相同的可能性,即當規(guī)則列表變長或規(guī)則集變大時,可理解的程度就會消失。 |
基于案例的推理(CBR)/原型和批評 | CBR適用于任何基于經(jīng)驗的領(lǐng)域。推理用于決策的任何領(lǐng)域。例如,在醫(yī)學上,當以前類似案例的成功經(jīng)驗指向決策者建議的治療方法時,就會在CBR的基礎(chǔ)上推薦。CBR擴展到原型和批評的方法意味著更好地促進對復(fù)雜數(shù)據(jù)分布的理解,以及增加數(shù)據(jù)挖掘的洞察力、可操作性和可解釋性。 | CBR是可以通過設(shè)計來解釋的。它使用從可解釋的設(shè)計中提取的例子。它使用從人類知識中提取的例子,以便將輸入的特征吸收到人類可識別的表征中。它通過稀疏的特征和熟悉的原型保留了模型的可解釋性。 |
超稀疏線性整數(shù)模型(SLIM) | SLIM已被用于需要快速、簡化而又最準確的臨床決策的醫(yī)療應(yīng)用中。一個被稱為風險校準SLIM(RiskSLIM)的版本已被應(yīng)用于刑事司法領(lǐng)域,表明其稀疏線性方法對生態(tài)犯罪的預(yù)測與目前使用的一些不透明模型一樣有效。 | 由于其稀疏和易理解的特點,SLIM為以人為中心的決策支持提供了最佳的可解釋性。作為一個手動完成的評分系統(tǒng),它還確保了實施它的引導(dǎo)員-用戶的積極參與。 |
Na?ve Bayes | 雖然這種技術(shù)由于不現(xiàn)實的特征獨立性假設(shè)而被認為是naive的,但眾所周知它是非常有效的。它的快速計算時間和可擴展性使其適合于高維特征空間的應(yīng)用。 | Naive Bayes分類器具有高度的可解釋性,因為每個特征的類成員概率是獨立計算的。然而,假設(shè)獨立變量的條件概率在統(tǒng)計上是獨立的,這也是一個弱點,因為沒有考慮特征的相互作用。 |
K近鄰(KNN) | KNN是一種簡單、直觀、多功能的技術(shù),應(yīng)用廣泛,但對較小的數(shù)據(jù)集效果最好。由于它是非參數(shù)性的(對基礎(chǔ)數(shù)據(jù)分布不做任何假設(shè)),它對非線性數(shù)據(jù)很有效,同時不失可解釋性。常見的應(yīng)用包括推薦系統(tǒng)、圖像識別、客戶評級和排序。 | KNN的工作假設(shè)是,通過查看它們所依賴的數(shù)據(jù)點與產(chǎn)生類似類別和結(jié)果的數(shù)據(jù)點的接近程度,可以預(yù)測類別或結(jié)果。這種關(guān)于近似性/接近性的重要性的直覺是對所有KNN結(jié)果的解釋。當特征空間保持小的時候,這樣的解釋更有說服力,所以實例之間的相似性仍然是可以得到的。 |
SVM | SVM對于復(fù)雜的分類任務(wù)來說是非常通用的。它們可以用來檢測圖像中物體的存在(有臉/無臉;有貓/無貓),對文本類型進行分類(體育文章/藝術(shù)文章),以及識別生物信息學中感興趣的基因。 | 可解釋性水平低,取決于維度特征空間。在上下文確定的情況下,使用SVM應(yīng)輔以輔助解釋工具。 |
ANN | ANN最適合于完成高維特征空間的各種分類和預(yù)測任務(wù),即有非常大的輸入向量的情況。它們的用途可能包括計算機視覺、圖像識別、銷售和天氣預(yù)報、藥品發(fā)現(xiàn)和股票預(yù)測、機器翻譯、疾病診斷和欺詐檢測。 | 由于曲線(極端非線性)的傾向和輸入變量的高維度,導(dǎo)致ANN非常低的可解釋性。ANN被認為是 "黑盒 "技術(shù)的縮影。在適當?shù)那闆r下,應(yīng)當引入解釋工具輔助ANN的使用。 |
隨機森林 | 隨機森林經(jīng)常被用來有效地提高單個決策樹的性能,改善其錯誤率,并減輕過擬合。它們在基因組醫(yī)學等高維問題領(lǐng)域非常流行,也被廣泛用于計算語言學、計量經(jīng)濟學和預(yù)測性風險建模。 | 由于在bagged數(shù)據(jù)和隨機特征上訓(xùn)練這些決策樹群的方法、特定森林中的樹木數(shù)量以及單個樹木可能有數(shù)百甚至數(shù)千個節(jié)點的可能性,可能導(dǎo)致隨機森林方法非常低的可解釋性。 |
集合方法 | 集合方法有廣泛的應(yīng)用,跟蹤其組成學習者模型的潛在用途(包括DT、KNN、隨機森林、NaiveBayes,等等)。 | 集合方法的可解釋性因使用何種方法而不同。例如,使用bagging技術(shù)的模型,即把在隨機數(shù)據(jù)子集上訓(xùn)練的學習者的多個估計值平均起來,其原理可能難以解釋。對這些技術(shù)的解釋需求應(yīng)該結(jié)合其組成學習者的情況分別考慮。 |
2、評估藥物不良事件預(yù)測中基于注意力機制和 SHAP 時間解釋的臨床有效性
可解釋的機器學習是一個新興的領(lǐng)域,它嘗試以更人性化的方式幫助我們理解黑盒分類器模型的決策。特別是對于醫(yī)療領(lǐng)域,可解釋性對于提供公開透明的分析和合法的決策結(jié)果至關(guān)重要。具備可解釋性,一線醫(yī)療利益相關(guān)者就可以信任模型的決定并采取適當?shù)男袆印4送猓娴目山忉屝阅軌虼_保醫(yī)療實施的用戶可能獲取監(jiān)管權(quán)利,例如根據(jù)歐盟通用數(shù)據(jù)保護條例(GDPR):"獲得解釋的權(quán)利"。
在醫(yī)療領(lǐng)域,深度學習模型應(yīng)用于電子健康記錄(Electronic Health Record,EHR)數(shù)據(jù)獲得了很好的效果。例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠有效捕捉 EHR 中時間相關(guān)的和異質(zhì)的數(shù)據(jù)復(fù)雜性。然而,RNNs 的一個主要缺點是缺乏內(nèi)在的可解釋性。在過去的研究過程中,已經(jīng)產(chǎn)生了幾種使 RNNs 更具解釋性的方法,例如,通過引入注意力機制使模型本身更易解釋,如用 RETAIN;事后可解釋性框架(如 SHAP)可以應(yīng)用于概述 RNNs 的時間解釋等等。
RETAIN[2]:用于分析 EHR 數(shù)據(jù)以預(yù)測病人未來出現(xiàn)心力衰竭的風險。RETAIN 受注意力機制啟發(fā),通過使用一個兩層的神經(jīng)注意力模型,并對 EHR 數(shù)據(jù)進行逆序輸入系統(tǒng),模擬醫(yī)生滿足病人需求及分析病人記錄時專注于病人過去診療記錄中某些特殊臨床信息、風險因素的過程,在保證預(yù)測結(jié)果準確性(Accuracy)的同時確保了結(jié)果的可解釋性(interpretability)。
SHAP[3]:來自于博弈論原理,SHAP(SHapley Additive exPlanations)為特征分配特定的預(yù)測重要性值,作為特征重要性的統(tǒng)一度量,能夠解釋現(xiàn)代機器學習中大多數(shù)的黑盒模型,為機器學習模型量化各個特征的貢獻度。給定當前的一組特征值,特征值對實際預(yù)測值與平均預(yù)測值之差的貢獻就是估計的 Shapley 值。
然而,關(guān)于醫(yī)學預(yù)測領(lǐng)域 RNN 的可解釋技術(shù)所提供的時間解釋的質(zhì)量,還存在著研究空白。支持和反對使用注意力作為解釋方法的論點都存在,一些證據(jù)表明,使用注意力得分可以提供足夠的透明度來解釋單個特征如何影響預(yù)測結(jié)果。而還有一些證據(jù)則質(zhì)疑了注意力機制的有效性,因為注意力值和更直觀的特征重要性測量之間的相關(guān)性很弱。在實踐中,用于模型解釋的可視化平臺已經(jīng)成功地利用了注意力分數(shù)來為醫(yī)學預(yù)測提供解釋。然而,使用注意力值的整體效用還需要更深入的驗證,特別是與利用其他可解釋方法(如 SHAP)相比。
本文的主要目標是探索具有內(nèi)在可解釋性的 RNN 通過注意力機制能夠在多大程度上提供與臨床兼容的時間解釋,并評估這種解釋應(yīng)該如何通過應(yīng)用事后方法來補充或取代,例如對黑盒 RNN 的 SHAP。本文具體在藥物不良事件(Adverse Drug Event,ADE)預(yù)測的醫(yī)學背景下探討這個問題。結(jié)合我們所解讀的《Explanation decisions made with AI》指南,這篇文章所討論的是典型的必須應(yīng)用非線性統(tǒng)計技術(shù)的情況。在上一章節(jié)的梳理中,指南已經(jīng)明確“由于曲線(極端非線性)的傾向和輸入變量的高維度,導(dǎo)致 ANN 非常低的可解釋性。ANN 被認為是 "黑盒" 技術(shù)的縮影。在適當?shù)那闆r下,應(yīng)當引入解釋工具輔助 ANN 的使用。”。因此,本文所做的工作就是為應(yīng)用于醫(yī)學領(lǐng)域的 ANN 方法引入適當?shù)妮o助解釋工具(注意力機制和 SHAP 時間解釋)。當然,正如我們在之前的解讀中分析的,在一些應(yīng)用場景中,簡單的白盒模型 / 方法無法滿足應(yīng)用需要,為了保證較高的準確度 / 預(yù)測率,有時必須采用黑盒算法 / 模型。而如何在這種情況下通過引入輔助解釋工具幫助模型 / 系統(tǒng)的用戶更好的理解解釋,就是下面這篇論文會詳細介紹的了。
2.1 方法介紹
令ε={P1,...,Pn}表征 n 個病人的數(shù)據(jù)庫。Pj 表征 K 個病人就診數(shù)據(jù)記錄,Pj = {x_1, . . , x_k},其中,x_k 發(fā)生在時間點 t_k,包含一組描述該次診療的醫(yī)療變量,考慮到第 j 個病人在時間點 t-1 的病史數(shù)據(jù) Pj={x_1, . . . , x_t-1},我們的任務(wù)是預(yù)測時間點 t 的 ADE 的發(fā)生,并準確地解釋為什么使用病人病史的整個時間結(jié)構(gòu)來預(yù)測這種 ADE。為了解決這個問題,本文將 RNN 模型和可解釋性技術(shù)結(jié)合起來,對全局和局部解釋的方法進行了比較和臨床驗證的分析。
SHAP 框架確定了加法特征重要性方法的類別,以提供模型無關(guān)的解釋。SHAP 已經(jīng)成為一種流行的模型可解釋性方法,因為它擁有多種理想的特性,即全局一致的解釋,這是其他事后方法所不能提供的,在這些方法中,局部定義的預(yù)測可能與全局模型的預(yù)測不一致。SHAP 建立在使用博弈論中的 Shapley 值的基礎(chǔ)上,在博弈論中,通過將不同的特征視為聯(lián)盟中的不同玩家來計算特定特征值對選定預(yù)測的影響。這些特征中的每一個都可以被看作是對預(yù)測的相對貢獻,這些貢獻可以通過計算可能的聯(lián)盟中的邊際貢獻的平均值而被計算為 Shapley 值。
Shapley 值(表示為φ_ij),可以理解為每個特征值 x_ij 對每個樣本 i 和特征 j 的預(yù)測偏離數(shù)據(jù)集的平均預(yù)測的程度。在本研究中,每個醫(yī)療變量的 Shapley 值是針對病史中的每個時間點計算的,以解釋每個醫(yī)療變量對預(yù)測的影響是如何高于或低于基于背景數(shù)據(jù)集的預(yù)測平均值的。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是前饋神經(jīng)網(wǎng)絡(luò)模型的概括,用于處理連續(xù)的數(shù)據(jù),擁有一個持續(xù)的內(nèi)部狀態(tài) h_t,由 j 個隱藏單元 h_j 組成,作為處理連續(xù)狀態(tài)之間的依賴關(guān)系的記憶機制,在本文案例中具體是指跨時間點的病人診療信息。
本文希望采用一個基本的 RNN architechure 與 SHAP 相結(jié)合,它應(yīng)該能夠達到與 RETAIN 相當?shù)男阅芩剑詭椭苯颖容^有效性解釋方法,而不會因為過度追求可解釋性而影響了模型本身的性能。具體的,本文基本 RNN 模型的內(nèi)部狀態(tài)由門控遞歸單元(GRU)組成,通過迭代以下方程定義:
其中,r_j 為復(fù)位門,它決定了一個狀態(tài)中的每一個第 j 個隱藏單元的前一個狀態(tài)被忽略的程度;h_t-1 是上一個隱藏的內(nèi)部狀態(tài);W 和 U 是包含由網(wǎng)絡(luò)學習的參數(shù)權(quán)重的矩陣;z_j 是一個更新門,決定了隱藏狀態(tài)應(yīng)該如何被更新為新的狀態(tài) h_new;(h_j)^t 表示隱藏單元 h_j 的激活函數(shù);sigm( )表示 sigmoid 函數(shù);?是 Hadamard 積。
本文采用與 SHAP 相結(jié)合的 GRU 架構(gòu),包括兩個 128 個單元的堆疊的 GRU 隱藏層,然后是 dropout 層,最后是一個全連接層,通過一個 softmax 函數(shù)產(chǎn)生輸出分類概率?y。
為了收集基于注意力的時間解釋,本文采用了 RETAIN 的 RNN 架構(gòu),在預(yù)測階段,基于注意力的貢獻分數(shù)可以在單個醫(yī)學變量層面上確定。這個 RNN 首先由輸入向量 x_i 的線性嵌入組成:
v_i∈R^m 是二進制輸入向量 x_i∈R^V 的嵌入,W_emb∈R^(m xV)是嵌入的權(quán)重向量,m 是 V 個醫(yī)療變量的嵌入維度。使用兩個 RNNs,RNNa 和 RNNb 分別用于生成訪問和可變水平的注意力向量α和β。注意力向量是通過在時間上向后運行 RNN 來生成的,這意味著 RNNα和 RNNβ都以相反的順序考慮訪問嵌入。最后,我們得到每個病人在第 i 次就診前的情況向量 c_i:
然后,最終預(yù)測結(jié)果的計算方法如下:
基于注意力的貢獻得分可以確定對某一預(yù)測貢獻最大的訪問和醫(yī)療變量。分數(shù)可以用下式計算:
在本文研究中,根據(jù) RNN-GRU 模型修改了 SHAP,使用的是原始 SHAP 實現(xiàn)的修改代碼庫。作者采用了深度學習模型的梯度解釋方法,該方法基于預(yù)期梯度,使用 1000 個隨機樣本的背景數(shù)據(jù),為每個預(yù)測提供 Shapley 值的近似值。作者表示,這種特殊的近似處理并不保證 SHAP 的每一個屬性,但對于本文的目標來說是合適的。
2.2 驗證方法介紹
本研究使用的數(shù)據(jù)庫由 1,314,646 名患者的診斷、藥物和文本記錄組成,這些記錄來自斯德哥爾摩大學的瑞典健康記錄研究銀行(HealthBank);這是一個匿名的患者記錄數(shù)據(jù)庫,最初來自瑞典斯德哥爾摩卡羅林斯卡大學醫(yī)院的 TakeCare CGM 患者記錄系統(tǒng)。診斷由《國際疾病和相關(guān)健康問題統(tǒng)計分類》第十版(ICD-10)中的標準化代碼組成。藥物是根據(jù)解剖學治療化學分類系統(tǒng)(ATC)進行編碼的。為了減少問題的復(fù)雜性,并增加病人的匿名性,非 ADEICD-10 和 ATC 代碼被減少到其更高層次的等級類別,通過選擇每個代碼的前三個字符獲得。此外,就診是以月為單位定義的,這意味著在一個日歷月內(nèi)分配給病人的所有代碼和藥物的組合構(gòu)成了一次就診記錄。患者需要擁有至少三次這樣的記錄,相當于至少三個月的數(shù)據(jù)。與 ADE 相關(guān)的詞袋特征也被提取為二元醫(yī)學變量。本研究使用了 1813 個醫(yī)療變量,包括 1692 個 ICD-10 編碼,109 個 ATC 編碼和 12 個關(guān)鍵詞特征。
評估實驗將數(shù)據(jù)隨機劃分為訓(xùn)練集、驗證集和測試集,比例分別為 0.7、0.1 和 0.2。在驗證集上呈現(xiàn)最佳 AUC 的訓(xùn)練 epoch 所對應(yīng)的模型配置部署在測試集上。為每位患者分配了一個二進制標簽,以表示在他們最后一次就診時是否有 ADE。每個病人樣本都是由包含醫(yī)療變量的就診序列組成的,刪除最后一次就診記錄。為了適應(yīng)因 ADE 相對罕見而導(dǎo)致的類別不平衡問題,作者通過對多數(shù)類別的低度取樣創(chuàng)建了一個平衡的訓(xùn)練集,其中利用了整個訓(xùn)練集的一個隨機分區(qū)。為了說明模型行為的可變性,作者使用 3 個隨機模型和數(shù)據(jù)分區(qū)配置的平均值生成最終結(jié)果。在直接性能比較中,RNN-GRU 被配置成與 RETAIN 相同的多對一格式,并使用跨熵損失函數(shù)進行訓(xùn)練。默認情況下,模型輸出大于 0.5 就會映射出一個正向 ADE 預(yù)測結(jié)果。
為了建立一個用于評估所研究的可解釋方法的臨床基本事實,本文實驗過程中總共招募了 5 位醫(yī)學專家,他們擁有醫(yī)學學位和豐富的臨床藥理學經(jīng)驗。在第一階段的結(jié)構(gòu)化調(diào)查中,這些專家被要求對通過 SHAP 和注意力方法確定的全局醫(yī)學變量進行打分,最終收錄了每種方法的前 20 個變量。評分包括從 - 5 到 5 的整數(shù),0 不包括在內(nèi),其中 - 5 代表該變量與不發(fā)生 ADE 的可能性有非常高的關(guān)聯(lián),而 5 代表變量與發(fā)生 ADE 的可能性有非常高的關(guān)聯(lián)。然后計算出臨床醫(yī)生變量得分的平均值。其次,實驗要求醫(yī)學專家對 10 個有代表性的個體病人記錄中的醫(yī)療變量進行同樣的評分,這些記錄包含了直接發(fā)生在兩個 RNN 都正確預(yù)測的 ADE 之前的醫(yī)療變量的歷史。這是一個案例研究任務(wù),受試者對與過敏相關(guān)的 ADEs T78.4、T78.3 和 T78.2 的發(fā)生有關(guān)的變量進行評分。此外,受試者還被要求考慮變量本身的重要性、與其他變量的相互作用,以及過敏性疾病發(fā)生前的時間段。考慮時間的方法是將相同醫(yī)療變量的歷史記錄作為月度窗口輸入 RNN 模型。臨床醫(yī)生提供的平均分數(shù)被用作評估可解釋方法對同一批(10 份)病人記錄所提供的解釋的基本事實。
本文使用 Top-k Jaccard 指數(shù)比較兩種可解釋方法與臨床專家得分的相似性,該指數(shù)定義為交集大小除以原始集合中排名最高的前 k 個子集的聯(lián)合大小。排名是根據(jù)從臨床專家反應(yīng)的平均值或從可解釋性方法返回的 Shapley 值或注意力貢獻分數(shù)分別計算出的降序絕對分數(shù)來定義的。最后,向醫(yī)學專家展示了如何將解釋方法可視化的示例,并要求他們思考這些解釋是否適用于現(xiàn)實生活中的臨床情況。
2.3 驗證結(jié)果
表 1 給出了 RETAIN 與 RNN-GRU 配置在 AUC 和 F1-Score 方面的性能比較,由表 1 中的結(jié)果可看出,用于生成解釋的模型在兩個模型中的性能相似,RETAIN 的性能略勝一籌。
表 1. 在多對一預(yù)測配置中為所選架構(gòu)指定的 ADE 預(yù)測的 ROC 曲線下的經(jīng)驗測試集面積和微型 F1 分數(shù)
2.3.1 全局特征重要性
圖 1 和圖 2 是兩種方法對醫(yī)學變量的前 20 個全局重要性排名,顯示了平均絕對 SHAP 值,以及數(shù)據(jù)測試集中頂級特征的平均絕對關(guān)注值。圖 3 顯示的是所述的利益相關(guān)者參與方法產(chǎn)生的臨床專家平均絕對分數(shù),用于對醫(yī)學變量進行評分。為清晰起見,作者通過計算所有病人就診中出現(xiàn)特定醫(yī)療變量的每個例子的貢獻系數(shù)分數(shù)的平均絕對值,來報告注意力貢獻分數(shù)的全局重要性。
圖 1. 根據(jù) RETAIN 模型的平均注意力貢獻得分,排名最前的醫(yī)學變量。ATC 代碼前綴為 "M"
圖 2. 根據(jù)平均 SHAP 值對 RNN-GRU 模型輸出的影響,排名靠前的醫(yī)療變量。ATC 代碼前綴為 "M"。標記為 KWord * 的關(guān)鍵詞特征
圖 3. 根據(jù)臨床專家定義的分數(shù),排名靠前的醫(yī)療變量。ATC 代碼前綴為'M'
表 2 給出了 SHAP 和注意力排名與醫(yī)學專家排名的 top-k Jaccard 指數(shù)比較結(jié)果,由表 2 可看出與注意力排名相比,SHAP 在每個 k 值上都提供了與醫(yī)學專家更相似的總體解釋。
表 2. 可解釋性方法和臨床專家對最重要的醫(yī)療變量的排名之間的 Top-k Jaccard 相似性比較
2.3.2 過敏癥 ADEs 的個別解釋的案例研究
表 3 給出了過敏癥 ADEs 案例研究的結(jié)果,將 10 個有代表性的案例的平均臨床專家得分排名與注意力和 SHAP 提供的同等解釋得分排名進行比較。對于每個 Jaccard 指數(shù),所選的前 k% 基于注意力的得分與臨床得分最相似。
表 3. 可解釋性方法和臨床專家對單個病人記錄中最重要的醫(yī)療變量的平均 Top-k% Jaccard 相似度比較
2.3.3 對臨床遇到的問題進行可視化解釋的反饋
圖 4 展示了 SHAP 的時間解釋,表 4 給出了注意力機制的對應(yīng)時間解釋。SHAP 的解釋是通過 SHAP 的特征相加的性質(zhì)來提供的,以便直觀地看到醫(yī)療特征的存在或不存在是如何通過它們在每個時間點的 Shapley 值的總和來定義預(yù)測的。對于注意力的解釋,這種可視化是不可能的,因為貢獻值只反映相對重要性。
受試者得到了兩種方法的描述,并被要求回答:他們更喜歡哪種解釋,他們在理解解釋時面臨哪些挑戰(zhàn),以及對改進解釋的建議。首先,5 位專家中的 4 位更喜歡 SHAP 提供的解釋,原因是它是一個更簡單的解釋,能夠比注意力解釋更有效地理解 ADE 風險的完整觀點。其次,受試者的主要顧慮是,解釋中提供的信息太多,在大多數(shù)臨床上無法使用,而且解釋一個變量的缺失是如何導(dǎo)致風險的也不直觀。改進的建議是,在可能的情況下顯示更少的醫(yī)療變量,以提高理解解釋的效率;其次,確保使用這種解釋的臨床醫(yī)生得到詳細的培訓(xùn)。
圖 4. 向臨床專家展示 SHAP 的解釋。ADE 真正陽性預(yù)測的示例,顯示用 SHAP 評估的 7 個病人就診時間的 ADE 風險的發(fā)展,最后一次就診提示有 ADE。賦值 = 0 和 = 1 分別表示沒有或存在導(dǎo)致風險的變數(shù)
表 4. 與圖 4 相對應(yīng)的真陽性 ADE 解釋的示例,使用 RETAIN 模型與藥物、診斷和文本數(shù)據(jù)。訪問得分和預(yù)測得分指的是相應(yīng)的 ADE 代碼的 softmax 概率
2.4 文章討論
首先,本文實驗表明 RETAIN 和 RNN-GRU 模型的預(yù)測性能結(jié)果相似。這一發(fā)現(xiàn)對于臨床有效性評估很重要,因為我們不希望誘發(fā)一種偏見,即某一方法產(chǎn)生的解釋在臨床上的有效性較差,這是由于模型的性能較差,而不是解釋方法本身的原因。此外,考察圖 1 和圖 2 中的全局特征解釋,根據(jù)與圖 3 中的臨床專家排名的比較,這兩個排名都是獨特的,在醫(yī)學上基本符合 ADE。
SHAP 為每個 top-k Jaccard 指數(shù)提供了更多的臨床驗證的全局解釋,這在很大程度上受到了它對沒有出現(xiàn)在注意力排名中的文本特征的高排名的影響。就單個解釋而言,注意力為每個 top-k Jaccard 指數(shù)提供了最具有臨床有效性的解釋,這表明,由于注意力具有捕捉和利用相關(guān)領(lǐng)域知識的明顯能力,不應(yīng)該將其作為一種可解釋的方法加以否定。
最后,從圖 4 和表 4 中醫(yī)學專家對解釋的反饋中得到的重要啟示是,由于 SHAP 在可視化特征對預(yù)測的貢獻方面具有加法特性,因此它能提供更緊湊和高效的解釋。這種緊湊性對于效率優(yōu)先的實時臨床會診是至關(guān)重要的。另一方面,注意力機制不能提供同樣的緊湊性或加法性,因此對于詳細的離線解釋或不受時間限制的臨床會診可能更可取。
3、總結(jié)
由 ICO 和 The Alan-Turing Institute 共同發(fā)起的 "解釋用人工智能做出的決定(Explanation decisions made with AI)"(2020 年)是對使用人工智能系統(tǒng)的組織中的問責制和透明度要求的實際轉(zhuǎn)化的一次廣泛探索。
在過去的十幾年中,AI 算法 / 模型獲得了巨大的發(fā)展,從 “白盒” 不斷改進為“黑盒”,不管是產(chǎn)業(yè)界還是學術(shù)界,都可以看到大量追求 AI 決策性能提升的工作,將識別率提升 1%、將預(yù)測準確度提升 0.5%、在復(fù)雜背景環(huán)境下提升輸出準確度、提高推薦排序的準確性等等。隨著數(shù)字經(jīng)濟的發(fā)展,國內(nèi)外都越來越重視算法 / 模型的公平性、透明性、可解釋性和問責制。為了讓技術(shù)更好的服務(wù)于人類,而不是讓人類越來越被算法所奴役,解釋用 AI 做出的決策相信是未來大家都會越來越關(guān)注的問題,我們也期待更多更有效、更可行的可解釋性方法、工具的出現(xiàn)。