MALADE:基于大模型Agent智能體與RAG技術進行藥物警戒的不良事件AE識別
MALADE: Orchestration of LLM-powered Agents with RAG for Pharmacovigilance
摘要
在大型語言模型(LLMs)的時代,鑒于它們卓越的文本理解和生成能力,開發基于LLMs的新方法用于可信醫學知識的綜合、提取和總結是前所未有的機遇。本文關注藥物警戒(PhV)問題,其重要性和挑戰在于從多樣化的文本資源(如醫學文獻、臨床筆記和藥品標簽)中識別不良藥物事件(ADEs)。不幸的是,這一任務受到多種因素的阻礙,包括藥物和結果的術語差異,以及ADEs描述通常淹沒在大量敘述性文本中。我們提出了MALADE,首個有效利用大型語言模型與檢索增強生成技術進行藥品標簽數據中ADEs提取的協作多代理系統。該技術涉及將相關信息從文本資源中提取出來,并增強對大型語言模型的查詢,指導其生成與增強數據一致的響應。MALADE是一種通用的、不依賴于特定大型語言模型的架構,其獨特功能包括:(1)利用多種外部資源,如醫學文獻、藥品標簽和FDA工具(例如開放FDA藥物信息API)、(2)以結構化格式提取藥物與結果之間的關聯以及關聯的強度,以及(3)為已建立的關聯提供解釋。MALADE采用GPT-4 Turbo或GPT-4o和FDA藥物標簽數據進行實例化,在針對ADE的真值表OMOP上,其ROC曲線下面積(AUC)達到0.90,展示了其有效性。我們的實現利用了Langroid多智能體大型語言模型框架,可在???https://github.com/jihyechoi77/malade??找到。
??https://arxiv.org/pdf/2408.01869??
引言
藥物警戒(PhV)是識別和預防藥品上市后由藥品引起的不良藥物事件(ADEs)的科學。藥物警戒對制藥行業和公共衛生極為重要,因為它旨在通過檢測新的安全問題并在必要時進行干預來保護患者的福祉。
藥物警戒(PhV)中的核心問題是不良事件(ADE)提取:給定一個藥物類別C和一個不良事件E,確定C是否(以及多大程度上)與E相關聯。這項任務需要分析來自各種來源的大量文本數據,如患者病歷、臨床筆記、社交媒體、自發報告系統、藥品標簽、醫學文獻和臨床試驗報告。除了這些來源的文本量龐大之外,ADE提取還因藥物名稱和結果的變異性,以及ADE描述通常隱藏在大量敘述文本中的事實而變得更加復雜[14]。
傳統上,各種經典的自然語言處理(NLP)和深度學習技術已被用于解決此問題[22, 21, 35, 2]。與經典的NLP方法相比,當今最好的大型語言模型(LLMs)(甚至較弱的開源/本地LLMs[36, 11])在文本理解和生成能力方面取得了顯著進步,利用這些模型不僅可以改進現有的ADE提取方法,還可以考慮之前無法使用的數據來源。最近嘗試將LLMs應用于ADE提取僅利用現成的ChatGPT[38],但其性能有限,且提取理由的推理不一致[32]。這些限制主要源于兩個因素:(a)準確的ADE提取需要訪問特定數據源,而LLMs可能沒有“見過”。 在預訓練期間,依賴大型語言模型(LLM)的“內置”知識會產生不準確的結果;以及(b)由于大型語言模型是概率性下一個詞元預測器,如果未經仔細地將任務分解為更簡單的子任務,或者沒有機制來驗證和糾正它們的響應,則可能會產生錯誤或不可靠的結果。
本文中,我們介紹了MALADE2(由LLM驅動的多智能體用于不良事件提取),這是首個有效的不良事件提取多智能體檢索增強生成(RAG)系統。我們的方法利用兩項關鍵技術分別解決上述兩個限制:(a)RAG,通過用相關文本數據片段增強輸入查詢,并提示大型語言模型生成與增強信息一致的響應[15];(b)策略性地協調多個基于大型語言模型的智能體,每個智能體負責整體不良事件提取任務中相對較小的子任務[41]。具體來說,我們的系統有專門處理這些子任務的智能體(見圖1):(1)從醫療數據庫(例如,MIMIC-IV)中識別每個藥物類別的代表性藥物,(2)從外部文本知識庫(例如,FDA藥品標簽數據庫)收集有關這些藥物的副作用信息,最后,(3)編寫總結藥物類別對不良事件影響的最終答案。每個智能體被分配一個特定的子任務,并與其它智能體合作完成不良事件識別的最終目標。此外,我們通過將每個代理與一個評論家代理配對來進一步提高多代理系統的可靠性,評論家代理的作用是驗證其對應代理的行為和響應。
該系統雖然在這里專門用于藥物不良反應(ADE)的提取,但它展示了如何使用多代理方法生成可信的、基于證據的總結和信心分數,以應對需要綜合來自多個臨床知識和數據來源的證據的挑戰性醫學問題。因此,MALADE 可以被視為一個案例研究,說明了一種可能隨后應用于臨床決策支持(PhV)中其他問題的方法,包括識別可能的藥物相互作用,以及 PhV 以外的臨床問題,如識別臨床記錄中已知的感興趣病狀的癥狀。
總之,我們的論文做出了以下貢獻。
- 精確評估。與僅生成一個二進制標簽來指示藥物類別 C 是否與不良事件 E 相關聯的較簡單系統不同,我們的方法生成不同的分數,包括一個信心分數,該分數表示大型語言模型對其標簽分配的信心程度。這些分數允許我們根據既定的觀察性醫療成果伙伴計劃(OMOP)關于常見藥物類別相關聯的 ADE 的真實表格進行嚴格的定量評估[19]。我們使用 GPT-4 Turbo 實現了大約 0.85 的曲線下面積(AUC),而使用 GPT-4o 實現了 0.90(第 5 節)。據我們所知,這是基線方法中表現最好的,盡管直接比較可能有限。
- 生成有理有據的回應和理由。MALADE的設計提供了對于高風險應用如藥物不良反應(ADE)識別至關重要的關鍵特性:(1)一種結構化的藥物與結果關聯格式,包括表示關聯強度和不良事件罕見性的分數;這對于確保提取關聯信息的穩健下游處理非常重要。(2)對提取的藥物與結果關聯提供理由,使人類專家能夠理解并驗證這些關聯。這得益于MALADE架構中的RAG組件,它允許利用各種外部來源,如醫學文獻、藥品標簽、FDA工具(例如OpenFDA藥品信息API),以及常見的臨床數據來源如OMOP或PCORI,甚至可用的特定電子健康記錄(EHR)系統。可觀測性,即完整的、詳細的代理間對話和中間步驟日志;這些對于調試和審計系統行為至關重要。
- 關于醫療保健領域中機器學習的可泛化見解。我們提出的多代理架構不依賴于大型語言模型和數據源,并且基于旨在成為多個基于大型語言模型的代理協調的通用構建塊的設計原語(第3節)。因此,盡管MALADE專門用于藥物不良反應(ADE)識別,我們的設計方法學提供了一個通用的藍圖,用于有效構建多智能體系統,以進行可信的醫療知識合成和總結,具有廣泛的醫療應用。
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何從藥物標簽數據中提取不良藥物事件(ADE)信息。藥物警戒(PhV)是識別和預防藥品上市后引起的不良藥物事件的科學,其重要性在于保護患者的健康。
- 研究難點:該問題的研究難點包括:藥物和結果的術語不一致、ADE描述通常埋藏在大量敘述性文本中、以及現有的自然語言處理(NLP)和深度學習技術在處理這些復雜任務時的局限性。
- 相關工作:該問題的研究相關工作包括使用大規模研究計劃(如Sentinel、OMOP和OHDSI)開發的因果發現方法,以及利用社交論壇構建ADE預測模型的研究。最近的研究嘗試將大型語言模型(LLMs)應用于ADE提取,但存在知識局限性和單一LLM推理不一致的問題。
研究方法
這篇論文提出了MALADE,第一個有效的多代理系統,利用LLM和檢索增強生成(RAG)技術進行藥物標簽數據中的ADE提取。具體來說,
檢索增強生成(RAG):RAG技術通過向LLM輸入查詢時增加相關文本數據,并指導LLM生成與增強數據一致的回答。RAG的基本思想是當向LLM代理提出查詢時,從文檔存儲中檢索最相關的文檔片段,并將原始查詢與這些片段一起增強為新的提示,然后讓LLM基于這些片段回答原始查詢。
多代理系統:MALADE系統由多個LLM驅動的代理組成,每個代理負責一個相對較小的子任務。具體子任務包括:從醫學數據庫中識別代表性藥物、從外部文本知識庫中收集藥物的副作用信息、以及綜合藥物類別對不良健康結果的影響。每個代理與其對應的評論家代理配對,評論家代理驗證主要代理的行為和響應。
- Agent-Critic交互:Agent-Critic交互模式是MALADE系統的核心設計模式。Agent負責處理外部輸入和輸出,Critic則驗證Agent的推理步驟和遵守指令的情況,并提供反饋。Agent根據反饋迭代生成響應,直到Critic滿意為止。
實驗設計
- 數據收集:實驗使用了OMOP評估地面真值任務(OMOP ADE任務),該任務為每個(藥物類別,健康結果)對分配三個標簽之一:“增加”、“減少”或“無效果”。
- 實驗設置:評估了兩種LLM:GPT-4 Turbo和GPT-4o。對于每種LLM,進行了基于效果的分類和基于ADE的分類的AUC和F1評分分析。
- 實驗步驟:
STEP 1:通過查詢FDA的國家藥品代碼(NDC)數據庫,找到屬于藥物類別的廣泛藥物列表,并使用MIMIC-IV臨床數據庫中的處方率篩選出最常見的三種藥物。
STEP 2:每個代表性藥物的Agent(DrugAgent)生成關于其對健康結果影響的自由文本摘要,參考最新的外部藥物參考來源(如FDA藥物標簽數據庫)。
STEP 3:類別Agent(CategoryAgent)結合藥物級別的信息,生成結構化報告,包括藥物類別對健康結果影響的標簽、置信度得分、風險水平和證據強度。
結果與分析
ADE識別效果:MALADE在區分ADE和非ADE方面表現良好,基于效果的AUC和F1評分分別為0.851和0.609(GPT-4 Turbo),基于ADE的AUC和F1評分分別為0.851和0.556(GPT-4 Turbo)。
Agent-Critic交互的有效性:通過消融實驗,發現Critic顯著提高了系統的可靠性,特別是在沒有強證據的情況下(即地面真值為“無效果”的情況)。
- 理由提供的洞察:MALADE提供的理由與人類專家的推理一致,幫助理解系統的失敗模式。例如,CategoryAgent偶爾會基于弱證據過高估計藥物類別的風險。
總體結論
這篇論文提出的MALADE系統通過多代理協作和檢索增強生成技術,顯著提高了從藥物標簽數據中提取ADE信息的準確性和可靠性。MALADE不僅在ADE識別任務中表現出色,還為未來的藥物警戒研究和更廣泛的醫療任務提供了一個通用的多代理系統架構。
論文評價
優點與創新
- 多代理架構:MALADE是第一個有效的多代理檢索增強生成(RAG)系統,專門用于藥物標簽數據中的不良事件(ADE)提取。
- 外部知識利用:系統能夠利用多種外部資源,如醫學文獻、藥物標簽和FDA工具(例如OpenFDA藥物信息API),增強了LLM的知識基礎。
- 結構化輸出:系統生成的結構化報告包含藥物與結果關聯的標簽、置信度分數、證據強度和罕見度,便于下游處理和分析。
- 解釋性:系統提供了對已建立關聯的解釋,使人類專家能夠理解和驗證這些關聯。
- 可靠性增強:通過引入批評代理來驗證主要代理的輸出,顯著提高了系統的可靠性。
- 通用性:MALADE的設計方法不僅適用于ADE提取,還可以擴展到其他藥物安全監測(PhV)問題,甚至是非醫療領域的臨床問題。
不足與反思
- 依賴文本數據:系統完全依賴于文本形式的FDA標簽數據,如果信息沒有明確包含在標簽中,系統無法可靠地識別任何關聯的強度。
- 未來工作方向:未來的工作方向包括從電子健康記錄(EHR)數據中提取ADE,以及使用本地開源LLMs(如LlaMA、Grok和Mistral)進行詳細評估。
- 初始步驟的人工輸入:系統在初始步驟需要一些最小的人工輸入,例如將藥物類別名稱轉換為FDA數據庫期望的形式。
- 結構化輸入輸出的增加:增加使用結構化輸入和輸出可能會提高DrugAgent的可靠性,例如通過強制執行某些信息的存在來替代自由文本輸出。
關鍵問題及回答
問題1:MALADE系統在處理藥物標簽數據中的不良藥物事件(ADE)提取時,如何利用檢索增強生成(RAG)技術來提高準確性?
- 檢索階段:從文檔存儲中檢索與查詢最相關的文檔片段。這些文檔片段可以是來自FDA藥物標簽數據庫、MIMIC-IV臨床數據庫等的外部文本數據。
- 增強階段:將檢索到的文檔片段與原始查詢合并,形成新的提示。例如,如果原始查詢是“Does drug X increase the risk of condition Y?”,增強后的提示可能是“Given the passages below: [document passages], answer this question: Does drug X increase the risk of condition Y based ONLY on these passages, and indicate which passages support your answer.”
- 生成階段:指導大型語言模型(LLM)基于增強后的提示生成回答。LLM生成的回答將與增強的文檔片段保持一致,并提供引用這些片段作為支持其回答的證據。
通過這種方式,RAG技術不僅彌補了LLM在預訓練過程中可能缺乏的最新知識,還提供了證據引用的能力,從而顯著提高了ADE提取的準確性和可靠性。
問題2:MALADE系統中的多代理架構是如何設計的?各個代理的具體職責是什么?
MALADE系統由多個LLM驅動的代理組成,每個代理負責一個相對較小的子任務。具體職責如下:
- DrugFinder:從FDA的國家藥品代碼(NDC)數據庫中找到屬于藥物類別的廣泛藥物列表,并使用MIMIC-IV臨床數據庫中的處方率篩選出最常見的三種藥物。
- DrugAgent:每個代表性藥物的Agent生成關于其對健康結果影響的自由文本摘要。它參考最新的外部藥物參考來源(如FDA藥物標簽數據庫),并生成包含風險水平和證據強度的摘要。
- CategoryAgent:結合藥物級別的信息,生成結構化報告。報告包括藥物類別對健康結果影響的標簽(如“增加”、“減少”或“無效果”)、置信度得分、風險水平和證據強度。
- Critic:每個Agent與其對應的評論家代理配對,評論家代理驗證主要代理的行為和響應。Critic提供反饋,幫助Agent改進其生成的回答,直到其回答被接受為止。
通過這種多代理協作的方式,MALADE系統能夠有效地分解復雜任務,并利用多個代理的集體知識和專長來提高ADE提取的準確性和可靠性。
問題3:MALADE系統在實驗中表現如何?與其他方法相比有哪些優勢?
- ADE識別效果:MALADE在區分ADE和非ADE方面表現良好。基于效果的AUC和F1評分分別為0.851和0.609(GPT-4 Turbo),基于ADE的AUC和F1評分分別為0.851和0.556(GPT-4 Turbo)。這些結果表明,MALADE能夠有效識別藥物類別與健康結果之間的關聯。
- Agent-Critic交互的有效性:通過消融實驗,發現Critic顯著提高了系統的可靠性,特別是在沒有強證據的情況下(即地面真值為“無效果”的情況)。這表明,Agent-Critic交互模式在提高LLM生成回答的準確性方面起到了關鍵作用。
- 理由提供的洞察:MALADE提供的理由與人類專家的推理一致,幫助理解系統的失敗模式。例如,CategoryAgent偶爾會基于弱證據過高估計藥物類別的風險。這種能力不僅提高了系統的準確性,還為改進系統提供了有價值的反饋。
與其他方法相比,MALADE系統的優勢在于其結合了多代理協作和檢索增強生成技術,能夠在處理復雜任務時提供更高準確性和可靠性的結果。此外,MALADE的設計原則和具體實現方法還可以擴展到其他醫療任務和藥物警戒研究中,提供更通用的解決方案。
本文轉載自???知識圖譜科技???,作者:知識圖譜科技
