MedChain:通過交互式順序基準(zhǔn)測試橋接大模型Agent與臨床實(shí)踐之間的差距
摘要
臨床決策制定(CDM)是一個(gè)復(fù)雜、動(dòng)態(tài)的過程,對(duì)醫(yī)療保健交付至關(guān)重要,然而對(duì)于人工智能系統(tǒng)而言仍是一個(gè)重大挑戰(zhàn)。盡管基于大型語言模型(LLM)的代理已經(jīng)在使用許可考試和知識(shí)問答任務(wù)的一般醫(yī)學(xué)知識(shí)上進(jìn)行了測試,但由于缺乏反映實(shí)際醫(yī)療實(shí)踐的綜合測試數(shù)據(jù)集,它們?cè)诂F(xiàn)實(shí)世界場景中的CDM表現(xiàn)有限。為了彌補(bǔ)這一差距,我們提出了MedChain,一個(gè)包含12,163個(gè)臨床案例的數(shù)據(jù)集,涵蓋臨床工作流程的五個(gè)關(guān)鍵階段。MedChain以三個(gè)關(guān)鍵特征區(qū)別于現(xiàn)有基準(zhǔn)測試,即現(xiàn)實(shí)世界臨床實(shí)踐的個(gè)人化、交互性和順序性。此外,為了應(yīng)對(duì)現(xiàn)實(shí)世界的CDM挑戰(zhàn),我們還提出了MedChain-Agent,一個(gè)整合了反饋機(jī)制和MCase-RAG模塊的AI系統(tǒng),以從過往案例中學(xué)習(xí)并適應(yīng)其響應(yīng)。MedChain-Agent在動(dòng)態(tài)收集信息和處理順序臨床任務(wù)方面展現(xiàn)了非凡的適應(yīng)性,顯著超越了現(xiàn)有方法。相關(guān)數(shù)據(jù)集和代碼將在本文被接受后發(fā)布。
1 引言
在人工智能與醫(yī)療保健的交匯點(diǎn),醫(yī)學(xué)面臨最復(fù)雜的挑戰(zhàn)之一:臨床決策制定(CDM)。在醫(yī)療服務(wù)過程中,CDM不僅需要綜合多種數(shù)據(jù)來源并持續(xù)評(píng)估不斷發(fā)展的臨床場景,還需要基于證據(jù)的診斷和治療判斷(Sutton等人,2020年)。盡管這對(duì)最佳患者護(hù)理至關(guān)重要,但這一復(fù)雜過程對(duì)醫(yī)療專業(yè)人員提出了重大的認(rèn)知要求,使其成為人工智能輔助的理想候選(Sendak等人,2020年)。
基于大型語言模型(LLM)的代理的最新進(jìn)展(OpenAI,2023年;Team等人,2023年;Gu等人,2023年;Shinn等人,2024年;Guan等人,2023年;Zhuang等人)已成為復(fù)雜決策任務(wù)的有效解決方案,從軟件開發(fā)(Qian等人,2024年)到辦公自動(dòng)化(Wang等人,2024c年)。在醫(yī)學(xué)領(lǐng)域,這些代理在醫(yī)學(xué)執(zhí)照考試(Singhal等人,2023年;Pal等人,2022年)和基于知識(shí)的評(píng)估(Gilson等人,2023年;Eriksen等人,2023年)中表現(xiàn)出色。盡管大型語言模型在這些評(píng)估中的得分一直遠(yuǎn)高于及格門檻(Singhal等人……(2023年),重要的是要認(rèn)識(shí)到,這些評(píng)估在三個(gè)關(guān)鍵方面未能捕捉到現(xiàn)實(shí)世界臨床決策支持系統(tǒng)(CDM)的復(fù)雜性。
首先,這些基準(zhǔn)測試很少考慮患者特定信息,如過去的病史和當(dāng)前病情(Pal等人,2022年),這在真實(shí)臨床場景中顯著影響臨床決策。這種遺漏未能捕捉到常常塑造個(gè)性化診斷的微妙背景。其次,不同于真實(shí)臨床場景中的決策建立在先前步驟的基礎(chǔ)上,現(xiàn)有的基準(zhǔn)測試將臨床任務(wù)呈現(xiàn)為獨(dú)立問題(Schmidgall等人,2024年),忽略了診斷過程中關(guān)鍵的相互依賴性。實(shí)際上,臨床決策是一個(gè)順序過程,每一步都依賴于前一步,一個(gè)階段的錯(cuò)誤可能會(huì)深刻地影響后續(xù)決策。第三,大多數(shù)基準(zhǔn)測試一次性提供所有相關(guān)信息,提供一個(gè)靜態(tài)的、全面的數(shù)據(jù)集(Tu等人,2024年)。然而,真實(shí)的臨床工作流程需要通過持續(xù)的病人互動(dòng)進(jìn)行多輪動(dòng)態(tài)信息收集。
為了解決這些關(guān)鍵缺口,我們引入了MedChain,這是一個(gè)旨在評(píng)估基于大型語言模型(LLM)的代理在真實(shí)世界臨床環(huán)境中表現(xiàn)的新穎基準(zhǔn)測試。
具體來說,MedChain 包含12,163個(gè)多樣化的病例,涵蓋19個(gè)醫(yī)學(xué)專業(yè)和156個(gè)子類別,包括7,338張帶有相應(yīng)報(bào)告的醫(yī)學(xué)影像。每個(gè)病例都要經(jīng)過五個(gè)關(guān)鍵階段:專業(yè)轉(zhuǎn)診、病史采集、檢查、診斷和治療。與現(xiàn)有的基準(zhǔn)測試不同,MedChain 獨(dú)特地強(qiáng)調(diào)三個(gè)關(guān)鍵特征。1)個(gè)性化:每個(gè)病例都包含詳細(xì)的患者特定信息。最初,代理人僅獲得患者的主訴和基本信息。2)互動(dòng)性:必須通過患者動(dòng)態(tài)咨詢積極收集信息。3)連續(xù)性:每個(gè)階段的決策會(huì)影響后續(xù)步驟。只有在代理人獨(dú)立完成了所有五個(gè)階段后,才會(huì)對(duì)整體診斷過程進(jìn)行評(píng)估。
MedChain-Agent:鑒于這個(gè)基準(zhǔn)測試所呈現(xiàn)的新穎特征和挑戰(zhàn),現(xiàn)有的Agent框架難以充分解決這些問題。為了克服這些限制,我們提出MedChain-Agent,一種多代理協(xié)作框架,使具備反饋機(jī)制的LLM和MedCase-RAG能夠動(dòng)態(tài)收集信息并處理順序臨床任務(wù)。具體來說,MedChain-代理人促進(jìn)三種專業(yè)代理類型之間的協(xié)同互動(dòng):負(fù)責(zé)特定任務(wù)專業(yè)知識(shí)的通用代理人、用于洞察合成的總結(jié)代理以及用于迭代完善的反饋代理。這種分層迭代的方法確保決策是徹底分析和多元視角的產(chǎn)物。此外,為了應(yīng)對(duì)需求基于證據(jù)的研究和患者特定因素整合的CDM(臨床決策模型)的多面性,我們將一種新穎的MedCase-RAG模塊納入我們的MedChain-Agent框架。與傳統(tǒng)的醫(yī)學(xué)RAG方法不同,MedCase-RAG動(dòng)態(tài)擴(kuò)展其數(shù)據(jù)庫,并采用結(jié)構(gòu)化方法進(jìn)行數(shù)據(jù)表示,將每個(gè)醫(yī)學(xué)案例映射到一個(gè)12維的特征向量。該系統(tǒng)能夠高效檢索相關(guān)案例,并幫助模型做出明智的決策。
我們的貢獻(xiàn)總結(jié)如下:
● 我們首次提出了一個(gè)CDM基準(zhǔn),MedChain,全面評(píng)估基于大型語言模型(LLM)的代理的診斷能力,緊密反映現(xiàn)實(shí)世界中的患者護(hù)理。
● 我們提出了一個(gè)基于CDM特性的多代理框架。該系統(tǒng)能夠高效檢索相關(guān)案例,并幫助模型做出明智的決策。
● 通過廣泛的實(shí)驗(yàn),我們展示了MedChain和MedChain-Agent框架在提高臨床決策準(zhǔn)確性和可靠性方面的有效性
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何在臨床決策(CDM)中有效地利用大型語言模型(LLMs)。臨床決策是醫(yī)療交付過程中至關(guān)重要的一環(huán),然而,現(xiàn)有的LLMs在真實(shí)世界場景中的表現(xiàn)有限,主要由于缺乏全面且反映實(shí)際醫(yī)療實(shí)踐的測試數(shù)據(jù)集。
- 研究難點(diǎn):該問題的研究難點(diǎn)包括:現(xiàn)有基準(zhǔn)測試很少考慮患者特定信息、臨床任務(wù)之間缺乏依賴性以及靜態(tài)的數(shù)據(jù)集無法反映動(dòng)態(tài)的患者互動(dòng)。
- 相關(guān)工作:該問題的研究相關(guān)工作有:現(xiàn)有的醫(yī)學(xué)領(lǐng)域的LLMs評(píng)估主要集中在通過結(jié)構(gòu)化評(píng)估測試一般醫(yī)學(xué)知識(shí),但這些基準(zhǔn)測試未能捕捉到真實(shí)世界臨床決策的三個(gè)關(guān)鍵方面:個(gè)性化、互動(dòng)性和順序性。
研究方法
這篇論文提出了MedChain和MedChain-Agent來解決臨床決策中的LLMs評(píng)估問題。具體來說,
- MedChain:MedChain是一個(gè)包含12,163個(gè)臨床病例的數(shù)據(jù)集,覆蓋了19個(gè)醫(yī)學(xué)專業(yè)和156個(gè)子類別,每個(gè)病例經(jīng)過五個(gè)關(guān)鍵階段:專科轉(zhuǎn)診、病史采集、檢查、診斷和治療。MedChain的獨(dú)特特性包括個(gè)性化、互動(dòng)性和順序性。
- MedChain-Agent:MedChain-Agent是一個(gè)多代理協(xié)作框架,結(jié)合了反饋機(jī)制和MedCase-RAG模塊,以動(dòng)態(tài)收集信息和處理順序臨床任務(wù)。該框架包括三種專門的代理類型:通用代理、總結(jié)代理和反饋代理。通用代理負(fù)責(zé)特定任務(wù)的專家知識(shí),總結(jié)代理整合討論和分析,反饋代理提供建設(shè)性反饋并迭代改進(jìn)決策。
- MedCase-RAG:MedCase-RAG是一種新穎的檢索增強(qiáng)生成技術(shù),專為醫(yī)學(xué)背景定制。它將每個(gè)醫(yī)學(xué)病例映射到一個(gè)12維特征向量,并使用文本嵌入模型對(duì)“癥狀描述”進(jìn)行量化,作為密集檢索任務(wù)的主要鍵。此外,MedCase-RAG還包含一個(gè)動(dòng)態(tài)數(shù)據(jù)庫擴(kuò)展機(jī)制,以不斷豐富其知識(shí)庫。
實(shí)驗(yàn)設(shè)計(jì)
- 數(shù)據(jù)收集:數(shù)據(jù)集來源于中國醫(yī)療網(wǎng)站“ii Yi”,包含超過20,000個(gè)驗(yàn)證過的臨床病例,覆蓋28個(gè)疾病類別。這些病例經(jīng)過專業(yè)醫(yī)生的驗(yàn)證和去識(shí)別處理,以確保患者隱私。
- 質(zhì)量控制:實(shí)施了一個(gè)嚴(yán)格的質(zhì)量控制過程,涉及五位具有超過10年臨床經(jīng)驗(yàn)的高級(jí)醫(yī)師。評(píng)估過程隨機(jī)抽查了6,000個(gè)病例(數(shù)據(jù)集的49.3%),每個(gè)病例在多個(gè)維度上進(jìn)行評(píng)估,包括疾病流行度、臨床相關(guān)性、病史準(zhǔn)確性、診斷程序的適當(dāng)性、診斷的正確性和治療建議的適宜性。
- 臨床工作流程模擬:MedChain模擬了完整的臨床工作流程,包括五個(gè)順序任務(wù):專科轉(zhuǎn)診、病史采集、檢查、診斷和治療。每個(gè)階段的結(jié)果作為后續(xù)階段的輸入,創(chuàng)建了一個(gè)依賴關(guān)系,后續(xù)決策受到前面階段質(zhì)量的 影響。
- 交互環(huán)境:開發(fā)了一個(gè)交互環(huán)境,模擬醫(yī)生與患者的咨詢過程。使用本地大型語言模型“gemma2(9b)”作為患者代理,初始化時(shí)提供預(yù)定義的病例信息,但不了解實(shí)際診斷,從而模擬真實(shí)患者的體驗(yàn)。
結(jié)果與分析
- 單代理系統(tǒng):在單代理系統(tǒng)中,GPT-4o-mini和InternVL2的平均得分分別為0.4442和0.3920,表明即使在先進(jìn)模型中,順序決策任務(wù)也具有挑戰(zhàn)性。
- 多代理系統(tǒng):基于InternVL2的多代理系統(tǒng)(如MedAgent和MDAgent)的性能優(yōu)于其單代理對(duì)應(yīng)物,但仍未達(dá)到MedChain-Agent的水平。MedChain-Agent的平均得分為0.5269,顯著提高了決策質(zhì)量和可靠性。
- 開源LLMs:MedChain-Agent框架與開源LLMs的結(jié)合顯示出優(yōu)于專有模型的性能,表明框架可以充分利用開源LLMs的優(yōu)勢。
- 消融研究:移除個(gè)性化、互動(dòng)性和順序性特征后,模型性能在不同任務(wù)上表現(xiàn)出不同程度的下降,驗(yàn)證了這些特征在模擬真實(shí)世界臨床決策過程中的重要性。反饋機(jī)制和MedCase-RAG模塊的移除也對(duì)性能產(chǎn)生了顯著影響,表明它們?cè)趦?yōu)化框架能力方面的互補(bǔ)性。
總體結(jié)論
這篇論文介紹了MedChain,一個(gè)用于評(píng)估大型語言模型在臨床決策中的新穎基準(zhǔn),以及MedChain-Agent,一個(gè)旨在應(yīng)對(duì)真實(shí)世界醫(yī)學(xué)場景復(fù)雜性的創(chuàng)新多代理框架。通過將個(gè)性化、順序性和互動(dòng)性納入評(píng)估過程,MedChain-Agent展示了在順序臨床決策任務(wù)中的卓越性能,甚至在結(jié)合開源LLMs時(shí)優(yōu)于專有模型。這項(xiàng)研究為評(píng)估和發(fā)展醫(yī)療AI系統(tǒng)設(shè)定了新的標(biāo)準(zhǔn),為其在臨床實(shí)踐中的負(fù)責(zé)任整合鋪平了道路。
論文評(píng)價(jià)
優(yōu)點(diǎn)與創(chuàng)新
- 全面的評(píng)估框架:MedChain是第一個(gè)旨在全面評(píng)估大型語言模型在臨床決策中能力的基準(zhǔn),緊密反映了現(xiàn)實(shí)世界中的患者護(hù)理。
- 多代理框架:提出了一個(gè)基于臨床決策特征的多代理框架,該系統(tǒng)能夠高效檢索相關(guān)病例并幫助模型做出明智的決策。
- 反饋機(jī)制:引入了反饋機(jī)制,使每個(gè)任務(wù)的輸出結(jié)果都能得到后續(xù)任務(wù)的評(píng)估和反饋,從而持續(xù)改進(jìn)決策質(zhì)量。
- MedCase-RAG模塊:提出了一個(gè)新的檢索增強(qiáng)生成(RAG)技術(shù),通過結(jié)構(gòu)化的數(shù)據(jù)表示和動(dòng)態(tài)數(shù)據(jù)庫擴(kuò)展機(jī)制,提高了決策能力。
- 個(gè)性化、交互性和順序性:MedChain強(qiáng)調(diào)個(gè)性化、交互性和順序性,更好地模擬了現(xiàn)實(shí)世界中的臨床決策過程。
- 實(shí)驗(yàn)驗(yàn)證:通過廣泛的實(shí)驗(yàn),證明了MedChain和MedChain-Agent框架在提高臨床決策準(zhǔn)確性和可靠性方面的有效性。
不足與反思
- 數(shù)據(jù)源多樣性:MedChain基準(zhǔn)是從中國醫(yī)療網(wǎng)站“iiYi”獲取的12,163份電子健康記錄,盡管數(shù)據(jù)集廣泛且覆蓋了19個(gè)醫(yī)學(xué)專業(yè)和156個(gè)子類別,但它僅來自單一來源。未來工作將納入來自不同地區(qū)或醫(yī)療系統(tǒng)的額外數(shù)據(jù)源,以進(jìn)一步豐富數(shù)據(jù)集,提供更廣泛的臨床場景并增強(qiáng)基準(zhǔn)的泛化能力。
- 患者交互模擬:在交互環(huán)境中,病史采集階段的患者響應(yīng)是由Gemma 2語言模型生成的。雖然這種方法確保了評(píng)估的一致性和可控性,但真實(shí)患者的交互可能更加多樣化和復(fù)雜。未來工作可以探索更先進(jìn)的患者模擬器或納入真實(shí)的對(duì)話數(shù)據(jù),以捕捉更廣泛的溝通風(fēng)格和行為。
關(guān)鍵問題及回答
問題1:MedChain-Agent框架中的多代理系統(tǒng)是如何設(shè)計(jì)的?各自承擔(dān)什么角色?
MedChain-Agent框架包含三種主要的代理類型,每種代理在醫(yī)學(xué)決策過程中扮演不同的角色:
- 通用代理(General Agents):這些代理根據(jù)特定任務(wù)的要求進(jìn)行招募,具備各醫(yī)學(xué)專業(yè)的綜合知識(shí)和分診協(xié)議。例如,在任務(wù)1(專科轉(zhuǎn)診)中,通用代理能夠評(píng)估病例的緊急程度并將患者分配到適當(dāng)?shù)目剖摇?/li>
- 總結(jié)代理(Summarizing Agent):在每個(gè)決策階段結(jié)束時(shí),總結(jié)代理會(huì)整合通用代理的討論和分析,將集體專業(yè)知識(shí)合成一個(gè)連貫的總結(jié),并為每個(gè)任務(wù)提供最終決策,類似于醫(yī)學(xué)背景下高級(jí)醫(yī)師或科主任的角色。
- 反饋代理(Feedback Agent):反饋代理在整個(gè)過程中評(píng)估每個(gè)任務(wù)的輸出,提供建設(shè)性反饋并在必要時(shí)建議迭代改進(jìn)。通過這種方式,反饋代理創(chuàng)建了一個(gè)動(dòng)態(tài)的、自我糾正的系統(tǒng),不斷精煉其決策能力。
這種分層、迭代的 approach 確保決策是經(jīng)過徹底分析和多樣化視角的綜合結(jié)果。
問題2:MedCase-RAG模塊在MedChain-Agent框架中的作用是什么?它如何增強(qiáng)決策能力?
MedCase-RAG模塊是一種新穎的檢索增強(qiáng)生成技術(shù),專為醫(yī)學(xué)背景定制。其主要作用體現(xiàn)在以下幾個(gè)方面:
- 數(shù)據(jù)表示:MedCase-RAG將每個(gè)醫(yī)學(xué)病例映射到一個(gè)12維的特征向量,包括年齡、性別、患者描述、癥狀描述、病史和患者圖像等關(guān)鍵屬性。這種結(jié)構(gòu)化的表示方式使得病例編碼更加全面和標(biāo)準(zhǔn),便于準(zhǔn)確和細(xì)致的檢索。
- 動(dòng)態(tài)檢索:在處理新病例時(shí),MedCase-RAG首先提取并量化“癥狀描述”這一最具代表性的特征,然后通過文本嵌入模型進(jìn)行量化處理。接著,使用余弦相似度計(jì)算在相關(guān)醫(yī)學(xué)部門中進(jìn)行相似性搜索,選擇最相似的前三個(gè)病例作為當(dāng)前檢索結(jié)果,從而提供更全面的決策依據(jù)。
- 數(shù)據(jù)庫擴(kuò)展:MedCase-RAG還包含一個(gè)動(dòng)態(tài)數(shù)據(jù)庫擴(kuò)展機(jī)制,隨著患者完成醫(yī)療過程并康復(fù),其病例信息會(huì)被重新引入數(shù)據(jù)庫作為偽數(shù)據(jù)。這種方法允許系統(tǒng)從新病例中學(xué)習(xí)并適應(yīng)不斷演變的醫(yī)學(xué)知識(shí)和實(shí)踐。
通過這些方法,MedCase-RAG顯著增強(qiáng)了MedChain-Agent框架的決策能力,使其能夠更準(zhǔn)確地檢索相關(guān)病例并做出明智的決策。
問題3:MedChain數(shù)據(jù)集的質(zhì)量控制過程是如何進(jìn)行的?有哪些關(guān)鍵步驟?
MedChain數(shù)據(jù)集的質(zhì)量控制過程涉及以下關(guān)鍵步驟:
- 數(shù)據(jù)來源和處理:數(shù)據(jù)集來源于中國醫(yī)療網(wǎng)站“ii Yi”,包含超過20,000個(gè)驗(yàn)證過的臨床病例,覆蓋28個(gè)疾病類別。這些病例經(jīng)過專業(yè)醫(yī)生的驗(yàn)證和去識(shí)別處理,以確保患者隱私。
- 樣本選擇:質(zhì)量控制過程隨機(jī)抽查了6,000個(gè)病例(數(shù)據(jù)集的49.3%),每個(gè)病例在多個(gè)維度上進(jìn)行評(píng)估,包括疾病流行度、臨床相關(guān)性、病史準(zhǔn)確性、診斷程序的適當(dāng)性、診斷的正確性和治療建議的適宜性。
- 評(píng)估標(biāo)準(zhǔn):采用標(biāo)準(zhǔn)化評(píng)分系統(tǒng)對(duì)每個(gè)病例進(jìn)行量化評(píng)估,涵蓋疾病流行度、臨床相關(guān)性、病史準(zhǔn)確性、診斷程序的適當(dāng)性、診斷的正確性和治療建議的適宜性等維度。使用Cohen's kappa系數(shù)計(jì)算評(píng)估者之間的一致性。
- 結(jié)果分析:質(zhì)量評(píng)估結(jié)果顯示,整體質(zhì)量合格率為94.7%,所有評(píng)估維度的一致性均在92.9%到97.2%之間,表明評(píng)估標(biāo)準(zhǔn)的一致性和高標(biāo)準(zhǔn)。Cohen's kappa系數(shù)為0.82,表明評(píng)估者之間存在強(qiáng)一致性。
- 數(shù)據(jù)處理:不符合標(biāo)準(zhǔn)的病例(5.3%)經(jīng)過修訂或被排除在最終數(shù)據(jù)集之外,以維護(hù)數(shù)據(jù)集的完整性和質(zhì)量標(biāo)準(zhǔn)。
通過這些嚴(yán)格的質(zhì)量控制步驟,MedChain數(shù)據(jù)集確保了高標(biāo)準(zhǔn)的數(shù)據(jù)完整性和臨床相關(guān)性,為評(píng)估LLMs在臨床決策中的表現(xiàn)提供了可靠的基礎(chǔ)。
本文轉(zhuǎn)載自??知識(shí)圖譜科技??,作者:知識(shí)圖譜科技
