AI Hospital(人工智能醫院):在多智能體醫療互動模擬器中評估大模型的表現 - 阿里、華中科技等
摘要
人工智能通過大型語言模型(LLMs)顯著改變了醫療保健領域,尤其在靜態醫學問答基準測試中表現出色。然而,由于醫患互動的復雜性,評估LLMs在現實世界臨床應用的潛力仍然具有挑戰性。為此,我們引入了“人工智能醫院”這一多智能體框架,模擬醫生(玩家)與包括患者和檢查員在內的非玩家角色(NPCs)之間的動態醫療互動。這種設置允許在模擬的臨床場景中更實際地評估LLMs的表現。我們開發了“多視圖醫療評估”(MVME)基準測試,利用高質量的中文醫療記錄和多種評估策略來量化由LLM驅動的醫生智能體在癥狀收集、檢查建議和診斷方面的表現。此外,提出了一種爭議解決協作機制,通過迭代討論提升醫療互動能力。盡管有所改進,當前的LLM(包括GPT-4)在多輪互動場景中的表現與非互動場景相比仍有顯著差距。我們的研究結果強調了進一步研究的必要性,以縮小這些差距并提高大型語言模型在臨床決策方面的能力。
數據、代碼和實驗結果均在??https://github.com/LibertFan/AI_Hospital??開源。
??https://aclanthology.org/2025.coling-main.680/??
核心速覽
研究背景
- 研究問題:這篇文章要解決的問題是如何評估大型語言模型(LLMs)在真實世界臨床診斷中的應用潛力。盡管LLMs在靜態醫學問答基準測試中表現出色,但在動態的醫患互動中仍存在顯著挑戰。
- 研究難點:該問題的研究難點包括:動態診斷過程涉及多輪互動,而現有的LLMs在多輪互動場景中的表現遠不如非互動場景;LLMs難以通過互動收集全面的患者信息并推薦正確的醫學檢查。
- 相關工作:在LLMs應用于醫學領域之前,已有研究嘗試創建醫療領域的代理,但這些代理通常缺乏靈活性,難以準確模擬復雜的醫療場景。近年來,隨著LLMs的發展,其在復雜任務解決方面取得了顯著進展,但在疾病診斷方面的應用仍面臨挑戰。
研究方法
這篇論文提出了AI Hospital框架,用于模擬真實的動態醫療互動,并開發了多視圖醫學評估(MVME)基準來評估LLMs在臨床診斷中的表現。具體來說:
- AI Hospital框架:該框架包括兩個非玩家角色(NPC):患者和檢查員,以及一個玩家角色:醫生。醫生通過與患者和檢查員的互動來完成患者的診斷,并生成完整的診斷報告。
- 多視圖醫學評估(MVME)基準:基于AI Hospital框架,利用高質量的中文病歷記錄,評估LLMs驅動的醫生代理在癥狀收集、檢查建議和診斷等方面的表現。評估方法包括基于鏈接的自動評估、基于模型的評估和人工評估。
- 爭議解決協作機制:提出了一種協作機制,通過多個醫生獨立診斷同一病例,生成不同的對話軌跡和診斷報告,然后通過中心代理促進有效討論,達成共識。

實驗設計
- 數據收集:從iyi.com網站收集了506份高質量的醫療記錄,涵蓋12個專科、48個亞專科和多種疾病。
- 實驗設置:使用多個醫生代理,包括GPT-3.5、GPT-4、Wenxin-4和Qwen-Max,隨機選擇50份病歷樣本,每個代理生成50輪多輪對話軌跡。手動標注所有指標并報告平均值。
- 評估指標:包括癥狀收集、檢查建議和診斷等方面的評估。基于鏈接的評估使用ICD-10標準計算實體重疊度;基于模型的評估使用GPT-4作為評估器,采用離散評分系統;人工評估由專業醫生進行,遵循與GPT-4評估器相同的評分標準。
結果與分析
- AI Hospital框架的有效性:實驗結果表明,AI Hospital框架能夠有效模擬真實的醫療互動,所有指標的平均值均超過95,表明代理行為可靠且一致。
- 各種醫生代理的性能:在多輪互動場景中,現有LLMs的表現顯著低于一步GPT-4方法。例如,GPT-4在診斷準確性、推理和治療計劃方面的表現不足其一步設置性能的50%。
- 協作機制的效果:協作機制在一定程度上提高了性能,但仍未能達到上限。主要原因是醫生代理未能準確推薦必要的醫學檢查,以及在互動過程中未能詢問關鍵的相關癥狀。
- 診斷性能與信息完整性的關系:分析表明,患者信息的完整性越高,診斷質量越高。當前LLMs難以通過互動動態收集全面的信息,推薦正確的醫學檢查也是一個挑戰。

總體結論
這篇論文通過引入AI Hospital框架和多視圖醫學評估(MVME)基準,首次系統地評估了LLMs在模擬醫療互動中的能力。結果表明,盡管LLMs在靜態醫學問答中表現出色,但在動態診斷場景中仍存在顯著局限性。未來的研究應致力于改進LLMs的訓練,以縮小與人類專家在臨床醫學中的差距。
論文評價
優點與創新
- 引入AI Hospital框架論文首次提出了基于大型語言模型(LLM)的多代理框架,模擬真實的醫療互動,全面評估LLM在復雜臨床場景中的能力。
- 建立MVME基準開發了多視圖醫學評估(MVME)基準,利用高質量的中文病歷記錄,評估LLM驅動的醫生代理在收集癥狀、推薦檢查和診斷方面的表現。
- 提出爭議解決協作機制提出了一種協作機制,通過迭代討論提高診斷準確性,展示了LLM在臨床診斷中的應用潛力。
- 數據集可視化與統計對數據集進行了詳細的可視化與統計分析,展示了數據集的多樣性和復雜性,強調了醫生代理在面對數百種檢查選項時需要具備的強大信息收集能力。
- 多部門性能分析分析了不同醫院部門的LLM性能,揭示了交互能力與診斷能力之間的正相關性,強調了考慮每個醫療專業的特定要求和復雜性在部署LLM時的重要性。
不足與反思
- 數據集局限性數據集主要來源于中文病歷記錄,可能限制了研究結果的通用性,難以推廣到其他語言和醫療系統。
- 患者代理設置的影響未探討不同患者背景、文化和偏見對模型性能的影響。
- 外部工具的利用未研究醫生代理利用外部工具、外部知識或基于多模態醫療信息做出決策的能力。
- 資源消耗依賴大量LLM API進行新模型的測試會消耗大量資源,并可能增加碳排放。
- 框架的復雜性提出的AI Hospital和協作機制基于相對簡單的框架,可能未能完全捕捉真實世界臨床合作的復雜性,需要在更多樣化和實際的設置中進一步細化和驗證。
關鍵問題及回答
問題1:AI Hospital框架是如何設計的,它如何模擬真實的醫療互動?
AI Hospital框架包括兩個非玩家角色(NPC):患者和檢查員,以及一個玩家角色:醫生。醫生通過與患者和檢查員的互動來完成患者的診斷,并生成完整的診斷報告。具體來說,患者代理會根據病歷中的基本信息與醫生進行對話,提供癥狀和既往病史等信息。醫生則會根據這些信息詢問更多的細節,并建議進行必要的醫學檢查。檢查員代理會提供相應的檢查結果,醫生再根據這些結果進行診斷,并最終生成診斷報告。整個對話過程被限制在預定的最大回合數內,以確保對話的結構化和有限性。
問題2:多視圖醫學評估(MVME)基準是如何構建的,它包括哪些評估方法?
多視圖醫學評估(MVME)基準基于AI Hospital框架,利用高質量的中文病歷記錄來評估LLMs驅動的醫生代理在癥狀收集、檢查建議和診斷等方面的表現。具體評估方法包括:
- 基于鏈接的自動評估計算診斷結果部分的實體重疊度,使用ICD-10標準提取疾病實體并計算其重疊度,以衡量最終診斷的準確性。
- 基于模型的評估使用GPT-4作為評估器,對診斷報告的各個部分(如癥狀收集、檢查建議、診斷結果等)進行離散評分,評分標準為1到4(從差到優)。
- 人工評估由專業醫生進行,遵循與GPT-4評估器相同的評分標準,對診斷報告的各個方面進行詳細評估。
問題3:實驗結果表明LLMs在多輪互動場景中的表現如何,與一步GPT-4方法相比有哪些差距?
實驗結果表明,現有LLMs在多輪互動場景中的表現顯著低于一步GPT-4方法。具體來說,GPT-4在診斷準確性、推理和治療計劃方面的表現不足其一步設置性能的50%。這表明LLMs在動態診斷場景中仍存在顯著局限性,難以通過互動收集全面的患者信息并推薦正確的醫學檢查。此外,協作機制雖然在一定程度上提高了性能,但仍未能達到上限,主要原因是醫生代理未能準確推薦必要的醫學檢查,以及在互動過程中未能詢問關鍵的相關癥狀。
本文轉載自??知識圖譜科技??,作者:Wolfgang
