ICML 2025 | 清華、上海AI Lab提出專家級醫學基準MedXpertQA,看o3、R1哪家強
本文作者來自于清華大學和上海 AI Lab,通訊作者為清華大學丁寧助理教授和清華大學講席教授、上海 AI Lab 主任周伯文教授。
- 論文標題:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
- 論文:https://arxiv.org/abs/2501.18362
- 代碼: https://github.com/TsinghuaC3I/MedXpertQA
- 榜單:https://medxpertqa.github.io
論文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用為評估基準。
基準地址:https://deepmind.google/models/gemma/medgemma/
為什么我們需要一個新的醫學基準?
前沿的 AI 模型距離應用于真實世界的醫療場景還有多遠?
1. 現有基準難度不足:前沿人工智能模型能力的提升,通常依賴于高難度且能夠合理評估模型表現的基準的引導與推動。然而,即使是最具代表性的高難度醫學基準 MedQA 也正在快速飽和(o1 已經 96 分)-> 現有醫學基準已難以有效評估和驅動前沿模型的進一步發展。
2. 現有基準臨床相關性不足:醫學人工智能的一個核心要求是能夠適應真實世界的臨床診斷場景。然而,現有的文本醫學基準普遍缺乏對真實臨床環境的充分覆蓋,而以往的多模態醫學基準則還停留在自動生成的簡單問答對,臨床相關性嚴重不足。
因此,我們提出了 MedXpertQA,包括涵蓋 17 個專業和 11 個身體系統的 4,460 個問題。它包括了兩個子集,分別是用于文本醫學評估的MedXpertQA Text 和用于多模態醫學評估的 MedXpertQA MM 。
為什么選 MedXpertQA?
怎么實現高難度和高臨床相關性?另外,對于一個醫學基準僅有這兩點還不夠。問題的多樣性如何?質量如何?
MedXpertQA 面向上述挑戰做出了重大改進:
- 極具挑戰性,有效區分前沿模型:
a.MedXpertQA 引入了高難度醫學考試題目,并進行了嚴格的篩選和增強,有效解決了現有基準如 MedQA 難度不足的問題;
b.MedXpertQA 是目前最具挑戰性的醫學多選題(MCQA)評測基準 [1],甚至超越 Human's Last Exam (Medical) [2, 3]。下圖展示了前沿模型在各個基準上的表現:
- 高臨床相關性,真實診斷場景:
a.權威且廣泛的數據來源:收集了累計超過 20 個美國醫學執照考試的問題,問題均由高水平專家設計,首次引入專科委員會問題,以提高臨床相關性和全面性。
- 2 個美國醫師執照考試:USMLE 和 COMLEX
- 17/25 個美國醫學專科委員會下屬專科的執照考試
- 多個考察圖像理解的科目考試(歐洲放射學委員會等)
- 初始收集了 37543 個問題,為 MedQA-USMLE 的 3 倍左右
- 下一代多模態醫學評估:
a.MedXpertQA 使用真實場景的、專家設計的高難度問題構建多模態(MM)子集,相較傳統的多模態醫學評估基準做出重大改進;
b.包括多樣化的圖像和豐富的真實臨床信息,考察專家級知識和高級推理能力。而傳統醫學多模態基準為由圖像標題自動生成的簡單問答對,下圖展示了一個對比:
- 「全面的」多樣性:
a.醫學屬性:覆蓋了超過 17 個醫學專科,覆蓋了權威醫學教科書中定義的所有身體系統(11 種);
b.模態:除了放射學,生命體征等醫學影像,還引入了醫生診斷過程中可能需要的文檔,表格等模態信息,完全貼近真實世界的臨床場景;
c.任務:覆蓋了真實診斷場景中的大量診斷任務。
- 極低數據泄露:
a.我們進行數據合成以減輕數據泄露風險,并開展多輪專家評審以確保準確性和可靠性;
b.我們進行了數據污染分析,發現經過數據合成后數據泄露的風險進一步降低;
c.MedXpertQA 是目前數據污染程度最低的醫學評估基準 [1],可以極大程度上實現模型能力客觀和準確的評估。
- 面向 o1 類模型的醫學推理能力評估:
a.MedXpertQA 中的大量題目不僅考察醫學知識記憶,更要求模型進行復雜推理。例如,部分題目需要模型整合文本與圖像中的多重信息線索,排除干擾,形成完整邏輯鏈以正確解答;
b.為此,我們根據題目考察的核心能力(Reasoning 或 Understanding),對每個問題進行了標注。大部分題目歸屬 Reasoning 子集,難點在于醫學場景下的復雜推理,尤其適合評估模型的醫學推理能力。
MedXpertQA 是怎么構建的?
在數據收集階段,我們以多樣性和臨床相關性為核心考量。而在后續的構建階段,我們主要考慮四大核心原則:挑戰性、魯棒性、未見性、準確性。
數據收集之后,MedXpertQA 的構建經過了過濾、增強和專家審查四個步驟:
- 挑戰性:
a.三重過濾機制問題篩選:
1)人類作答分布:利用真實用戶回答的對錯分布,計算 Brier score 等指標分析問題的難易程度;
2)專家標注難度:醫學專家對問題難度進行分級;
3)AI 模型測試結果:選取 8 個領先的 AI 模型,完成 14 次獨立實驗,識別高難度問題。
b.選項擴充:額外生成干擾的錯誤項,文本(Text)子集擴充至 10 個選項,多模態(MM)子集擴充至 5 個選項。
- 魯棒性:
a.相似問題過濾:從文本編輯距離和語義層面識別并移除高度相似的問題,降低模型識別 shortcut 進而 hacking 的風險。
- 未見性:
a.問題改寫:為了降低數據泄漏風險,客觀評測模型能力,我們對每道題的表述進行了徹底的改寫。改寫后的句子內容保持信息完整,但形式上有明顯差異,有助于客觀評估模型的能力;
- 準確性:
a.多輪專家審查:
1)持有醫學執照的專家組成審查組,對完整題庫進行了多輪審查,修正數據增強過程中引入的錯誤或原始數據錯誤,檢查并修復信息缺失、不一致、敘述混亂等問題;
2)發現并修改近千個問題,專家對問題進行了細致的統計,錯誤歸類與人工糾錯,保證最終基準的準確性。
經過嚴格篩選與審查,MedXpertQA 最終保留了原始題庫約 12% 的題目,共計 4,460 題,體現了對質量而非數量的優先考量。下表展示了和現存基準的對比,可以看到 MedXpertQA 展現出了巨大的優勢:
前沿模型表現如何?
我們在 MedXpertQA 上評測了領先的多模態及純文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分數細節可以參考 Leaderboard:https://medxpertqa.github.io。
- 模型表現差距顯著: 多模態模型中,o1 得分最高,但在兩個子集上的總體準確率未超過 50%,表明前沿模型在醫學領域仍有較大提升空間。在 Text 子集上,DeepSeek-R1 是最優開源模型,但與 o1 存在一定差距;
- 人類性能基線:我們根據構建基準時收集的每個問題的作答數據計算了人類醫學生在原始試題上的準確率,進而構建了一個人類性能的極限,其中每個問題的作答數量最高達到 23 萬個,因此具有高度代表性;
- 推理增強模型在 Reasoning 子集優勢明顯: 對比三組基座模型及其推理模型版本得知,增強模型在 Reasoning 子集上展現出顯著且穩定的性能提升,而在 Understanding 子集上則沒有這一趨勢,這表明 Reasoning 子集尤其適合 o1 類模型評估;
- 錯誤分析揭示推理密集特性: 我們利用 LLM 對 GPT-4o 的完整回復進行了錯誤類型標注,發現推理過程錯誤和圖像理解錯誤最為常見,純粹的醫學知識性錯誤則相對較少。
以上結果從多角度印證了 MedXpertQA 的價值,尤其凸顯了 Reasoning 子集的必要性。
總結
MedXpertQA,一個高難度的、高臨床相關性的、全面的醫學基準、面向專家級醫學知識和高級推理能力的評估。當前研究已廣泛體現出推理能力對醫學 AI 模型的重要性。
我們進一步提出:醫學作為一個復雜、豐富且至關重要的領域,有潛力成為評估模型推理能力的新場景,從而拓寬當前以數學和編程為主的評測范式。我們期待 MedXpertQA 能成為推動專業醫學模型與通用推理模型共同發展的重要資源。