斯坦福臨床醫(yī)療AI橫評,DeepSeek把谷歌OpenAI都秒了
斯坦福最新大模型醫(yī)療任務(wù)全面評測,DeepSeek R1以66%勝率拿下第一!
歪國網(wǎng)友紛紛被驚艷住了,原因在于該評測重點(diǎn)聚焦臨床醫(yī)生的日常工作場景,而非僅局限于傳統(tǒng)醫(yī)療執(zhí)照考試題。
圖片
要評測就要全 方 位。
團(tuán)隊(duì)構(gòu)建了含35個(gè)基準(zhǔn)測試的綜合評估框架,覆蓋22個(gè)子類別醫(yī)療任務(wù)。
整個(gè)評測的分類體系還經(jīng)過了臨床醫(yī)生驗(yàn)證,由29名來自14個(gè)醫(yī)學(xué)專科的執(zhí)業(yè)醫(yī)師共同參與開發(fā)。
光作者名單就老長,斯坦福大學(xué)醫(yī)學(xué)院、斯坦福醫(yī)療中心、斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)、微軟的研究人員均在列。
圖片
31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內(nèi)的9個(gè)前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領(lǐng)先。
為當(dāng)前的基準(zhǔn)測試結(jié)果,團(tuán)隊(duì)還打造了一個(gè)可公開訪問的排行榜。
圖片
除DeepSeek R1領(lǐng)先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達(dá)到了63%、64%的勝率。
看了具體研究,網(wǎng)友表示這些評估很有幫助。
圖片
下面來看更多細(xì)節(jié)。
大模型臨床醫(yī)療任務(wù)大考
此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項(xiàng)目標(biāo)準(zhǔn)化跨領(lǐng)域評估思路的啟發(fā)。
圖片
研究核心貢獻(xiàn)之一是構(gòu)建了一個(gè)經(jīng)過臨床醫(yī)生驗(yàn)證的分類體系。
該體系模擬了臨床醫(yī)生日常工作邏輯,包含三個(gè)層級:
- 類別:醫(yī)療活動(dòng)的廣泛領(lǐng)域(如“臨床決策支持”);
- 子類別:類別下的相關(guān)任務(wù)組(如“支持診斷決策”);
- 任務(wù):醫(yī)療服務(wù)中的離散操作(如“生成鑒別診斷”)。
在初步擬定分類體系時(shí),一名臨床醫(yī)生基于《美國醫(yī)學(xué)會(huì)雜志》(JAMA)綜述中梳理的任務(wù),將這些任務(wù)重組為反映真實(shí)醫(yī)療活動(dòng)的功能主題,形成了一個(gè)含5個(gè)類別、21個(gè)子類別、98項(xiàng)任務(wù)的框架。
然后團(tuán)隊(duì)對這個(gè)初始分類體系進(jìn)行驗(yàn)證。
來自14個(gè)醫(yī)學(xué)專科的29名執(zhí)業(yè)臨床醫(yī)生參與問卷調(diào)研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。
根據(jù)反饋,體系最終擴(kuò)展為5 個(gè)類別、22 個(gè)子類別、121 項(xiàng)任務(wù),全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學(xué)研究輔助、管理與工作流程等醫(yī)療實(shí)踐的各個(gè)方面,且26位臨床醫(yī)生對子類別分類達(dá)成96.7%的一致性。
圖片
核心貢獻(xiàn)二,在分類體系基礎(chǔ)上,團(tuán)隊(duì)構(gòu)建了一個(gè)含35個(gè)基準(zhǔn)測試的綜合評估套件,包括:
- 17個(gè)現(xiàn)有基準(zhǔn)測試
- 5個(gè)基于現(xiàn)有數(shù)據(jù)集重新構(gòu)建的基準(zhǔn)測試
- 13個(gè)全新開發(fā)的基準(zhǔn)測試
值得一提的是,13個(gè)全新開發(fā)的基準(zhǔn)測試中有12個(gè)基于真實(shí)的電子健康記錄數(shù)據(jù),有效彌補(bǔ)了現(xiàn)有評估中真實(shí)醫(yī)療數(shù)據(jù)使用不足的問題。
最終這整套基準(zhǔn)測試,完全覆蓋了分類體系中的所有22個(gè)子類別,同時(shí)根據(jù)數(shù)據(jù)的敏感性和訪問限制,這些基準(zhǔn)測試被劃分為14個(gè)公開、7個(gè)需要審批和14個(gè)私有的不同訪問級別。
圖片
考試題準(zhǔn)備就緒后,研究團(tuán)隊(duì)對9個(gè)前沿大語言模型進(jìn)行了系統(tǒng)性評估。
評測結(jié)果如何?
評估顯示,模型表現(xiàn)存在顯著差異。
DeepSeek R1表現(xiàn)最佳,在兩兩對比中以66%的勝率領(lǐng)先,宏觀平均分為0.75,且勝率標(biāo)準(zhǔn)差較低(0.10)。
其中勝率指模型在全部35個(gè)基準(zhǔn)測試的兩兩對比中表現(xiàn)更優(yōu)的比例。勝率標(biāo)準(zhǔn)差(SD)衡量模型獲勝的穩(wěn)定性(值越低=穩(wěn)定性越高)。宏觀平均分是所有35個(gè)基準(zhǔn)測試的平均性能得分。標(biāo)準(zhǔn)差(SD)反映模型在不同基準(zhǔn)測試中的性能波動(dòng)(值越低=跨基準(zhǔn)一致性越高)。
o3-mini緊隨其后,在臨床決策支持類別基準(zhǔn)中表現(xiàn)較優(yōu),以64%的勝率和最高宏觀平均分0.77位居第二。
Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。
另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標(biāo)準(zhǔn)差最低(0.08),顯示出最穩(wěn)定的競爭表現(xiàn)。
圖片
團(tuán)隊(duì)還以熱圖形式展示了每個(gè)模型在35個(gè)基準(zhǔn)測試中的標(biāo)準(zhǔn)化得分,深綠色表示性能更高,深紅色表示低性能。
圖片
結(jié)果顯示,模型在以下基準(zhǔn)測試中表現(xiàn)較差:
- MedCalc-Bench(從患者病歷中計(jì)算醫(yī)學(xué)值)
- EHRSQL(根據(jù)自然語言指令生成用于臨床研究的SQL查詢——原設(shè)計(jì)為代碼生成數(shù)據(jù)集)
- MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)
在NoteExtract基準(zhǔn)測試(從臨床病歷中提取特定信息)中表現(xiàn)最佳。
更深入的分析顯示,不同類別的任務(wù)中模型表現(xiàn)呈現(xiàn)明顯的層次性差異。
在臨床病例生成任務(wù)中,大多數(shù)模型達(dá)到了0.74-0.85的高分表現(xiàn);在患者溝通教育任務(wù)中表現(xiàn)同樣出色,得分在0.76-0.89之間;在醫(yī)學(xué)研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現(xiàn)中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。
這種差異反映了自由文本生成任務(wù)(如臨床病例生成、患者溝通)更適合發(fā)揮大語言模型的自然語言優(yōu)勢,而結(jié)構(gòu)化推理任務(wù)則需要更強(qiáng)的領(lǐng)域特定知識整合和邏輯推理能力。
圖片
對于13個(gè)開放式基準(zhǔn)測試,團(tuán)隊(duì)采用了大語言模型評審團(tuán)(LLM-jury)評估方法。
為評估該方法的有效性,團(tuán)隊(duì)收集了臨床醫(yī)生對部分模型輸出的獨(dú)立評分。其中,從ACI-Bench中選取了31個(gè)實(shí)例,從MEDIQA-QA中選取了25個(gè)實(shí)例,以比較臨床醫(yī)生給出的分?jǐn)?shù)與評審團(tuán)的綜合評分。
圖片
結(jié)果顯示,LLM陪審團(tuán)方法與臨床醫(yī)生評分的一致性達(dá)到0.47的組內(nèi)相關(guān)系數(shù),不僅超過了臨床醫(yī)生之間的平均一致性(ICC=0.43),也明顯優(yōu)于傳統(tǒng)的自動(dòng)化評估指標(biāo)如ROUGE-L(0.36)和BERTScore-F1(0.44)。
團(tuán)隊(duì)由此認(rèn)為,大語言模型評審團(tuán)比標(biāo)準(zhǔn)詞匯指標(biāo)更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評分替代方法的有效性。
成本效益分析是該研究的另一個(gè)創(chuàng)新,基于2025年5月12日的公開定價(jià),團(tuán)隊(duì)結(jié)合基準(zhǔn)測試運(yùn)行和大語言模型評審團(tuán)評估過程中消耗的輸入總token數(shù)和最大輸出token數(shù),估算了每個(gè)模型所需的成本。
圖片
正如預(yù)期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。
推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。
綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價(jià)比上表現(xiàn)良好,以較低成本實(shí)現(xiàn)了約0.63的勝率。
圖片
論文鏈接:https://arxiv.org/pdf/2505.23802
Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications
排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard
參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046