成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福臨床醫(yī)療AI橫評,DeepSeek把谷歌OpenAI都秒了

人工智能
體系最終擴(kuò)展為5 個(gè)類別、22 個(gè)子類別、121 項(xiàng)任務(wù),全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學(xué)研究輔助、管理與工作流程等醫(yī)療實(shí)踐的各個(gè)方面,且26位臨床醫(yī)生對子類別分類達(dá)成96.7%的一致性。

斯坦福最新大模型醫(yī)療任務(wù)全面評測,DeepSeek R1以66%勝率拿下第一!

歪國網(wǎng)友紛紛被驚艷住了,原因在于該評測重點(diǎn)聚焦臨床醫(yī)生的日常工作場景,而非僅局限于傳統(tǒng)醫(yī)療執(zhí)照考試題。

圖片圖片

要評測就要全 方 位。

團(tuán)隊(duì)構(gòu)建了含35個(gè)基準(zhǔn)測試的綜合評估框架,覆蓋22個(gè)子類別醫(yī)療任務(wù)。

整個(gè)評測的分類體系還經(jīng)過了臨床醫(yī)生驗(yàn)證,由29名來自14個(gè)醫(yī)學(xué)專科的執(zhí)業(yè)醫(yī)師共同參與開發(fā)。

光作者名單就老長,斯坦福大學(xué)醫(yī)學(xué)院、斯坦福醫(yī)療中心、斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)、微軟的研究人員均在列。

圖片圖片

31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內(nèi)的9個(gè)前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領(lǐng)先。

為當(dāng)前的基準(zhǔn)測試結(jié)果,團(tuán)隊(duì)還打造了一個(gè)可公開訪問的排行榜。

圖片圖片

除DeepSeek R1領(lǐng)先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達(dá)到了63%、64%的勝率。

看了具體研究,網(wǎng)友表示這些評估很有幫助。

圖片圖片

下面來看更多細(xì)節(jié)。

大模型臨床醫(yī)療任務(wù)大考

此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項(xiàng)目標(biāo)準(zhǔn)化跨領(lǐng)域評估思路的啟發(fā)。

圖片圖片

研究核心貢獻(xiàn)之一是構(gòu)建了一個(gè)經(jīng)過臨床醫(yī)生驗(yàn)證的分類體系。

該體系模擬了臨床醫(yī)生日常工作邏輯,包含三個(gè)層級:

  • 類別:醫(yī)療活動(dòng)的廣泛領(lǐng)域(如“臨床決策支持”);
  • 子類別:類別下的相關(guān)任務(wù)組(如“支持診斷決策”);
  • 任務(wù):醫(yī)療服務(wù)中的離散操作(如“生成鑒別診斷”)。

在初步擬定分類體系時(shí),一名臨床醫(yī)生基于《美國醫(yī)學(xué)會(huì)雜志》(JAMA)綜述中梳理的任務(wù),將這些任務(wù)重組為反映真實(shí)醫(yī)療活動(dòng)的功能主題,形成了一個(gè)含5個(gè)類別、21個(gè)子類別、98項(xiàng)任務(wù)的框架。

然后團(tuán)隊(duì)對這個(gè)初始分類體系進(jìn)行驗(yàn)證。

來自14個(gè)醫(yī)學(xué)專科的29名執(zhí)業(yè)臨床醫(yī)生參與問卷調(diào)研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據(jù)反饋,體系最終擴(kuò)展為5 個(gè)類別、22 個(gè)子類別、121 項(xiàng)任務(wù),全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學(xué)研究輔助、管理與工作流程等醫(yī)療實(shí)踐的各個(gè)方面,且26位臨床醫(yī)生對子類別分類達(dá)成96.7%的一致性。

圖片圖片

核心貢獻(xiàn)二,在分類體系基礎(chǔ)上,團(tuán)隊(duì)構(gòu)建了一個(gè)含35個(gè)基準(zhǔn)測試的綜合評估套件,包括:

  • 17個(gè)現(xiàn)有基準(zhǔn)測試
  • 5個(gè)基于現(xiàn)有數(shù)據(jù)集重新構(gòu)建的基準(zhǔn)測試
  • 13個(gè)全新開發(fā)的基準(zhǔn)測試

值得一提的是,13個(gè)全新開發(fā)的基準(zhǔn)測試中有12個(gè)基于真實(shí)的電子健康記錄數(shù)據(jù),有效彌補(bǔ)了現(xiàn)有評估中真實(shí)醫(yī)療數(shù)據(jù)使用不足的問題。

最終這整套基準(zhǔn)測試,完全覆蓋了分類體系中的所有22個(gè)子類別,同時(shí)根據(jù)數(shù)據(jù)的敏感性和訪問限制,這些基準(zhǔn)測試被劃分為14個(gè)公開、7個(gè)需要審批和14個(gè)私有的不同訪問級別。

圖片圖片

考試題準(zhǔn)備就緒后,研究團(tuán)隊(duì)對9個(gè)前沿大語言模型進(jìn)行了系統(tǒng)性評估。

評測結(jié)果如何?

評估顯示,模型表現(xiàn)存在顯著差異。

DeepSeek R1表現(xiàn)最佳,在兩兩對比中以66%的勝率領(lǐng)先,宏觀平均分為0.75,且勝率標(biāo)準(zhǔn)差較低(0.10)。

其中勝率指模型在全部35個(gè)基準(zhǔn)測試的兩兩對比中表現(xiàn)更優(yōu)的比例。勝率標(biāo)準(zhǔn)差(SD)衡量模型獲勝的穩(wěn)定性(值越低=穩(wěn)定性越高)。宏觀平均分是所有35個(gè)基準(zhǔn)測試的平均性能得分。標(biāo)準(zhǔn)差(SD)反映模型在不同基準(zhǔn)測試中的性能波動(dòng)(值越低=跨基準(zhǔn)一致性越高)。

o3-mini緊隨其后,在臨床決策支持類別基準(zhǔn)中表現(xiàn)較優(yōu),以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。

另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標(biāo)準(zhǔn)差最低(0.08),顯示出最穩(wěn)定的競爭表現(xiàn)。

圖片圖片

團(tuán)隊(duì)還以熱圖形式展示了每個(gè)模型在35個(gè)基準(zhǔn)測試中的標(biāo)準(zhǔn)化得分,深綠色表示性能更高,深紅色表示低性能。

圖片圖片

結(jié)果顯示,模型在以下基準(zhǔn)測試中表現(xiàn)較差:

  • MedCalc-Bench(從患者病歷中計(jì)算醫(yī)學(xué)值)
  • EHRSQL(根據(jù)自然語言指令生成用于臨床研究的SQL查詢——原設(shè)計(jì)為代碼生成數(shù)據(jù)集)
  • MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)

在NoteExtract基準(zhǔn)測試(從臨床病歷中提取特定信息)中表現(xiàn)最佳。

更深入的分析顯示,不同類別的任務(wù)中模型表現(xiàn)呈現(xiàn)明顯的層次性差異。

在臨床病例生成任務(wù)中,大多數(shù)模型達(dá)到了0.74-0.85的高分表現(xiàn);在患者溝通教育任務(wù)中表現(xiàn)同樣出色,得分在0.76-0.89之間;在醫(yī)學(xué)研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現(xiàn)中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

這種差異反映了自由文本生成任務(wù)(如臨床病例生成、患者溝通)更適合發(fā)揮大語言模型的自然語言優(yōu)勢,而結(jié)構(gòu)化推理任務(wù)則需要更強(qiáng)的領(lǐng)域特定知識整合和邏輯推理能力。

圖片圖片

對于13個(gè)開放式基準(zhǔn)測試,團(tuán)隊(duì)采用了大語言模型評審團(tuán)(LLM-jury)評估方法。

為評估該方法的有效性,團(tuán)隊(duì)收集了臨床醫(yī)生對部分模型輸出的獨(dú)立評分。其中,從ACI-Bench中選取了31個(gè)實(shí)例,從MEDIQA-QA中選取了25個(gè)實(shí)例,以比較臨床醫(yī)生給出的分?jǐn)?shù)與評審團(tuán)的綜合評分。

圖片圖片

結(jié)果顯示,LLM陪審團(tuán)方法與臨床醫(yī)生評分的一致性達(dá)到0.47的組內(nèi)相關(guān)系數(shù),不僅超過了臨床醫(yī)生之間的平均一致性(ICC=0.43),也明顯優(yōu)于傳統(tǒng)的自動(dòng)化評估指標(biāo)如ROUGE-L(0.36)和BERTScore-F1(0.44)。

團(tuán)隊(duì)由此認(rèn)為,大語言模型評審團(tuán)比標(biāo)準(zhǔn)詞匯指標(biāo)更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評分替代方法的有效性。

成本效益分析是該研究的另一個(gè)創(chuàng)新,基于2025年5月12日的公開定價(jià),團(tuán)隊(duì)結(jié)合基準(zhǔn)測試運(yùn)行和大語言模型評審團(tuán)評估過程中消耗的輸入總token數(shù)和最大輸出token數(shù),估算了每個(gè)模型所需的成本。

圖片圖片

正如預(yù)期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。

推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。

綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價(jià)比上表現(xiàn)良好,以較低成本實(shí)現(xiàn)了約0.63的勝率。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2505.23802

Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications

排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2019-12-16 14:33:01

AI人工智能斯坦福

2025-04-09 04:22:00

2025-04-08 13:16:34

2017-11-28 14:18:29

2024-04-24 09:47:36

2023-08-10 14:01:08

開源虛擬

2018-01-23 16:48:47

AI

2019-03-24 12:11:47

AI 數(shù)據(jù)人工智能

2025-02-28 09:52:00

2025-04-09 11:25:36

2025-01-14 12:22:10

2021-03-05 10:57:33

AI 數(shù)據(jù)人工智能

2021-03-10 14:48:27

人工智能

2022-07-04 09:12:09

AI技術(shù)論文

2019-03-27 10:47:05

人工智能法律AI

2025-06-04 08:00:00

2023-08-11 13:27:00

AI論文

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內(nèi)核
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线观看成人精品 | 日韩精品在线一区 | 亚洲乱码一区二区 | 久久久久亚洲精品 | 国产精品久久久久久网站 | 成人av观看| 免费看黄视频网站 | 在线亚州 | 国产91在线精品 | 国产精品自产拍 | 国产成人精品视频 | 在线色网| 成人在线精品视频 | 午夜影院视频在线观看 | 成人免费视频网站在线观看 | 日韩中文字幕在线 | 91av亚洲| 涩涩视频网 | 超碰综合 | 一区二区三区在线免费观看 | 一区二区三区在线免费观看视频 | 国产乱码精品一区二三赶尸艳谈 | 亚洲综合小视频 | 精品国模一区二区三区欧美 | 欧美日韩精品一区二区三区视频 | 亚洲精品国产成人 | 国产综合精品 | 国产成人久久精品一区二区三区 | 亚洲 一区 | 国产精品成人一区二区三区 | 一级黄色录像片子 | 国产成人在线播放 | 天堂资源 | 国产特级毛片aaaaaa | 午夜免费电影 | 91精品国产一区二区三区 | 欧美一区精品 | 亚洲精品福利视频 | 日韩精品视频在线 | 在线免费观看a级片 | 日韩1区|