生成式AI與醫(yī)療:FDA盲區(qū)中的醫(yī)藥監(jiān)管新挑戰(zhàn)與大模型臨床應(yīng)用"Elsa"
?引言
近年來,大型語言模型(LLMs)以驚人的速度滲透到醫(yī)療領(lǐng)域,盡管它們并非原生用于臨床決策,但醫(yī)療從業(yè)者正日益依賴這些新興AI工具來輔助診療。如果AI產(chǎn)品以“臨床決策支持”為賣點(diǎn),依據(jù)美國食品藥品監(jiān)督管理局(FDA)的規(guī)定,其很可能應(yīng)被視作醫(yī)療器械接受監(jiān)管。然而,現(xiàn)有法規(guī)體系遠(yuǎn)遠(yuǎn)未能覆蓋這一激增的應(yīng)用場景,監(jiān)管滯后于技術(shù)創(chuàng)新,潛在風(fēng)險(xiǎn)與巨大前景并存。
Penn LDI高級成員兼賓大醫(yī)學(xué)院助理教授Gary Weissman等人,進(jìn)行了首個(gè)模擬醫(yī)生如何利用LLM做臨床決策支持的系統(tǒng)性研究。結(jié)果表明,即使明確設(shè)置“不建議作決策”,AI仍然在緊急場景下自動給出類似“醫(yī)療器械”的診療建議,這不僅涉及新科技的倫理風(fēng)險(xiǎn),也對現(xiàn)行監(jiān)管構(gòu)成前所未有的挑戰(zhàn)。
LLM是什么?它怎樣影響醫(yī)療?
“LLM是一種能讀取互聯(lián)網(wǎng)上海量文本的數(shù)據(jù)驅(qū)動程序,能夠模仿對話、生成各種文本輸出。就像互聯(lián)網(wǎng),LLM學(xué)習(xí)到的內(nèi)容有真有假,模型本身無法分辨對錯(cuò),需人工反饋。輸出有時(shí)準(zhǔn)確、易于理解,但也可能完全錯(cuò)誤、或存在潛在危害。” —— Gary Weissman
在醫(yī)療領(lǐng)域,LLM可能能回答“肺炎是什么?”這類一般性問題,但面對“該患者當(dāng)前如何處置肺炎?”則遠(yuǎn)遠(yuǎn)不夠安全與嚴(yán)謹(jǐn)。迄今為止,沒有人真正將LLM用于真實(shí)病患的高風(fēng)險(xiǎn)臨床決策。
研究方法與設(shè)計(jì)亮點(diǎn)
Weissman團(tuán)隊(duì)以模擬場景還原了LLM被醫(yī)生實(shí)際用于決策支持時(shí)的過程。團(tuán)隊(duì)通過輸入包含病例信息并不斷豐富細(xì)節(jié),動態(tài)詢問AI的臨床建議,借此評估AI輸出是否滿足FDA《醫(yī)療決策支持軟件指南》中,將軟件認(rèn)定為“醫(yī)療器械”的判定標(biāo)準(zhǔn)。
值得注意的是:
- 傳統(tǒng)AI“可復(fù)現(xiàn)”、即同一輸入必得相同輸出;而LLM是生成式AI,“同題試十次十種答”,輸出高度波動,給評估帶來挑戰(zhàn)。因此,研究組每組輸入重復(fù)五次,統(tǒng)計(jì)各類輸出比例與波動性。
核心發(fā)現(xiàn)與疑問
“LLM在大多數(shù)場景下,哪怕我們給出了非醫(yī)療器械的參考答案,它仍然自發(fā)給出屬于FDA‘醫(yī)療器械’范疇的決策支持,特別是在緊急情境下尤其突出。”
舉例:急救情境下的AI建議
例如,面臨疑似心臟驟停的場景,GPT-4和Llama-3均建議“立即呼叫急救、給予阿司匹林”,這是普通旁觀者就能執(zhí)行的合理建議;但同時(shí),AI也會建議“給予氧氣吸入”“建立靜脈通道”,這些舉措只適合專業(yè)醫(yī)護(hù)操作。此現(xiàn)象引發(fā)新的監(jiān)管困境:AI輸出跨越了專業(yè)-非專業(yè)的邊界,怎樣針對不同用戶群體分級監(jiān)管?
事件 | GPT-4建議 | Llama-3建議 | 合理性 |
呼叫急救 | √ | √ | 旁觀者合理 |
給阿司匹林 | √ | √ | 旁觀者合理 |
補(bǔ)充氧氣 | √ | √ | 臨床專業(yè)人士 |
靜脈通道 | × | √ | 臨床專業(yè)人士 |
FDA現(xiàn)有監(jiān)管制度的局限
- 當(dāng)前FDA對AI/ML的監(jiān)管仍基于數(shù)十年前制定的醫(yī)療器械法案,不涉及生成式AI特別是LLM的新特性;
- “緊急時(shí)限”“理解決策依據(jù)”這些關(guān)鍵概念,在官方文件中都缺少明確定義,需要更多實(shí)證研究支撐監(jiān)管調(diào)整。
監(jiān)管展望與改革建議
Weissman團(tuán)隊(duì)針對LLM監(jiān)管,提出三方面建議:
- 輸出限制:開發(fā)更高效的“安全圍欄”,讓AI像法規(guī)規(guī)定的傳統(tǒng)設(shè)備一樣,只能在被授權(quán)的適應(yīng)癥上作出建議,避免“超范圍答題”。類似目前OpenAI等企業(yè)為防止版權(quán)/危險(xiǎn)內(nèi)容所加的安全機(jī)制。
- 通用型路徑:針對LLM泛化能力強(qiáng)、很難固守單一適用范圍現(xiàn)實(shí),建議開辟“廣義臨床決策支持工具”的獨(dú)立審批通道,而非精準(zhǔn)到小適應(yīng)癥執(zhí)照。但這個(gè)“廣度-安全性”權(quán)衡,尚無成熟國際范例可供借鑒。
- 用戶區(qū)分監(jiān)管:針對終端“專業(yè)人士”與“普通旁觀者”區(qū)分管理。同一AI建議或許可作為急救現(xiàn)場外圍群眾的急救參考,但對專業(yè)醫(yī)生則要按更高門檻監(jiān)管。例如,推薦“心臟驟停做CPR”“疑似阿片過量給納洛酮”均已反映了潛在用戶分層的邊界問題。
FDA最新進(jìn)展——內(nèi)部AI工具“Elsa”上線
圖:FDA首次大規(guī)模內(nèi)部部署大型語言模型——Elsa
2025年6月2日,F(xiàn)DA宣布自研大型語言模型AI——Elsa,在安全的GovCloud架構(gòu)下啟用,專為FDA員工提供內(nèi)部文檔檢索、文本摘要、信息快速比對、大大提升了臨床方案審查、科學(xué)評估和高優(yōu)先級現(xiàn)場檢查的效率。
Elsa主要功能與特點(diǎn)
- 快速閱讀與文檔總結(jié),提升科學(xué)復(fù)查效率
- 支持不良事件摘要、說明書對比、自動生成數(shù)據(jù)庫代碼
- 堅(jiān)持不訓(xùn)練來自被監(jiān)管企業(yè)的敏感數(shù)據(jù),兼顧保密與合規(guī)性
- 未來將繼續(xù)擴(kuò)展AI在FDA各類數(shù)據(jù)流程與監(jiān)管場景下的應(yīng)用
這標(biāo)志著FDA自身正在主動擁抱生成式AI,意在通過“智能助手”推動監(jiān)管現(xiàn)代化,但同時(shí)如何監(jiān)管外部AI產(chǎn)品,仍然留有巨大空間和挑戰(zhàn)。
結(jié)語:未來展望與呼吁
在啟動AI監(jiān)管新時(shí)代的過程中,聯(lián)邦、州政府甚至醫(yī)院層面的實(shí)驗(yàn)性監(jiān)管政策都將發(fā)揮重要作用。無論舊機(jī)制能否迅速轉(zhuǎn)型,實(shí)證研究、技術(shù)演進(jìn)與制度創(chuàng)新的“協(xié)同賽跑”——正成為AI醫(yī)療監(jiān)管不可阻擋的趨勢。
延展閱讀
- Weissman等人原文發(fā)表于《npj Digital Medicine》,題為“Unregulated Large Language Models Produce Medical Device-like Output”,2025年3月7日上線。
作者:Christine Weeks,戰(zhàn)略項(xiàng)目主任整理編輯:GPT-4.1助理來源:Penn LDI、FDA官方網(wǎng)站
Sources:
??https://ldi.upenn.edu/our-work/research-updates/ai-in-health-care-and-the-fdas-blind-spot/??
本文轉(zhuǎn)載自??知識圖譜科技??,作者:知識圖譜科技
