比10年專業醫生準4倍!微軟發布突破性醫療AI系統
微軟首席執行官Satya Nadella在社交平臺分享了,微軟最新發布的突破性醫療AI系統MAI-DxO。
MAI-DxO最大技術創新在于其模型無關的設計,使其能夠適配不同廠商、不同能力的語言模型,并普遍提升它們的診斷性能。并且能模擬真實醫生的診斷流程,比專業醫生的準確率更高。
根據微軟公布的測試數據顯示,在與21名擁有超過10年從醫經驗的專業醫生的測試對比中,人類醫生在《新英格蘭醫學雜志》的56例隱藏測試集上的平均準確率僅為19.9%。
而MAI-DxO在無預算配置的情況下,使用OpenAI的o3模型時準確率高達81.9%,使用集成模式下高達85.5%,比專業醫生準4倍以上,成本方面也大幅度下降。
此外,微軟還發布了一個專業的醫療序貫診斷基準SDBench。
醫學診斷是一個需要醫生通過不斷收集患者信息、提出假設、驗證假設并逐步細化診斷范圍的復雜序貫過程。
在臨床實踐中,醫生們需要根據患者初步的癥狀和體征,提出一系列針對性的問題,進一步了解患者的病史、生活習慣、家族病史等信息,同時結合各種實驗室檢查和影像學檢查的結果,逐步縮小可能的疾病范圍,最終確定準確的診斷。
而MAI-DxO主要通過模擬一組具有不同角色的虛擬醫生來共同解決診斷問題,從而在診斷準確性和成本效益方面取得顯著的突破。
MAI-DxO簡單介紹
MAI-DxO框架的核心思想是借鑒真實醫療團隊中的協作模式,讓不同的“醫生”發揮各自的專業優勢,共同為診斷過程提供支持,同時通過精心設計的協調機制來避免個體認知偏差和過度檢查等問題。
首先,Dr. Hypothesis負責維護一個按概率排序的鑒別診斷列表,列出最有可能的三種疾病,并在每次獲得新的發現后,以貝葉斯方式更新這些疾病的概率。確保了診斷過程中始終有一個清晰的診斷方向,并能夠根據新信息及時調整診斷假設,從而為后續的檢查選擇和診斷決策提供依據。
Dr. Test-Chooser在每一輪中選擇最多三個能夠最大程度區分領先診斷假設的診斷檢查。通過精心挑選檢查項目,旨在以最小的信息成本獲取最有價值的診斷線索,從而提高診斷效率,減少不必要的檢查費用。這一角色的存在,使得整個診斷過程更加注重檢查的針對性和成本效益。
Dr. Challenger則是監督員身份,負責識別可能存在的錨定偏差,指出與當前領先診斷相矛盾的證據,并提出能夠證偽當前領先診斷的檢查建議。這種挑戰性的思維方式有助于打破診斷過程中的思維定式,促使團隊從多個角度審視診斷假設,避免因過早確定某一診斷而忽視其他可能性。
Dr. Stewardship致力于推行成本意識的醫療服務,會倡導在診斷上等效但更便宜的檢查替代方案,并否決那些收益低且昂貴的檢查。通過這種方式,Dr. Stewardship確保了整個診斷過程在追求準確診斷的同時,能夠有效控制成本,避免資源的浪費。使得整個診斷過程更加符合實際醫療環境中的成本效益原則。
Dr. Checklist負責在幕后進行質量控制,確保模型生成的檢查名稱有效,并保持整個團隊推理過程中的內部一致性。這一角色的存在有助于減少因人為錯誤或邏輯不一致而導致的診斷失誤,保障了整個診斷系統的穩定性和可靠性。
為了評估MAI-DxO的性能,微軟將其與專業人類醫生進行了綜合對比。在診斷準確性這一關鍵指標時,在參與測試的21名醫生中,他們的平均診斷準確率僅為19.9%;
在不同的配置下,MAI-DxO均展現出了遠高于人類醫生的診斷準確率。例如,在無預算配置下,MAI-DxO的診斷準確率達到了81.9%,而其集成配置更是將準確率提升至85.5%。
在成本效益方面,人類醫生在測試中平均每個案例的成本為2963美元。他們平均每個案例花費11.8分鐘,提出6.6個問題并請求7.2項檢查。相比之下,MAI-DxO在控制成本方面表現得更為出色。例如,無預算配置的平均檢查成本為4735美元,而預算內配置的成本進一步降低至2396美元,同時仍保持較高的診斷準確率。
MAI-DxO五大集成模式
為了使MAI-DxO適配不同的醫療場景,來控制成本、診斷效率、準確性等,MAI-DxO提供了五種集成模式。
Instant Answer 模式,該模式完全依賴初始病例摘要進行診斷,不進行任何后續的提問或檢查操作。這種模式的設計靈感來源于臨床中對緊急情況的快速響應需求,例如在資源極度匱乏的偏遠地區或急診場景下,醫生需要基于有限信息迅速做出初步判斷。盡管其診斷準確性相對較低,但能夠在最短時間內提供一個基于模型知識的初步診斷方向,為后續的進一步診療提供基礎。
在技術實現上,該模式直接調用語言模型對初始信息進行處理,通過優化提示詞結構來最大化利用有限信息中的診斷線索,其優勢在于診斷速度極快且成本幾乎為零,但缺點是無法處理復雜病例,適用于對時間要求極高而對準確性要求相對較低的特殊場景。
Question Only 模式則將診斷手段嚴格限制在提問范圍內,不允許訂購任何診斷檢查,成本僅包含一次醫生問診的固定費用。這種模式模擬了初級診療場景中醫生通過詳細詢問病史來獲取診斷信息的過程,強調病史采集在診斷中的基礎作用。
在技術層面,該模式通過構建層次化的提問策略來逐步深入挖掘患者信息,首先從一般情況和主訴相關問題入手,然后根據回答逐步細化到具體的癥狀特征、既往史、家族史等方面。其優勢在于成本低廉且對患者無創傷,適合作為初步篩查手段,但在面對需要客觀檢查證據的疾病時診斷能力會受到限制。該模式的設計理念是充分發揮語言模型的對話理解能力,通過優化提問序列來最大化從患者敘述中獲取的診斷信息量,在基層醫療和健康咨詢等場景中具有重要的應用價值。
Budgeted模式引入了動態預算控制機制,通過一個獨立協調的語言模型調用實現對累計診斷成本的實時跟蹤。該模式允許團隊在看到每項檢查的預估成本后決定是否取消該檢查,從而在診斷過程中實現對成本的主動管理。
技術實現上,該模式首先通過自然語言處理技術將檢查請求轉換為標準化的 CPT 代碼,然后基于預先構建的成本數據庫進行實時估算。當累計成本接近預設預算時,系統會觸發成本預警機制,促使 Dr. Stewardship 角色更嚴格地評估每項檢查的性價比。
No Budget 模式則是MAI-DxO 的完整形態,不設置明確的成本跟蹤或預算限制,允許診斷團隊以最大化診斷準確性為目標進行決策。該模式充分發揮了虛擬醫生團隊的協作優勢,通過 Dr. Hypothesis 的貝葉斯推理、Dr. Test-Chooser 的信息價值評估、Dr. Challenger 的偏差檢測等機制,實現對復雜病例的深度診斷。
在技術實現上,該模式通過強化學習算法優化各角色之間的協作流程,不斷調整診斷策略以提高準確性。其優勢在于能夠處理最復雜的疑難病例,實現最高的診斷準確性,但可能會產生相對較高的診斷成本。該模式適用于對診斷準確性要求極高的場景,例如,三甲醫院的專科會診或罕見病診斷中心,為復雜病例提供了一個不受成本限制的精細化診斷方案。
Ensemble模式則通過模擬多個醫生團隊并行工作來進一步提升診斷準確性,每個團隊獨立運行 No Budget 模式,最后通過一個額外的集成面板進行診斷結果的聚合。該模式的技術核心在于構建多樣化的診斷團隊,每個團隊可能采用不同的基礎模型或參數配置,從而產生具有差異性的診斷思路。在結果聚合階段,系統不僅考慮各團隊診斷結果的一致性,還會評估每個診斷的支持證據強度和推理過程的合理性。通過這種方式,Ensemble 模式能夠有效降低單一團隊可能出現的偏差和錯誤,實現診斷準確性的進一步提升。
序貫診斷基準SDBench
SDBench是微軟AI團隊精心打造的一個交互式評估框架,將《新英格蘭醫學雜志》臨床病理會議(CPC)系列中的304個具有挑戰性的診斷案例轉化為逐步診斷的交互式場景。這些案例涵蓋了從常見疾病到罕見疾病的多樣化臨床表現,為評估診斷主體(無論是人類醫生還是AI)的序貫診斷能力提供了豐富而真實的素材。
在SDBench中,診斷過程從一個簡短的病例摘要開始,例如“一位29歲的女性因咽喉疼痛、扁桃體周圍腫脹和出血入院,癥狀未因抗菌治療而緩解”。
診斷主體需要根據這個初步信息,決定接下來要詢問患者哪些問題、要求進行哪些檢查,或者是否已經準備好做出最終診斷。這個過程是迭代進行的,每次診斷主體提出請求后,都會由一個名為“守門人”的智能體模型來響應。
守門人模型是一個經過特殊設計的語言模型,擁有完整的病例文件,包括最終診斷,但只會根據診斷主體的明確查詢提供相應的臨床發現信息,如果查詢過于模糊或不具體,會禮貌地拒絕回答。這種設計模擬了真實臨床場景中醫生獲取患者信息的過程,確保了診斷主體必須通過合理、有針對性的提問和檢查請求來逐步揭開病例的全貌。
為了進一步增強評估的真實性,SDBench還引入了一個“法官”智能體來評估診斷的準確性。由于不同醫生可能使用不同的術語來描述相同的疾病,但其臨床處理方式可能完全一致,因此法官智能體不會僅僅根據字面描述來評判診斷的正確與否,而是會從核心疾病實體、病因、解剖部位、特異性等多個維度進行綜合評估。
例如,對于一個“細菌性心內膜炎”的診斷,即使診斷主體使用的是“由金黃色葡萄球菌引起的感染性心內膜炎”這樣的更具體描述,只要其核心診斷與真實情況相符,法官智能體就會將其視為正確的診斷。這種基于臨床實質的評估方式能夠更準確地反映診斷主體的實際診斷能力,避免了因術語差異而導致的誤判。
除了診斷準確性,SDBench還將診斷過程中產生的成本作為一個重要的評估指標。在現實的臨床實踐中,醫生在選擇檢查手段時需要考慮其成本效益,不能隨意地進行昂貴的檢查。
因此,SDBench為每次診斷主體與患者之間的互動設定了一個固定成本,對于診斷檢查的請求,則通過一個基于語言模型的查找系統將其轉換為標準化的現行程序術語代碼,并根據美國一個大型衛生系統的2023年定價表來確定相應的成本。這種成本評估方式不僅能夠促使診斷主體在診斷過程中更加注重成本控制,還能為不同診斷主體之間的成本效益比較提供一個標準化的參考。