OpenAI深夜開源HealthBench，60個國家合力開發5000段真實對話

2025-05-13 09:08:00

OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。

今天凌晨1點30，OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。

與以往測試集不同的是，該測試集的5000段核心測試對話，全部由來自60個國家/地區的26個專業262名醫生打造，極大增強了該測試集的難度、真實性以及豐富度。并且采用了多輪對話測試，而不是簡單的答題或選擇題模式。

根據測試數據顯示，大模型在醫療保健領域的表現有了顯著提升。例如，從之前的GPT-3.5Turbo的16%到GPT-4o的32%，再到o3的60%，整體性能有了顯著進步。尤其是小型模型的進步更為突出，GPT-4.1nano不僅在性能上超越了GPT-4o，而且成本降低了25倍。

開源地址：https://github.com/openai/simple-evals

HealthBench簡單介紹

據OpenAI透露，這262名醫生是從1021位醫生多輪測試中嚴格篩選出來的，在數據收集過程中，還會持續對醫生輸入的質量進行審查，依據自動化質量指標和對評分標準的審核，對醫生團隊進行輪換，確保數據的高質量。

HealthBench的示例被劃分為7個主題和5個軸。7個主題分別為緊急轉診、情境尋求、全球健康、健康數據任務、專業定制溝通、不確定性下的響應和響應深度，每個主題都聚焦于現實世界健康交互的重要方面，評估模型在相應場景下的表現。

5個軸包括準確性、完整性、溝通質量、情境感知和指令遵循，用于衡量模型行為的不同維度，使評估能夠更全面、細致地分析模型性能。

多數對話通過定制的大模型合成生成，由開發團隊與醫生合作，詳細列舉重要的醫療場景，例如，用戶逐步描述暗示醫療緊急情況、醫療專業人員要求總結臨床筆記、模糊查詢需要澄清等，然后將這些場景轉化為多輪對話。

此外，部分數據來自醫生對大語言模型在醫療場景中的紅隊測試，用于識別模型的弱點和不當響應；還有一部分數據源自Google發布的HealthSearchQA評估數據集，通過大語言模型將其中的查詢改寫為用戶與模型的對話。生成對話后，會使用o1-preview進行相關性過濾，確保對話真實、自洽、與身體健康相關且無不完整消息。

創建評分標準是HealthBench的關鍵環節。每個對話都有對應的由醫生編寫的評分標準。評分標準涵蓋了各種屬性，例如應包含的具體事實、清晰溝通的方面、對特定主題的常見誤解等，并且每個標準都有從 -10 到 10 的非零分值，用于獎勵或懲罰模型的響應。

評估時，基于模型的評分器會根據對話、模型響應和評分標準，獨立判斷每個標準是否被滿足。如果滿足，模型將獲得相應的全部分值；否則不得分。最終，通過對所有滿足標準的分值進行求和，并除以該示例的最大可能得分，得到單個示例的分數。

醫生參與構建流程

在醫生撰寫響應的實驗中，OpenAI邀請醫生針對HealthBench任務撰寫他們認為的理想響應。醫生被分為三組，第一組醫生在沒有任何AI輔助的情況下，僅根據HealthBench中的對話撰寫響應，他們可以使用互聯網但不能使用AI工具；

第二組醫生可以參考2024年8-9月的模型GPT-4o和o1-preview生成的四個響應，并在此基礎上進行改進；第三組醫生則參考2025年4月的模型GPT-4.1和o3的響應進行撰寫。

醫生在參考2024年模型響應的基礎上，能夠在一定程度上提高響應的性能，尤其在完整性和準確性方面有較為明顯的提升。

然而，當參考2025年性能更好的模型響應時，醫生并不能進一步提高響應質量。在比較醫生撰寫的響應與參考響應的得分時發現，對于2024年模型的參考響應，醫生撰寫的響應改進的比例高于惡化的比例56.2%vs39.8%；

而對于2025年模型的參考響應，醫生改進和惡化參考響應的可能性幾乎相同46.8%vs47.7%。此外，沒有參考模型響應的醫生撰寫的響應相對較短，這在一定程度上影響了其在HealthBench上的得分，因為HealthBench分數與響應長度存在一定的相關性。

大模型測試數據

在驗證評分器可靠性的元評估中，一共有34個預定義的共識評分標準。對于每個HealthBench Consensus示例，收集多個醫生對特定響應是否滿足標準的注釋，將這些注釋與基于模型的評分器的評分進行比較。采用宏觀F1分數來評估模型評分與醫生評分的一致性，宏觀F1分數是每個類別的F1分數的無加權平均值，能夠平衡對真陽性和假陽性的敏感度。

通過三種方法建立基線：典型醫生基線，通過計算每個醫生與其他醫生評分的 MF1 分數來估計人類專家之間的一致性；個體醫生基線，報告每個個體醫生的 MF1 分數；

隨機基線，以經驗陽性率返回 “met” 的弱基線，其 MF1 分數為 0.50。以 GPT-4.1 作為主要的基于模型的評分器進行評估，結果顯示，GPT-4.1 在所有主題上都超過了隨機基線，在7個主題中的5個主題上超過了平均醫生得分，在6個主題上位于醫生得分的上半部分，在所有主題上都高于醫生得分的下三分之一。

這表明GPT-4.1 作為模型評分器能夠與專家評分相匹配。此外，研究團隊還使用 OpenAI 的 2025年4月的其他模型作為評分器進行元評估，發現 GPT-4.1 的表現最佳，o4-mini 和 o3 稍次，GPT-4.1 mini 和 nano 則表現較差。

這可能與GPT-4.1 在提示調整過程中被使用有關。同時多次運行HealthBench評估不同模型，發現模型得分的標準差約為 0.002，表明評估結果的總體可變性較低，進一步證明了 HealthBench 評估的可靠性。

責任編輯：張燕妮來源： AIGC開放社區

OpenAI 開源模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI深夜開源HealthBench，60個國家合力開發5000段真實對話

HealthBench簡單介紹

醫生參與構建流程

大模型測試數據