成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI深夜開源HealthBench,60個國家合力開發5000段真實對話

人工智能 新聞
OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。

今天凌晨1點30,OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。

與以往測試集不同的是,該測試集的5000段核心測試對話,全部由來自60個國家/地區的26個專業262名醫生打造,極大增強了該測試集的難度、真實性以及豐富度。并且采用了多輪對話測試,而不是簡單的答題或選擇題模式。

根據測試數據顯示,大模型在醫療保健領域的表現有了顯著提升。例如,從之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整體性能有了顯著進步。尤其是小型模型的進步更為突出,GPT-4.1nano不僅在性能上超越了GPT-4o,而且成本降低了25倍。

圖片

開源地址:https://github.com/openai/simple-evals

HealthBench簡單介紹

據OpenAI透露,這262名醫生是從1021位醫生多輪測試中嚴格篩選出來的,在數據收集過程中,還會持續對醫生輸入的質量進行審查,依據自動化質量指標和對評分標準的審核,對醫生團隊進行輪換,確保數據的高質量。

HealthBench的示例被劃分為7個主題和5個軸。7個主題分別為緊急轉診、情境尋求、全球健康、健康數據任務、專業定制溝通、不確定性下的響應和響應深度,每個主題都聚焦于現實世界健康交互的重要方面,評估模型在相應場景下的表現。

5個軸包括準確性、完整性、溝通質量、情境感知和指令遵循,用于衡量模型行為的不同維度,使評估能夠更全面、細致地分析模型性能。

圖片

多數對話通過定制的大模型合成生成,由開發團隊與醫生合作,詳細列舉重要的醫療場景,例如,用戶逐步描述暗示醫療緊急情況、醫療專業人員要求總結臨床筆記、模糊查詢需要澄清等,然后將這些場景轉化為多輪對話。

此外,部分數據來自醫生對大語言模型在醫療場景中的紅隊測試,用于識別模型的弱點和不當響應;還有一部分數據源自Google發布的HealthSearchQA評估數據集,通過大語言模型將其中的查詢改寫為用戶與模型的對話。生成對話后,會使用o1-preview進行相關性過濾,確保對話真實、自洽、與身體健康相關且無不完整消息。

創建評分標準是HealthBench的關鍵環節。每個對話都有對應的由醫生編寫的評分標準。評分標準涵蓋了各種屬性,例如應包含的具體事實、清晰溝通的方面、對特定主題的常見誤解等,并且每個標準都有從 -10 到 10 的非零分值,用于獎勵或懲罰模型的響應。

評估時,基于模型的評分器會根據對話、模型響應和評分標準,獨立判斷每個標準是否被滿足。如果滿足,模型將獲得相應的全部分值;否則不得分。最終,通過對所有滿足標準的分值進行求和,并除以該示例的最大可能得分,得到單個示例的分數。

醫生參與構建流程

在醫生撰寫響應的實驗中,OpenAI邀請醫生針對HealthBench任務撰寫他們認為的理想響應。醫生被分為三組,第一組醫生在沒有任何AI輔助的情況下,僅根據HealthBench中的對話撰寫響應,他們可以使用互聯網但不能使用AI工具;

第二組醫生可以參考2024年8-9月的模型GPT-4o和o1-preview生成的四個響應,并在此基礎上進行改進;第三組醫生則參考2025年4月的模型GPT-4.1和o3的響應進行撰寫。

醫生在參考2024年模型響應的基礎上,能夠在一定程度上提高響應的性能,尤其在完整性和準確性方面有較為明顯的提升。

然而,當參考2025年性能更好的模型響應時,醫生并不能進一步提高響應質量。在比較醫生撰寫的響應與參考響應的得分時發現,對于2024年模型的參考響應,醫生撰寫的響應改進的比例高于惡化的比例56.2%vs39.8%;

而對于2025年模型的參考響應,醫生改進和惡化參考響應的可能性幾乎相同46.8%vs47.7%。此外,沒有參考模型響應的醫生撰寫的響應相對較短,這在一定程度上影響了其在HealthBench上的得分,因為HealthBench分數與響應長度存在一定的相關性。

大模型測試數據

在驗證評分器可靠性的元評估中,一共有34個預定義的共識評分標準。對于每個HealthBench Consensus示例,收集多個醫生對特定響應是否滿足標準的注釋,將這些注釋與基于模型的評分器的評分進行比較。采用宏觀F1分數來評估模型評分與醫生評分的一致性,宏觀F1分數是每個類別的F1分數的無加權平均值,能夠平衡對真陽性和假陽性的敏感度。

通過三種方法建立基線:典型醫生基線,通過計算每個醫生與其他醫生評分的 MF1 分數來估計人類專家之間的一致性;個體醫生基線,報告每個個體醫生的 MF1 分數;

隨機基線,以經驗陽性率返回 “met” 的弱基線,其 MF1 分數為 0.50。以 GPT-4.1 作為主要的基于模型的評分器進行評估,結果顯示,GPT-4.1 在所有主題上都超過了隨機基線,在7個主題中的5個主題上超過了平均醫生得分,在6個主題上位于醫生得分的上半部分,在所有主題上都高于醫生得分的下三分之一。

圖片

這表明GPT-4.1 作為模型評分器能夠與專家評分相匹配。此外,研究團隊還使用 OpenAI 的 2025年4月的其他模型作為評分器進行元評估,發現 GPT-4.1 的表現最佳,o4-mini 和 o3 稍次,GPT-4.1 mini 和 nano 則表現較差。

這可能與GPT-4.1 在提示調整過程中被使用有關。同時多次運行HealthBench評估不同模型,發現模型得分的標準差約為 0.002,表明評估結果的總體可變性較低,進一步證明了 HealthBench 評估的可靠性。

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2024-01-26 13:44:19

OpenAI模型GPT-4

2025-05-14 10:09:12

2023-01-16 07:43:06

2024-02-19 14:47:47

2025-04-17 09:58:32

2023-07-01 08:30:48

ChatGPT人工智能

2024-12-13 09:40:00

2024-12-19 09:55:49

2025-03-12 07:56:29

ManusOpenAIUI

2024-01-11 16:59:21

OpenAI

2024-07-26 09:29:38

2011-11-15 11:19:49

WiFi

2025-03-12 10:32:23

2011-11-01 09:52:42

2010-11-24 15:05:09

2018-01-04 21:54:57

2025-04-17 08:59:59

2019-04-26 10:37:41

GithubPython項目

2025-04-17 06:10:57

2025-04-29 09:06:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品日女人 | 亚洲视频在线观看 | 欧美成年人视频在线观看 | 在线视频 中文字幕 | 国产精品精品视频一区二区三区 | 久久亚洲精品国产精品紫薇 | 久久com| 国产综合精品 | 欧美一卡二卡在线观看 | 黄色一级大片在线免费看产 | 国产福利精品一区 | 欧美成人免费电影 | 欧美成人免费在线视频 | 欧美a区| 亚洲综合中文字幕在线观看 | 久操国产 | 夜夜久久| av毛片| 亚洲在线一区 | 日韩欧美在线不卡 | 俺去俺来也www色官网cms | 午夜资源| 国产精品久久九九 | 亚洲精品国产电影 | 欧美成人免费 | 我爱操 | 狠狠躁躁夜夜躁波多野结依 | 亚洲视频在线观看免费 | 精品国产精品一区二区夜夜嗨 | 99精品在线观看 | 国产日韩精品视频 | 99精品九九 | 日本成人中文字幕 | 欧美激情一区二区 | 丝袜一区二区三区 | 久久看看| 亚欧精品| 日韩中字幕 | 日日淫 | 日韩在线成人 | 亚洲 中文 欧美 日韩 在线观看 |