10 大醫(yī)學數(shù)據(jù)集匯總:覆蓋問答/推理/真實臨床記錄/超聲圖像/CT 影像…… 原創(chuàng)
隨著人工智能技術在醫(yī)療領域的深度融合與醫(yī)學影像技術的持續(xù)革新,作為解鎖生命奧秘的關鍵鑰匙,醫(yī)學數(shù)據(jù)正以爆發(fā)式的速度累積增長。它突破了傳統(tǒng)醫(yī)學研究的邊界,為疾病診療與健康管理帶來了革命性的變革。
在醫(yī)學研究從經(jīng)驗驅(qū)動邁向數(shù)據(jù)驅(qū)動的進程中,基礎研究工具的迭代速度逐漸放緩,醫(yī)學數(shù)據(jù)集質(zhì)量成為決定模型能否從理論構(gòu)想走向臨床實用的核心要素。 高質(zhì)量的醫(yī)學數(shù)據(jù)不僅能精準捕捉疾病特征,更能為個性化醫(yī)療方案的制定提供可靠支撐。
醫(yī)學數(shù)據(jù)集的構(gòu)建,絕非簡單的病例羅列。相較于普通數(shù)據(jù)采集,醫(yī)學數(shù)據(jù)的獲取需要嚴格遵循倫理規(guī)范,確保患者隱私安全與數(shù)據(jù)使用合規(guī)。 為保障數(shù)據(jù)的科學性與有效性,需對數(shù)據(jù)采集流程進行標準化設計,合理分配訓練集、驗證集與測試集,并建立動態(tài)更新機制,定期補充新數(shù)據(jù),以適應疾病譜變化與診療技術發(fā)展。面對疾病診斷、藥物研發(fā)、健康預測等復雜醫(yī)學任務,構(gòu)建數(shù)據(jù)集時更要深度剖析各領域需求,整合多模態(tài)信息,模擬真實臨床場景,為模型訓練提供貼合實際的學習樣本。
總而言之,在精準醫(yī)療時代,整個醫(yī)學界對高質(zhì)量醫(yī)學數(shù)據(jù)集的需求呈現(xiàn)井噴式增長。對此,HyperAI 超神經(jīng)為大家整理了一系列極具價值且應用廣泛的醫(yī)學數(shù)據(jù)集,涵蓋癌癥、心臟、骨 X 光等多個醫(yī)學專業(yè)領域, 部分來自頂尖醫(yī)學院校與權威醫(yī)療機構(gòu)。
點擊查看更多開源數(shù)據(jù)集:
醫(yī)學數(shù)據(jù)集匯總
1 JMED 中文真實醫(yī)療數(shù)據(jù)數(shù)據(jù)集
下載地址: https://go.hyper.ai/4jJTa
JMED 數(shù)據(jù)集是一個基于真實世界醫(yī)療數(shù)據(jù)分布的新型數(shù)據(jù)集,由 Citrus Team 于 2025 年構(gòu)建,該數(shù)據(jù)集源自京東健康互聯(lián)網(wǎng)醫(yī)院的匿名醫(yī)患對話,經(jīng)過過濾以保留遵循標準化診斷工作流程的咨詢。初始版本包含 1k 份高質(zhì)量臨床記錄,涵蓋所有年齡段(0-90 歲)和多個專業(yè)。每個問題包括 21 個回答選項。
與現(xiàn)有數(shù)據(jù)集不同,JMED 密切模擬真實的臨床數(shù)據(jù),同時促進有效的模型訓練。雖然基于真實的會診數(shù)據(jù),但它并不是直接來自實際的醫(yī)療數(shù)據(jù),因此研究團隊可以整合模型訓練所需的關鍵要素。
2 MedQA 醫(yī)學文本問答數(shù)據(jù)集
預估大小: 125.64 MB
下載地址: https://go.hyper.ai/VfIWx
MedQA 數(shù)據(jù)集是一個面向醫(yī)學領域的問答數(shù)據(jù)集,模擬了美國醫(yī)療執(zhí)照考試(USMLE)的風格,由麻省理工大學和華中科技大學的研究團隊于 2020 年發(fā)布,相關論文成果為「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。
該數(shù)據(jù)集分別包含 12,723 、 34,251 和 14,123 個問題,旨在評估模型對醫(yī)學知識的理解和應用能力。分為訓練集、開發(fā)集和測試集,分別用于模型訓練、驗證和測試。
3 Medical O1 Reasoning SFT
醫(yī)學推理數(shù)據(jù)集
預估大小: 21.71 MB
下載地址: https://go.hyper.ai/iVUWA
Medical o1 Reasoning SFT 數(shù)據(jù)集為香港中文大學和深圳市大數(shù)據(jù)研究院于 2024 年發(fā)布,相關論文成果為「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」。
該數(shù)據(jù)集專為微調(diào) HuatuoGPT-o1 這一醫(yī)學大語言模型而設計,旨在提升其在復雜醫(yī)學推理任務中的表現(xiàn)。數(shù)據(jù)集的構(gòu)建依賴于 GPT-4o,通過搜索可驗證的醫(yī)學問題并利用醫(yī)學驗證器進行答案驗證,確保了數(shù)據(jù)的準確性和可靠性。
4 ROCOv2 Radiology
多模態(tài)醫(yī)學圖像數(shù)據(jù)集
預估大小: 17.29 GB
下載地址: https://go.hyper.ai/xs4zS
ROCOv2(Radiology Object in COntext Version 2)是一個創(chuàng)新的多模態(tài)醫(yī)學圖像數(shù)據(jù)集,它融合了放射學圖像與相關的醫(yī)學概念和描述。該數(shù)據(jù)集從 PMC Open Access 子集提取放射圖像和相關醫(yī)學概念及說明,在 ROCO 數(shù)據(jù)集基礎上改進了概念提取和過濾。
數(shù)據(jù)集包含 79,789 張放射學圖像,涵蓋多種臨床模式、解剖區(qū)域和方向性(針對 X 射線),每張圖像都有相應的醫(yī)學概念說明。可用于訓練圖像注釋模型、多標簽圖像分類、醫(yī)學領域模型預訓練、深度學習模型評估、圖像檢索和標題生成等。
5 MedCalc-Bench 醫(yī)療計算數(shù)據(jù)集
預估大小: 16.04 MB
下載地址: https://go.hyper.ai/pDbcu
MedCalc-Bench 是一個專門用于評估大語言模型 (LLMs) 在醫(yī)療計算能力方面的數(shù)據(jù)集,由美國國立衛(wèi)生研究院國家醫(yī)學圖書館 (National Library of Medicine, National Institutes of Health) 和弗吉尼亞大學 (University of Virginia) 等 9 個機構(gòu)于 2024 年共同發(fā)布,相關論文成果為「MEDCALC-BENCH: Evaluating Large Language Models for Medical Calculations」,已被 NeurIPS 2024 接受。
該數(shù)據(jù)集包含了 10,055 個訓練實例和 1,047 個測試實例,涵蓋了 55 種不同的計算任務。每個實例都包括患者的筆記、一個計算特定臨床值的問題、最終答案值以及逐步解決方案。分為訓練集和測試集,可以用于微調(diào) LLMs,以提高它們在醫(yī)療計算任務中的表現(xiàn)。
6 AI Medical Chatbot 醫(yī)學對話數(shù)據(jù)集
預估大小: 118.35 MB
下載地址: https://go.hyper.ai/W5OnS
這是一個為運行醫(yī)學聊天機器人而設計的實驗數(shù)據(jù)集,它包含 256,916 條患者與醫(yī)生之間的對話。
7 TCGA-ESCA 癌癥 CT 影像
預估大小: 3.79 GB
下載地址: https://go.hyper.ai/eJWQt
TCGA – ESCA 癌癥 CT 影像是食道癌相關的數(shù)據(jù)集,由 GDC Data Portal 發(fā)布。包含來自 185 人共 5271 個數(shù)據(jù)文件,該數(shù)據(jù)集旨在對癌癥診治過程進行全程數(shù)字化跟蹤,并以數(shù)字檔案的形式記錄檢查結(jié)果、處方和療效。
8 TCGA-KICH 癌癥 CT 影像
預估大小: 1.62 GB
下載地址: https://go.hyper.ai/iVUWA
TCGA – KICH 癌癥 CT 影像是腺瘤和腺癌相關的數(shù)據(jù)集,由 GDC Data Portal 發(fā)布。包含來自 113 人共 2,325 個數(shù)據(jù)文件,該數(shù)據(jù)集旨在對癌癥診治過程進行全程數(shù)字化跟蹤,并以數(shù)字檔案的形式記錄檢查結(jié)果、處方和療效。
9 癌癥 CT 圖像數(shù)據(jù)
預估大小: 367.88 MB
下載地址: https://go.hyper.ai/tsMh5
CT Medical Image Analysis Tutorial: CT images from cancer imaging archive with contrast and patient age Dataset 是一個癌癥 CT 圖像數(shù)據(jù)集,由 Kaggle 于 2016 年發(fā)布,相關論文有「Radiology Data from The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] collection」。
其包含 69 位患者的 475 個病例 CT 影響,用于檢查與對比患者年齡和 CT 圖像數(shù)據(jù)之間的聯(lián)系,它是 TCGA-LUAD 肺癌 CT 影響數(shù)據(jù)庫的一部分。
10 MURA 骨 X 光數(shù)據(jù)集
預估大小: 6.74 GB
下載地址: https://go.hyper.ai/DlGYH
MURA Dataset 是一個大型骨骼 X 光片數(shù)據(jù)集,旨在通過 X 光片確定骨骼是否正常,該數(shù)據(jù)集由斯坦福大學于 2017 年發(fā)布,相關論文有「MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs」。
發(fā)布者希望該數(shù)據(jù)集可以在醫(yī)學成像技術上取得重大進展,這些技術可以在專家層面進行診斷,以改善放射科醫(yī)生人數(shù)有限地區(qū)的醫(yī)療服務。
