10 大醫(yī)學數(shù)據(jù)集匯總：覆蓋問答/推理/真實臨床記錄/超聲圖像/CT 影像…… 原創(chuàng)

發(fā)布于 2025-5-16 13:31

瀏覽

0收藏

隨著人工智能技術在醫(yī)療領域的深度融合與醫(yī)學影像技術的持續(xù)革新，作為解鎖生命奧秘的關鍵鑰匙，醫(yī)學數(shù)據(jù)正以爆發(fā)式的速度累積增長。它突破了傳統(tǒng)醫(yī)學研究的邊界，為疾病診療與健康管理帶來了革命性的變革。

在醫(yī)學研究從經(jīng)驗驅(qū)動邁向數(shù)據(jù)驅(qū)動的進程中，基礎研究工具的迭代速度逐漸放緩，醫(yī)學數(shù)據(jù)集質(zhì)量成為決定模型能否從理論構(gòu)想走向臨床實用的核心要素。 高質(zhì)量的醫(yī)學數(shù)據(jù)不僅能精準捕捉疾病特征，更能為個性化醫(yī)療方案的制定提供可靠支撐。

醫(yī)學數(shù)據(jù)集的構(gòu)建，絕非簡單的病例羅列。相較于普通數(shù)據(jù)采集，醫(yī)學數(shù)據(jù)的獲取需要嚴格遵循倫理規(guī)范，確保患者隱私安全與數(shù)據(jù)使用合規(guī)。 為保障數(shù)據(jù)的科學性與有效性，需對數(shù)據(jù)采集流程進行標準化設計，合理分配訓練集、驗證集與測試集，并建立動態(tài)更新機制，定期補充新數(shù)據(jù)，以適應疾病譜變化與診療技術發(fā)展。面對疾病診斷、藥物研發(fā)、健康預測等復雜醫(yī)學任務，構(gòu)建數(shù)據(jù)集時更要深度剖析各領域需求，整合多模態(tài)信息，模擬真實臨床場景，為模型訓練提供貼合實際的學習樣本。

總而言之，在精準醫(yī)療時代，整個醫(yī)學界對高質(zhì)量醫(yī)學數(shù)據(jù)集的需求呈現(xiàn)井噴式增長。對此，HyperAI 超神經(jīng)為大家整理了一系列極具價值且應用廣泛的醫(yī)學數(shù)據(jù)集，涵蓋癌癥、心臟、骨 X 光等多個醫(yī)學專業(yè)領域， 部分來自頂尖醫(yī)學院校與權威醫(yī)療機構(gòu)。

點擊查看更多開源數(shù)據(jù)集：

https://go.hyper.ai/g9PvL

醫(yī)學數(shù)據(jù)集匯總

1 JMED 中文真實醫(yī)療數(shù)據(jù)數(shù)據(jù)集

下載地址： https://go.hyper.ai/4jJTa

JMED 數(shù)據(jù)集是一個基于真實世界醫(yī)療數(shù)據(jù)分布的新型數(shù)據(jù)集，由 Citrus Team 于 2025 年構(gòu)建，該數(shù)據(jù)集源自京東健康互聯(lián)網(wǎng)醫(yī)院的匿名醫(yī)患對話，經(jīng)過過濾以保留遵循標準化診斷工作流程的咨詢。初始版本包含 1k 份高質(zhì)量臨床記錄，涵蓋所有年齡段（0-90 歲）和多個專業(yè)。每個問題包括 21 個回答選項。

與現(xiàn)有數(shù)據(jù)集不同，JMED 密切模擬真實的臨床數(shù)據(jù)，同時促進有效的模型訓練。雖然基于真實的會診數(shù)據(jù)，但它并不是直接來自實際的醫(yī)療數(shù)據(jù)，因此研究團隊可以整合模型訓練所需的關鍵要素。

2 MedQA 醫(yī)學文本問答數(shù)據(jù)集

預估大小： 125.64 MB

下載地址： https://go.hyper.ai/VfIWx

MedQA 數(shù)據(jù)集是一個面向醫(yī)學領域的問答數(shù)據(jù)集，模擬了美國醫(yī)療執(zhí)照考試（USMLE）的風格，由麻省理工大學和華中科技大學的研究團隊于 2020 年發(fā)布，相關論文成果為「What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams」。

該數(shù)據(jù)集分別包含 12,723 、 34,251 和 14,123 個問題，旨在評估模型對醫(yī)學知識的理解和應用能力。分為訓練集、開發(fā)集和測試集，分別用于模型訓練、驗證和測試。

3 Medical O1 Reasoning SFT

醫(yī)學推理數(shù)據(jù)集

預估大小： 21.71 MB

下載地址： https://go.hyper.ai/iVUWA

Medical o1 Reasoning SFT 數(shù)據(jù)集為香港中文大學和深圳市大數(shù)據(jù)研究院于 2024 年發(fā)布，相關論文成果為「HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs」。

該數(shù)據(jù)集專為微調(diào) HuatuoGPT-o1 這一醫(yī)學大語言模型而設計，旨在提升其在復雜醫(yī)學推理任務中的表現(xiàn)。數(shù)據(jù)集的構(gòu)建依賴于 GPT-4o，通過搜索可驗證的醫(yī)學問題并利用醫(yī)學驗證器進行答案驗證，確保了數(shù)據(jù)的準確性和可靠性。

4 ROCOv2 Radiology

多模態(tài)醫(yī)學圖像數(shù)據(jù)集

預估大小： 17.29 GB

下載地址： https://go.hyper.ai/xs4zS

ROCOv2（Radiology Object in COntext Version 2）是一個創(chuàng)新的多模態(tài)醫(yī)學圖像數(shù)據(jù)集，它融合了放射學圖像與相關的醫(yī)學概念和描述。該數(shù)據(jù)集從 PMC Open Access 子集提取放射圖像和相關醫(yī)學概念及說明，在 ROCO 數(shù)據(jù)集基礎上改進了概念提取和過濾。

數(shù)據(jù)集包含 79,789 張放射學圖像，涵蓋多種臨床模式、解剖區(qū)域和方向性（針對 X 射線），每張圖像都有相應的醫(yī)學概念說明。可用于訓練圖像注釋模型、多標簽圖像分類、醫(yī)學領域模型預訓練、深度學習模型評估、圖像檢索和標題生成等。

5 MedCalc-Bench 醫(yī)療計算數(shù)據(jù)集

預估大小： 16.04 MB

下載地址： https://go.hyper.ai/pDbcu

MedCalc-Bench 是一個專門用于評估大語言模型 (LLMs) 在醫(yī)療計算能力方面的數(shù)據(jù)集，由美國國立衛(wèi)生研究院國家醫(yī)學圖書館 (National Library of Medicine, National Institutes of Health) 和弗吉尼亞大學 (University of Virginia) 等 9 個機構(gòu)于 2024 年共同發(fā)布，相關論文成果為「MEDCALC-BENCH: Evaluating Large Language Models for Medical Calculations」，已被 NeurIPS 2024 接受。

該數(shù)據(jù)集包含了 10,055 個訓練實例和 1,047 個測試實例，涵蓋了 55 種不同的計算任務。每個實例都包括患者的筆記、一個計算特定臨床值的問題、最終答案值以及逐步解決方案。分為訓練集和測試集，可以用于微調(diào) LLMs，以提高它們在醫(yī)療計算任務中的表現(xiàn)。

6 AI Medical Chatbot 醫(yī)學對話數(shù)據(jù)集

預估大小： 118.35 MB

下載地址： https://go.hyper.ai/W5OnS

這是一個為運行醫(yī)學聊天機器人而設計的實驗數(shù)據(jù)集，它包含 256,916 條患者與醫(yī)生之間的對話。

7 TCGA-ESCA 癌癥 CT 影像

預估大小： 3.79 GB

下載地址： https://go.hyper.ai/eJWQt

TCGA – ESCA 癌癥 CT 影像是食道癌相關的數(shù)據(jù)集，由 GDC Data Portal 發(fā)布。包含來自 185 人共 5271 個數(shù)據(jù)文件，該數(shù)據(jù)集旨在對癌癥診治過程進行全程數(shù)字化跟蹤，并以數(shù)字檔案的形式記錄檢查結(jié)果、處方和療效。

8 TCGA-KICH 癌癥 CT 影像

預估大小： 1.62 GB

下載地址： https://go.hyper.ai/iVUWA

TCGA – KICH 癌癥 CT 影像是腺瘤和腺癌相關的數(shù)據(jù)集，由 GDC Data Portal 發(fā)布。包含來自 113 人共 2,325 個數(shù)據(jù)文件，該數(shù)據(jù)集旨在對癌癥診治過程進行全程數(shù)字化跟蹤，并以數(shù)字檔案的形式記錄檢查結(jié)果、處方和療效。

9 癌癥 CT 圖像數(shù)據(jù)

預估大小： 367.88 MB

下載地址： https://go.hyper.ai/tsMh5

CT Medical Image Analysis Tutorial: CT images from cancer imaging archive with contrast and patient age Dataset 是一個癌癥 CT 圖像數(shù)據(jù)集，由 Kaggle 于 2016 年發(fā)布，相關論文有「Radiology Data from The Cancer Genome Atlas Lung Adenocarcinoma [TCGA-LUAD] collection」。

其包含 69 位患者的 475 個病例 CT 影響，用于檢查與對比患者年齡和 CT 圖像數(shù)據(jù)之間的聯(lián)系，它是 TCGA-LUAD 肺癌 CT 影響數(shù)據(jù)庫的一部分。

10 MURA 骨 X 光數(shù)據(jù)集

預估大小： 6.74 GB

下載地址： https://go.hyper.ai/DlGYH

MURA Dataset 是一個大型骨骼 X 光片數(shù)據(jù)集，旨在通過 X 光片確定骨骼是否正常，該數(shù)據(jù)集由斯坦福大學于 2017 年發(fā)布，相關論文有「MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs」。

發(fā)布者希望該數(shù)據(jù)集可以在醫(yī)學成像技術上取得重大進展，這些技術可以在專家層面進行診斷，以改善放射科醫(yī)生人數(shù)有限地區(qū)的醫(yī)療服務。

?著作權歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

贊

回復