医学影像数据集集锦
前言
本项目的目标是整理一个医学影像方向数据集的列表,提供每个数据集的基本信息,并在其License允许的条件下提供不限速下载 。项目按照数据集关注的器官对其进行分类。需要整理的数据集很多,我们十分期待大佬们为项目作出贡献 。
如果您发现项目已有的内容中有任何错误(包括但不限于格式问题,网址失效,数据错误,简介信息补充等),可以通过PR进行修正。
如果您想用的数据集没有出现在列表中,请按照模板提交Issue ,并尽量详细的描述数据集信息。我们会尽快添加并可以提供免费代下 。
当前共收录约 20 个方向的 70+ 个数据集
肝脏
LiTS
名称
标注内容
类型
模态
数量
标签格式
文件格式
LiTS
肝脏/肝脏肿瘤
分割
CT
130+70
0/1标签
nii
LiTS数据集包含130组训练数据和70组测试数据,其中70组测试数据是没有标签的。LiTS训练集中包含3DIRCADB中的所有数据,所以如果合并多个数据集不要合并这两个。
分割结果可以在线提交进行评估,在线提交方法参考 。 在线提交地址
数据集论文:The Liver Tumor Segmentation Benchmark (LiTS)
相关项目: 基于Paddle的肝脏CT影像分割
Aistudio下载
Sliver07
名称
标注内容
类型
模态
数量
标签格式
文件格式
Sliver07
肝脏
分割
CT
20+10
0/1标签
MetaImage
这个数据集比较老了,现在用的也比较少,一些研究会将sliver和lits合起来,这样基本上就是所有常用的关于肝脏分割的公开数据了。mhd格式可以用 SimpleITK 读,在medseg项目中有转换成nii的脚本
Aistudio下载
3D-IRCADB
名称
标注内容
类型
模态
数量
标签格式
文件格式
3D-IRCADb 01 02
肝脏/肝肿瘤
分割
CT
20+2
surface mesh
dcm
3D-IRCADb是比较早的一个数据集,有两个子集,分别包含20组和2组CT片子。
Aistudio下载
CHAOS
名称
标注内容
类型
模态
数量
标签格式
文件格式
CHAOS
肝/肾/脾
分割
CT+MRI
40CT+120MRI
0/1标签
dcm
CHAOS是一个多脏器,多模态分割数据集。
Aistudio下载
TCGA-LIHC
名称
标注内容
类型
模态
数量
标签格式
文件格式
TCGA-LIHC
肝
CT/MR/PT
97患者/237套
无标签
dcm
Aistudio下载
MSD肝脏血管分割
名称
标注内容
类型
模态
数量
标签格式
文件格式
MSD肝脏血管分割
肝脏血管
分割
CT
443
0/1
nii
Aistudio下载
肺
MSD肺脏分割
名称
标注内容
类型
模态
数量
标签格式
文件格式
MSD肺脏分割
肺脏
分割
CT
96
0/1
nii
Aistudio下载
LoLa11肺页分割
名称
标注内容
类型
模态
数量
标签格式
文件格式
LoLa11
左右肺/肺页
分割
CT
0/1标签
Metaimage
55组扫描的肺页分割,包含左右肺,左上,左下,右上,右中,右下肺页的标注。
Aistudio下载
StructSeg2019
肺部多病智能诊断
Aistudio下载
CheXpert
介绍论文: CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison
相关项目
NIHChest Xray
名称
标注内容
类型
模态
数量
标签格式
文件格式
License
NIHChest Xray
CC0: Public Domain
介绍论文: ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases
Aistudio下载
QIN Lung CT
Aistudio下载
4D-Lung
Aistudio下载
NSCLC-Radiomics
Aistudio下载
肺结核
Shenzhen Hospital X-ray Set
深圳第三医院收集的肺结核胸透数据集,包含326张正常扫描和336张不正常的扫描。
Aistudio下载
Montgomery County X-ray Set
蒙哥马利市收集的肺结核胸透数据集,包含80张正常的扫描和58张不正常的扫描。
Aistudio下载
肺炎
Ieee8023
名称
标注内容
类型
模态
数量
标签格式
文件格式
Ieee8023
肺脏
分类
CT
20
nii
持续搜集公开的新冠CT扫描,目前有20个病例。
Aistudio下载
covid19-ct-scans
数据来自Ieee8023,对20组扫描进行了左右肺和感染区的标注。基于这个数据集和另外几个数据集,大佬们做了一个新冠分割的 benchmark
Aistudio下载
COVID-CT
名称
标注内容
类型
模态
数量
标签格式
文件格式
COVID-CT
分类
CT
349
图片
包含216名新冠患者的349张胸部CT图片,从相关paper中收集。
Aistudio下载
Figure1-COVID-chestxray-dataset
DarwinAI收集的一些新冠CT的图片,是CovidX数据集的一部分。持续更新,使用前可以先pull。
Aistudio下载
RSNA肺炎检测
名称
标注内容
类型
模态
数量
标签格式
文件格式
RSNA肺炎检测
之否肺炎/肺炎区域BB
分类/检测
CXR
26684+3000
图片
RSNA是北美放射学会在Kaggle上组织的一个比赛数据集,数据来自NIH 。包含26684张训练数据,有图片的分类和肺炎区域的边界框。
Aistudio下载
CovidX
名称
标注内容
类型
模态
数量
标签格式
文件格式
CovidX
新冠/其他肺炎/正常
分类
CT
13569+231
图片
CovidX数据集是DarwinAI训练CovidNet 做的一个数据集,本身没有新的数据,是Ieee8023,Figure1和RSNA组合成的一个数据集。
Flyai Covid
Flyai举办的一个新冠分类比赛。
Aistudio下载
covid19-radiography-database
跟CovidX一样是一个组合数据集,数据来自论文图片和RSNA。
Aistudio下载
COVID-19-AR
Chest Imaging with Clinical and Genomic Correlates Representing a Rural COVID-19 Positive Population (COVID-19-AR)
Aistudio下载
CT Images in COVID-19
Aistudio下载
肺结节
LIDC-IDRI
名称
标注内容
类型
模态
数量
标签格式
文件格式
LIDC-IDRI
肺部肿瘤
目标检测
CT
1012
xls
dcm
介绍论文: The Lung Image Database Consortium (LIDC) and Image Database Resource Initiative (IDRI): A Completed Reference Database of Lung Nodules on CT Scans
The public cancer radiology imaging collections of The Cancer Imaging Archive
Aistudio下载 Part1 Part2
LUNA16
名称
标注内容
类型
模态
数量
标签格式
文件格式
LUNA16
Aistudio下载
天池肺部结节
名称
标注内容
类型
模态
数量
标签格式
文件格式
天池肺部结节
训练集 测试集
LNDB
名称
标注内容
类型
模态
数量
标签格式
文件格式
LNDB
直径大于3mm的肿瘤分割标注/小于3mm肿瘤和非肿瘤标记中心
分割/分类
CT
294
XML
MetaImage
介绍论文: LNDb: A Lung Nodule Database on Computed Tomography
Aistudio下载
Lung Nodule Malignancy
Aistudio下载
Data Science Bowl 17
Aistudio下载
Lung-PET-CT-Dx
气胸
SIIM-ACR Pneumothorax Segmentation
乳腺癌
CBIS-DDSM
名称
标注内容
类型
模态
数量
标签格式
文件格式
CBIS-DDSM
正常/良性/恶性
分类
CT
2620
介绍论文: Deep Learning to Improve Breast Cancer Early Detection on Screening Mammography A curated mammography data set for use in computer-aided detection and diagnosis research
Aistudio下载
QIN Breast
名称
标注内容
类型
模态
数量
标签格式
文件格式
QIN Breast 01 02
MRI
67
Aistudio下载
Rider Breast MRI
ACRIN 6688
Aistudio下载
BraTS2015
Aistudio下载
脑
MSD脑瘤分割
Aistudio下载
MSD海马体分割
Aistudio下载
Iseg2019
ABIDE
名称
标注内容
类型
模态
数量
标签格式
文件格式
ABIDE
是否有自闭症
分类
MRI
539+573
自闭症患者的头部MRI扫描,包含539例自闭症患者和573个正常扫描对照组。 介绍论文: The autism brain imaging data exchange: towards a large-scale evaluation of the intrinsic brain architecture in autism.
下载地址
ADNI
名称
标注内容
类型
模态
数量
标签格式
文件格式
ADNI
介绍论文: Alzheimer's Disease Neuroimaging Initiative (ADNI)
脑出血
RSNA Intracranial Hemorrhage Detection
Aistudio下载
肾脏
Kits19
名称
标注内容
类型
模态
数量
标签格式
文件格式
Kits19
肾肿瘤
分割
Aistudio下载
肠
CT COLONOGRAPHY
包含没有结肠息肉,有6-9mm息肉和大于10mm息肉的数据。
MSD肠道分割数据集
Aistudio下载
心脏
EchoNet
名称
标注内容
类型
模态
数量
标签格式
文件格式
EchoNet
心脏
分割
MRI
10300
0/1
介绍论文: EchoNet-Dynamic: a Large New Cardiac Motion Video Data Resource for Medical Machine Learning
MMWHS
名称
标注内容
类型
模态
数量
标签格式
文件格式
MMWHS
心脏
分割
CT / MRI
20CT、20MRI
类别
nii
mmwhs是心脏分割数据集,共有8类,MRI和CT两种模态 相关项目: Hybrid Loss Guided Convolutional Networks for Whole Heart Parsing
Aistudio下载
MSD心脏分割
Aistudio下载
眼睛
DRIVE
名称
标注内容
类型
模态
数量
标签格式
文件格式
DRIVE
眼底血管
分割
眼底照片
40
0/1
图片
DRIVE数据集是一个糖尿病病人眼底血管分割数据集。
Aistudio下载
ODIR-5k
名称
标注内容
类型
模态
数量
标签格式
文件格式
ODIR-5k
正常和7种疾病
分类
眼底彩色照片
5000
图片
ODIR-5K包括5000名患者的年龄,双眼的彩色眼底照片和医生的诊断关键词。该数据集是上工医疗技术有限公司从中国不同医院/医疗中心收集的“真实”患者信息。在这些机构中,眼底图像由市场上的各种相机捕获,例如Canon,Zeiss和Kowa,因此导致各种各样的图像分辨率。病人的识别信息会被移除。注释由经过培训的人类读者进行标记,并具有质量控制管理。患者分为8个标签,包括正常(N),糖尿病(D),青光眼(G),白内障(C),AMD(A),高血压(H),近视(M)和其他疾病/异常(O)。
FIRE 视网膜图像数据
FIRE 是一个视网膜眼底图像数据集,包含 129张 眼底视网膜图像,由不同特征组合成 134对 图像组合。这些图像组合根据特质被划分为3类。眼底图像由 Nidek AFC-210 眼底照相机采集,分辨率为2912x2912,视觉仰角为40度。图像由 Papageorgiou Hospital 医院和Aristotle University of Thessaloniki大学共同构建,由于Thessaloniki 大学采集自39名患者。. 数据包括以下几部分内容: 1.成对的视网膜图像。 2.彩色ROI掩模(作为二值图像)。 3.特征ROI掩模(作为二值图像)。 4.每个图像对应的标注点。
细胞
Data Science Bowl 18
细胞核分割数据集
介绍论文: Nucleus segmentation across imaging experiments: the 2018 Data Science Bowl
Aistudio下载
血细胞涂片分类
名称
标注内容
类型
模态
数量
标签格式
文件格式
血细胞涂片分类
四种血细胞类型
分类
镜检
12500
-
图片
血细胞分类数据集包含12500张四种血细胞的照片。图片是从大的血细胞涂片照片上截下来的,数据集经过增广。图片都很小,训练时注意IO瓶颈。
Aistudio下载
ISBI细胞跟踪
名称
标注内容
类型
模态
数量
标签格式
文件格式
ISBI细胞跟踪
细胞像素级别位置
跟踪
镜检
图片
在镜检视频中像素级跟踪细胞位置
Aistudio下载 2D+Time Datasets
骨骼
MURA-1.1
名称
标注内容
类型
模态
数量
标签格式
文件格式
MURA-1.1
正常/非正常
分类
x-ray
40561
介绍论文: MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs
Aistudio下载
RSNA Bone Age
Aistudio下载
膝盖
MRNet
名称
标注内容
类型
模态
数量
标签格式
文件格式
MRNet
Aistudio下载
前列腺
PANDA
名称
标注内容
类型
模态
数量
标签格式
文件格式
PANDA
前列腺癌分级
镜检图片
10616张镜检
分类
tiff
MSD前列腺分割
Aistudio下载
QIN-PROSTATE-Repeatability
Aistudio下载
胰腺
MSD胰腺分割
Aistudio下载
PDMR-833975-119-R
Aistudio下载
皮肤
SIIM-ISIC Melanoma Classification
目前最大的皮肤镜图像集合,用来在皮肤病变图像中之别黑色素瘤,图片以DICOM格式提供,同时包含图像元数据,有的图像也以JPEG和TFRecord格式提供,TFRecords格式的图像已被调整为统一的1024x1024
VQA
PathVQA
名称
标注内容
类型
模态
数量
标签格式
文件格式
PathVQA
图片
4998图片/32799问答
图片
介绍论文: PathVQA: 30000+ Questions for Medical Visual Question Answering
Aistudio下载
医学影像数据库
TCIA :The Cancer Imaging Archive
MedPix 包含超过12000名患者和59000张影像
Belarus tuberculosis portal 包含结核病人的CT,胸透和检验数据
Grand Challenges
LONI 神经相关医学影像
参考项目/列表
胸部\肺部ct数据集
adalca
beamandrew
Stanford ML Group
omic tools
各领域公开数据集
medical-imaging-datasets
Open-Access Medical Image Repositories
Medical Image Datasets Download Links
HAM10000 dataset
Dermatology Image Classification
havard
usc
burkely
isdis
radiopedia
aimi
贡献者
(按照首次贡献时间排序)
多语言代码生成器 Mail : [email protected]
自尊心3
底迪
Release Note
2020/11/20 添加Issue模板,鼓励外部贡献,数据集数量达到67
2020/11/8 在Github发布,整理格式,添加多个数据集
2020/6/11 添加LIDC-IDIR,编写数据压缩脚本
2020/6/4 添加MMWHS心脏分割数据集,SIIM皮肤病分类比赛数据集
2020/5/27 添加ISBI细胞分割,TCGA-LIHC肝脏,4D-Lung肺部数据集,围绕乳腺癌添加一系列数据集
2020/5/20 项目添加数据集计数和release note,数据集方面添加 RSNA骨龄,PathVQA,FIRE视网膜,DDSM乳腺癌等数据集
2020/5/13 项目在Aistudio公开,包含约40个数据集