为了帮助构建对象识别模型,场景识别模型等,编制了最佳图像分类数据集的列表。这些数据集的范围和大小各不相同,可以适应各种用例。此外数据集已分为以下几类:医学成像,农业和场景识别等。
医学图像分类数据集
1. 递归蜂窝图像分类 –此数据来自递归2019挑战。竞赛的目标是利用生物显微镜数据开发可识别复制品的模型。关于比赛的全部信息可以在这里找到。
https://www.kaggle.com/c/recursion-cellular-image-classification
2. TensorFlow patch_camelyon医学图像 –该医学图像分类数据集来自TensorFlow网站。它包含超过327,000个彩色图像,每个96 x 96像素。图像是包含转移组织的组织病理学淋巴结扫描。
https://www.tensorflow.org/datasets/catalog/patch_camelyon
农业和场景数据集
3. CoastSat图像分类数据集 –用于开放源代码海岸线测绘工具,该数据集包含从卫星获取的航空图像。数据集还包括与标签有关的元数据。
https://figshare.com/articles/CoastSat_image_classification_training_data/8868665/1
4. 用于天气识别的图像 –用于多类天气识别,此数据集是1125张图像的集合,分为四个类别。图像类别为日出,晴天,雨天和多云。
https://data.mendeley.com/datasets/4drtyfjtfy/1
5. 室内场景图像 –来自麻省理工学院的该数据集包含15,000多个室内位置图像。该数据集最初是为解决室内场景识别问题而构建的。所有图像均为JPEG格式,已分为67类。每个类别的图像数量有所不同。但是每个类别至少有100张图像。
https://www.kaggle.com/itsahmad/indoor-scenes-cvpr-2019
6. Intel图像分类 –由Intel为图像分类竞赛而创建,此扩展图像数据集包含约25,000张图像。此外图像分为以下几类:建筑物,森林,冰川,山脉,海洋和街道。数据集已分为用于训练,测试和预测的文件夹。训练文件夹包含大约14,000张图像,而测试文件夹包含大约3,000张图像。最后预测文件夹包含大约7,000张图像。
https://www.kaggle.com/puneet6060/intel-image-classification/version/2
7. TensorFlow Sun397图像分类数据集 –来自Tensorflow的另一个数据集,该数据集包含场景理解(SUN)基准中使用的108,000多幅图像。此外图像已分为397类。每个类别中的确切图像数量各不相同。但是,每个场景和对象类别中至少有100张图像。
https://www.tensorflow.org/datasets/catalog/sun397s
其他图像分类数据集
8. 建筑遗产元素 –创建此数据集是为了训练可基于文化遗产对建筑图像进行分类的模型。它包含超过10,000个图像,分为10类。类别为:坛,后殿,钟楼,圆柱,圆顶(内部),圆顶(外部),飞檐,石像鬼,彩色玻璃和穹顶。
https://datahub.io/dataset/architectural-heritage-elements-image-dataset
9. 图像分类:人和食物 –该数据集采用CSV格式,由吃食物的人的图像组成。人类注释者按性别和年龄对图像进行分类。CSV文件包含587行数据,URL链接到每个图像。
https://data.world/crowdflower/image-classification-people-an
10. 用于分类的混凝土裂缝图像 –来自Mendeley的该数据集包含40,000个混凝土图像。每个图像均为227 x 227像素,其中一半图像包含有裂缝的混凝土,另一半图像没有裂缝。
https://data.mendeley.com/datasets/5y9wdsg2zt/2