深度学习数据集大全

文章目录

  • 前言
  • 人脸数据集
  • 真实场景图像检测数据集
  • 地球信息数据集

前言

深度学习是以数据为驱动的技术,在使用深度学习进行科研或者工作当中,都离不开数据集。因此本篇博客整理我在工作当中遇到的一些数据集。如人脸数据集,地球信息的数据集。数据集来源有一些比赛的数据集,如kaggle,还有一些团队公开发表的数据集。数据集都尽可能地贴出链接,贴不出链接只能自己寻找,然后你懂得。

人脸数据集

  1. 哥伦比亚大学公众人物脸部数据库
    数据集链接:http://m6z.cn/5DlIR9。该数据集是一个大型的人脸数据集,主要用于人脸识别和身份鉴定,涵盖互联网上200多人的人脸照片,共58797张图像。该数据集由哥伦比亚大学于2009年发布,相关论文有:《Attribute and Simile Classifiers for Face Verification》。

  2. CelebA人脸数据集
    CelebFaces Attributes Dataset (CelebA) 是一个大规模的人脸属性数据集,包含超过 20 万张名人图像,每张都有 40 个属性注释。该数据集中的图像涵盖了较大的姿势变化和杂乱的背景。CelebA 种类多、数量多、注释丰富,包括10,177 个身份,202,599 张人脸图像,以及5 个地标位置,每张图像 40 个二进制属性注释。该数据集可用作以下计算机视觉任务的训练和测试集:人脸属性识别、人脸识别、人脸检测、地标(或人脸部分)定位以及人脸编辑与合成。

  3. 美国国防部人脸照片
    为促进人脸识别算法的研究和实用化,美国国防部的Counterdrug Technology Transfer Program(CTTP)发起了一个人脸识别技术(Face Recognition Technology 简称FERET)工程,它包括了一个通用人脸库以及通用测试标准。到1997年,它已经包含了1000多人的10000多张照片,每个人包括了不同表情,光照,姿态和年龄的照片。数据集链接:http://m6z.cn/5So6DB

  4. Youtube视频人脸数据集
    该数据集包含 1,595 个不同人的 3,425 个视频。所有视频都是从 YouTube 下载的。每个主题平均有 2.15 个视频可用。最短剪辑时长为 48 帧,最长剪辑为 6070 帧,视频剪辑的平均长度为 181.3 帧。在这个数据集下,算法需要判断两段视频里面是不是同一个人。有不少在照片上有效的方法,在视频上未必有效/高效。数据集链接:http://m6z.cn/6u3P2V

  5. BioID人脸数据集
    这个数据集包含了1521幅分辨率为384x286像素的灰度图像。每一幅图像来自于23个不同的测试人员的正面角度的人脸。为了便于做比较,这个数据集也包含了对人脸图像对应的手工标注的人眼位置文件。图像以 "BioID_xxxx.pgm"的格式命名,其中xxxx代表当前图像的索引(从0开始)。类似的,形如"BioID_xxxx.eye"的文件包含了对应图像中眼睛的位置。数据集地址:http://m6z.cn/5ZUjyC

真实场景图像检测数据集

  1. RMFD口罩遮挡人脸数据集
    当前大多数高级人脸识别方法都是基于深度学习而设计的,深度学习取决于大量人脸样本。但是,目前尚没有公开可用的口罩遮挡人脸识别数据集。为此,这项工作提出了三种类型的口罩遮挡人脸数据集,包括口罩遮挡人脸检测数据集(MFDD),真实口罩遮挡人脸识别数据集(RMFRD)和模拟口罩遮挡人脸识别数据集(SMFRD)。基于这些数据集,可以开发口罩遮挡人脸的各种应用。本项目开发的多粒度口罩遮挡人脸识别模型可达到95%的准确性,超过了行业报告的结果。数据集下载地址:http://m6z.cn/5wJJLA。

  2. GTSRB德国交通标志数据集
    德国交通标志基准测试是在 2011 年国际神经网络联合会议 (IJCNN) 上举办的多类单图像分类挑战赛。我们诚邀相关领域的研究人员参与:该比赛旨在参与者无需特殊领域知识。数据集下载地址:http://m6z.cn/5wJJLA,基准测试具有以下属性:

  • 单图像、多类分类问题
  • 40多个分类
  • 总共超过 50,000 张图片
  • 逼真的大型数据库
  1. VOC2005车辆数据集
    该数据集中含有自行车、摩托车、汽车、货车的图像数据,可用于CNN模型以实现车辆识别和车辆分类,其中自行车、摩托车、汽车数据来自2005 PASCAL视觉类挑战赛(VOC2005)所使用的数据的筛选处理结果,货车图片来自网络收集,后期通过筛选处理得到。在本数据中,训练数据集与测试数据集占比约为5:1。数据集下载地址:http://m6z.cn/5U2X4u。

  2. Winegrape检测数据集
    WGISD(Wine Grape Instance Segmentation Dataset)是为了提供图像和注释来研究对象检测和实例分割,用于葡萄栽培中基于图像的监测和现场机器人技术。它提供了来自五种不同葡萄品种的实地实例。这些实例显示了葡萄姿势、光照和焦点的变化,包括遗传和物候变化,如形状、颜色和紧实度。可能的用途包括放宽实例分割问题:分类(图像中是否有葡萄?)、语义分割(图像中的“葡萄像素”是什么?)、对象检测(图像中的葡萄在哪里?)、和计数(每个簇有多少浆果?)。数据集下载地址:http://m6z.cn/5TikF9。

  3. 全球小麦检测数据集
    检测小麦穗是一项重要任务,可以估计相关性状,包括穗种群密度和穗特征,如卫生状况、大小、成熟阶段和芒的存在。本数据集包含 4,700 张高分辨率 RGB 图像和 190,000 个标记的小麦头,这些小麦头采集自世界各地不同生长阶段的不同基因型的多个国家。数据集下载地址:http://m6z.cn/5wJK64。

  4. 坑洼检测数据集
    本数据集汇总了700个在坑洼处带有3K +注释的图像,用于从道路图像中检测坑洼,检测道路地形和坑洼。数据集下载地址:http://m6z.cn/5wJJTa。

  5. Linkopings交通标志数据集
    通过记录超过 350 公里的瑞典高速公路和城市道路的序列,创建了一个数据集。一个 1.3 兆像素的彩色摄像机,一个点灰色变色龙,被放置在一辆汽车的仪表板上,从前窗向外看。摄像头略微指向右侧,以便尽可能多地覆盖相关标志。该镜头的焦距为 6.5 毫米,视野约为 41 度。高速公路上的典型速度标志大约为 90 cm 宽,如果要在大约 30 m 的距离处检测到它们,则对应于大约 50 像素的大小。总共记录了超过 20 000 帧,其中每五帧被手动标记。每个标志的标签包含标志类型(人行横道、指定车道右侧、禁止站立或停车、优先道路、让路、50 公里/小时或 30 公里/小时)、能见度状态(遮挡、模糊或可见)和道路状态(是否标志是在正在行驶的道路上或在小路上)。数据集下载地址:http://m6z.cn/68ldS0

  6. 防护装备-头盔和背心检测
    包含 774 个众包图像和 698 个网络挖掘图像。众包和网络挖掘的图像分别包含 2,496 和 2,230 个工人实例。数据集下载地址:http://m6z.cn/61zarT

  7. 加州理工学院相机陷阱数据集
    该数据集包含来自美国西南部 140 个摄像头位置的 243,100 张图像,带有 21 个动物类别的标签(加上空白),主要是在物种级别(例如,最常见的标签是负鼠、浣熊和土狼),以及 大约 66,000 个边界框注释。大约 70% 的图像被标记为空。

  8. 水下垃圾检测数据集
    该数据来自 J-EDI 海洋垃圾数据集。构成该数据集的视频在质量、深度、场景中的对象和使用的相机方面差异很大。它们包含许多不同类型的海洋垃圾的图像,这些图像是从现实世界环境中捕获的,提供了处于不同衰减、遮挡和过度生长状态的各种物体。此外,水的清晰度和光的质量因视频而异。这些视频经过处理以提取 5,700 张图像,这些图像构成了该数据集,所有图像都在垃圾实例、植物和动物等生物对象以及 ROV 上标有边界框。数据集下载地址:http://m6z.cn/6nnDQK。

地球信息数据集

本博客持续更新中…

你可能感兴趣的:(#,深度学习,深度学习,人工智能,计算机视觉)