VOC数据集:(包含5个文件夹)
JPEGImages包含PASCAL VOC所提供的所有图片信息,包括训练图片和测试图片,以"年份_编号.jpg"格式命名.横向图尺寸大约在500*375左右,纵向图尺寸大约在375*500左右,基本偏差不会超过100,因为训练的第一步就是将图片resize到300*300或者500*500.
Annotations存放的是xml格式的标签文件,每个文件都对应JPEGImages文件夹的一张图片
ImageSets存放的是每一种类型的challenge对应的图像数据.其中Action下存放的是人的动作(例如running、jumping等等,这也是VOC challenge的一部分)
VOC数据集中待识别的物体种类有20类:person bird cat dog horse sheep aeroplane bicycle boat bus car motorbike train bottle chair table plant sofa monitor
超过11000图像,超过27000目标bounding box
Microsoft COCO数据集:
微软官方对coco的解释:https://link.springer.com/chapter/10.1007/978-3-319-10602-1_48
和VOC相比,coco数据集上小目标多,单幅图片目标多,物体大多非中心分布,更符合日常环境,所以coco检测难度更大.
1)Object segmentation(2)Recognition in Context(3)Multiple objects per image(4)More than 300,000 images(5)More than 2 Million instances(6)80 object categories(7)5 captions per image(8)Keypoints on 100,000 people
coco数据集以场景理解为目标,从复杂的日常场景中截取,图像中的目标通过精确的Segmentation进行位置的标定,包含91类目标.
用于:
数据集分类:分类需要二进制的标签确定目标是否在图像中.在机器学习领域的著名的数据集有CIFAR-10和CIFAR-100,在32*32影像上分别提供10类和100类,最近著名的分类数据集ImageNet,有22000类,每类500-1000张.
物体检测:通常通过bounding box确认目标位置.最近还有ImageNet数据下获取检测数据集,200类,400000张图片,350000个bounding box.
semantic scene labeling:分割需要像素级的标签,其中个别目标很难定义,比如街道和草地.
RGB-D 数据集:http://rgbd-dataset.cs.washington.edu/
RGB-D Object Dataset:包含300类common household objects. 该数据集使用Kinect风格的3D相机进行记录,该相机记录了30Hz时的同步和对齐的640x480 RGB和深度图像。 将每个物体放置在转台上,并且将视频序列捕获一整个旋转。 对于每个对象,有3个视频序列,每个记录的摄像机安装在不同的高度,以便从与地平线不同的角度观察对象。与许多现有数据集(如Caltech 101和ImageNet)不同,此数据集中的对象被分为两个category和instance。 在这些数据集中,类狗包含来自许多不同狗的图像,并且无法判断两个图像是否包含相同的狗,而在RGB-D对象数据集中,类别苏打水可以分为物理上独特的instance,如百事可乐和百事可乐 山露水罐 数据集还为所有300个对象提供了地面真实姿态信息。
RGB-D Scenes Dataset:除了300个对象的独立视图之外,RGB-D对象数据集还包含包含数据集对象的自然场景的22个注释视频序列。 场景涵盖常见的室内环境,包括办公室,会议室和厨房区。 物体从不同的视点和距离可见,并且可能在一些框架中部分或完全遮挡。
参考:https://vision.in.tum.de/data/datasets/rgbd-dataset
参考:http://www.cnblogs.com/alexanderkun/p/4593124.html