前面介绍了分割领域常用网络架构及其相应的分割模型,本节主要介绍一些最受欢迎的图像分割数据集及其特征。此外还有评估基于深度学习的分割模型的常用指标。并报告了这些模型的定量结果和实验性能。
论文阅读—图像分割方法综述(一)(arXiv:[cs:cv]20200410)
论文阅读—图像分割方法综述(二)(arXiv:[cs:cv]20200410)
在本节中,我们提供一些最广泛使用的图像分割数据集的摘要。 我们将这些数据集分为3类-2D图像,2.5D RGB-D(颜色+深度)图像和3D图像-并提供有关每个数据集特征的详细信息。 列出的数据集具有逐像素标签,可用于评估模型性能。
值得一提的是,其中一些工作使用数据增强来增加标记样本的数量,特别是处理小型数据集的样本(例如在医学领域)。 数据扩充用于通过对图像(即输入图像和分割图)应用一组转换(在数据空间或特征空间中,有时有时在这两者中)来增加训练样本的数量。Some typical transformations include translation, reflection, rotation, warping, scaling, color space shifting, cropping, and projections onto principal components ,事实证明,数据增强可以提高模型的性能,尤其是从有限的数据集(例如医学图像分析中的数据集)学习时。 在产生更快的收敛速度,减少过度拟合的机会并增强泛化性方面也可能是有益的。 对于某些小型数据集,数据增强已显示将模型性能提高20%以上。
大多数图像分割研究都集中在2D图像上。因此,可以使用许多2D图像分割数据集。以下是一些最受欢迎的内容:
PASCAL VOC: 是计算机视觉中最流行的数据集之一,其带注释的图像可用于5个任务-分类,分割,检测,动作识别和person layout。文献中报道的几乎所有流行的分割算法都已对此数据集进行了评估。对于细分任务,有21类对象标签-车辆,家庭,动物,飞机,自行车,船,公共汽车,汽车,摩托车,火车,瓶子,椅子,餐桌,盆栽植物,沙发,电视/显示器,鸟,猫,牛,狗,马,绵羊和人(如果像素不属于任何此类,则将其标记为背景)。该数据集分为训练和验证两套,分别具有1,464和1,449张图像。 有一个针对实际挑战的私人测试仪。图43显示了示例图像及其按像素标记。
PASCAL Context: 是PASCAL VOC 2010检测挑战的扩展,它包含所有训练图像的逐像素标签。 它包含400多个类(包括原始的20个类以及PASCAL VOC分割的背景),分为三类(objects, stuff, and hybrids)。 此数据集的许多对象类别太稀疏,因此,通常会选择59个常见类别的子集来使用。 图44显示了此数据集的三个样本图像的分割图。
Microsoft Common Objects in Context (MS COCO):是另一种大规模的目标检测,分割和场景描述的数据集。 COCO包含日常复杂场景的图像,其中包含自然环境中的常见对象。 该数据集包含91种对象类型的照片,并以328k图像的形式总共标记了250万个实例。 它主要用于分割单个对象实例。 图45显示了MS COCO标签与给定样本图像的先前数据集之间的差异。 检测挑战包括80多个类别,提供超过82k图像进行训练,40.5k图像进行验证以及测试集超过80k图像。
Cityscapes: 是一个大型数据库,专注于对城市街道场景的语义理解。 它包含一组来自50个城市的街道场景中记录的立体声视频序列,以及一组20k弱注释帧,以及5k帧的高质量像素级注释。 它包括30个类别的语义和密集像素注释,分为8类-平面,人,车辆,建筑物,物体,自然,天空和空隙。 图46显示了来自该数据集的四个样本分割图。
SiftFlow: 包括来自LabelMe数据库子集的2688个带注释的图像。 256x256像素的图像基于8种不同的室外场景,其中包括街道,山脉,田野,海滩和建筑物。 所有图像都属于33个语义类别之一。
Stanford background: 包含来自现有数据集(如LabelMe,MSRC和PASCAL VOC)的场景的室外图像。 它包含715张具有至少一个前景对象的图像。 数据集按像素进行注释,可用于语义场景理解。 使用Amazon的Mechanical Turk(AMT)获得了该数据集的语义和几何标签。
Berkeley Segmentation Dataset(BSD):包含来自30个人类受试者的1,000个Corel数据集图像的12,000个手工标记的分割。 目的在于为图像分割和边界检测研究提供经验基础。 一半的分割是通过向对象呈现彩色图像获得的,另一半是通过呈现灰度图像获得的。 基于此数据的公共基准包括300张图像的所有灰度和颜色细分。 图像分为200个图像的训练集和100个图像的测试集。
Youtube-Objects: 包含从YouTube收集的视频,其中包括十个PASCAL VOC类(飞机,鸟,船,汽车,猫,牛,狗,马,摩托车和火车)的对象。 原始数据集不包含逐像素注释(因为它最初是为对象检测而开发的,具有弱注释)。 但是Jain等 [149]手动注释126个序列的子集,然后提取帧的子集以进一步生成语义标签。 此数据集中总共有约10,167个带注释的480x360像素帧。
KITTI : 是最流行的移动机器人技术和自动驾驶数据集之一。 它包含15个小时的交通场景视频,并以各种传感器模式(包括高分辨率RGB,灰度立体摄像头和3D激光扫描仪)进行记录。 原始数据集不包含用于语义分割的真实标签,但是研究人员出于研究目的手动注释了数据集的各个部分。 例如,Alvarez等从道路检测挑战中生成了323个图像的地面真相,包括道路,垂直和天空3类。
Other Datasets are available for image segmentation purposes too, such as Semantic Boundaries Dataset (SBD)[152], PASCAL Part [153], SYNTHIA [154], and Adobes Portrait Segmentation [155].
随着affordable范围扫描仪的出现,RGB-D图像在研究和工业应用中都变得越来越流行。 以下RGB-D数据集是最受欢迎的一些:
NYU-D V2 : 由Microsoft Kinect的RGB和深度相机记录的各种室内场景的视频序列组成。 它包括来自3个城市的450多个场景中的1,449张密集标记的RGB和深度图像对。 每个对象都标有一个类别和一个实例编号(例如cup1,cup2,cup3等)。它还包含407,024个未标记的帧。 与其他现有数据集相比,该数据集相对较小。 图47显示了样本图像及其分割图。
ScanNet : 是RGB-D视频数据集,在1,500多次扫描中包含250万个视图,并以3D相机姿势,表面重建和实例级别语义分割进行注释。 为了收集这些数据,设计了一个易于使用且可扩展的RGB-D捕获系统,该系统包括自动表面重建,并且语义标注是众包的。 使用这些数据有助于在一些3D场景理解任务上实现最先进的性能,包括3D对象分类,语义体素标注和CAD模型检索。
此外还有SUN-3D、SUN RGB-D、UW RGB-D Object Dataset等数据集
3D图像数据集在机器人,医学图像分析,3D场景分析和建筑应用中很受欢迎。 通常通过网格或其他体积表示(例如点云)提供三维图像。 在这里,我们提到了一些流行的3D数据集。
Stanford 2D-3D: 该数据集提供了2D,2.5D和3D域中的各种相互注册的模态,带有实例级语义和几何注释[161],并收集在6个室内区域中。 它包含70,000多个RGB图像,以及相应的深度,表面法线,语义注释,全局XYZ图像以及相机信息。
ShapeNet Core: ShapeNetCore is a subset of the full ShapeNet dataset [162] with single clean 3D models and manually verified category and alignment annotations [163]. It covers 55 common object categories with about 51,300 unique 3D models.
Sydney Urban Objects Dataset: This dataset contains a variety of common urban road objects, collected in the central business district of Sydney, Australia. There are 631 individual scans of objects across classes of vehicles,pedestrians, signs and trees [164].
在本节中,我们首先总结了一些用于评估分割模型性能的流行指标,然后提供流行数据集上有前途的基于DL的分割模型的定量性能。
理想情况下,应该从多个方面评估模型,例如定量精度,速度(推断时间)和存储要求(内存占用)。 测量速度可能很棘手,因为它取决于硬件和实验条件,但是它是实时应用中的重要因素,如果模型用于内存容量有限的小型设备,则内存占用空间也很重要。 但是,到目前为止,大多数研究工作都集中在评估模型准确性的指标上。 下面我们总结了用于评估细分算法准确性的最受欢迎指标。 尽管使用定量指标来比较基准上的不同模型,但是模型输出的视觉质量在决定哪种模型最好时也很重要(因为人类是为计算机视觉应用开发的许多模型的最终使用者)。
在本节中,我们列出了一些基于常用分割基准上几种算法的性能。 值得一提的是,尽管大多数模型在标准数据集上报告其性能并使用标准指标,但其中一些未能做到这一点,从而难以进行全面比较。 此外,只有一小部分publications以可重现的方式提供其他信息,例如执行时间和内存占用,这对于可能运行的分割模型(例如无人机,自动驾驶汽车,机器人等)的工业应用很重要。 在有限的计算能力和存储能力的嵌入式消费类设备上,使快速,轻便的模型变得至关重要。
1、J. Long, E. Shelhamer, and T. Darrell, ?Fully convolutional networks for semantic segmentation,? in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431? 3440.
2、L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.
3、L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Yuille, ?Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,? IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4,pp. 834?848, 2017.