图像和视频语义分割的深度学习技术综述

原文链接:https://www.sciencedirect.com/science/article/abs/pii/S1568494618302813

1  引言

语义分割应用于静止的二维图像、视频,甚至3D或体积数据,是计算机视觉领域的关键问题之一。

  • 本文提供了一个广泛的现有数据集的调查,可能是有用的分割项目与深度学习技术。
  • 对使用深度学习进行语义分割的最重要的方法、它们的起源和它们的贡献进行了深入和有组织的回顾。

  • 全面的性能评估,它收集定量的指标,如准确性、执行时间和内存占用。

2  术语和背景概念

图像和视频语义分割的深度学习技术综述_第1张图片

语义分割显然是实现细粒度推理的自然步骤,它的目标是:对每个像素进行密集预测,推断出标签;这样,每个像素都用其包围对象或区域的类来标记。

2.1  常见的深层网络架构

经典网络结构:AlexNet, VGG-16, GoogLeNet, and ResNet

2.2  迁移学习和微调

迁移学习的作用:从头开始训练深度神经网络通常是不可行的,因为有各种原因:需要足够大的数据集(而且通常不可用),而且达到收敛需要的时间太长,使实验失去价值。即使一个足够大的数据集是可用的,并且收敛不需要那么长的时间,使用预先训练过的权值而不是随机初始化的权值通常是有帮助的。通过继续训练过程来微调预训练网络的权值是迁移学习的主要方案之一。

迁移学习效果比随机初始化权重效果更好。

微调要选择更高层。当进行微调时,重要的是选择正确的层来调整——通常更高级的网络的一部分,因为较低的层往往含有更多的通用功能。

2.3 数据预处理和增强

数据增强是一项普遍的技术,要么加快收敛,要么作为一个正则化器,从而避免过拟合和增加泛化能力。

增强过程包括:平移,旋转,扭曲,缩放,颜色空间移动,裁剪等。数据增强对小数据集帮助更大。

3  挑战与方法

3.1  数据集和挑战

对于新手来说,掌握什么是高质量的数据集和挑战是至关重要的。

3.1.1  二维数据集

多年来,语义分割主要集中在二维图像上。因此,二维数据集是最丰富的。

  • PASCAL Visual Object Classes (VOC)数据集:有21类分为车辆,家庭,动物,和其他:飞机,自行车,船,公共汽车,汽车,摩托车,火车,瓶子,椅子,餐桌,盆栽植物,沙发,电视/监视器,鸟,猫,牛,狗,马,羊,和人。如果像素不属于任何这些类,背景也被考虑。数据集分为两个子集:训练和验证,分别使用1464和1449张图像。其测试集比赛是私有的。
  • PASCAL Context数据集:它包含540个类,但只有59个最常见的类别是引人注目的。通常选择这59个类的子集对该数据集进行研究,将其余的类重新标记为背景。
  • PASCAL Part:保留了PASCAL VOC的原始类,但引入了它们的部件,例如自行车现在分解为后轮、链轮、前轮、车把、前大灯和鞍座。包含来自PASCAL VOC的所有训练和验证图像以及9637测试图像的标签。
  • Cityscapes数据集:是一个关注城市街道场景语义理解的大型数据库。它为分为8类(平面、人、车辆、建筑、对象、自然、天空和空)的30个类提供语义、实例和密集像素注释。该数据集由约5000幅精细标注图像和20000幅粗标注图像组成。在几个月、白天和良好的天气条件下,在50个城市采集了数据。
  • CamVid: 是一个道路/驾驶场景理解数据库,最初是通过安装在汽车仪表板上的960 × 720分辨率的摄像机捕获的五个视频序列。我们对这些序列进行了采样(其中4个是每秒1帧,一个是每秒15帧),总共有701帧。手工标注32类:的这些照片是空白,建筑,墙壁,树,植物,栅栏,人行道上,停车,列/杆、锥形交通路标,桥,符号,杂项文本,红绿灯,天空,隧道,拱门,路,路肩,车道标记(驾驶),车道标记(non-driving),动物,行人,孩子,行李推车,自行车,摩托车,汽车,越野车/传感器/卡车,卡车和公共汽车,火车,和其他移动物体。
  • KITTI:是移动机器人和自动驾驶中最流行的数据集之一。Álvarez等人[39,40]从道路检测挑战中提取了323幅图像,分别为道路、垂直和天空三类,生成了地面真值。Zhang等人的[42]注释了252(140用于训练,112用于测试)——RGB和Velodyne扫描——来自10个对象类别的跟踪挑战:建筑、天空、道路、植被、人行道、汽车、行人、自行车、标志/杆和栅栏。Ros等人[41]标记了170个训练图像和46个测试图像(来自视觉里程测量挑战),包括11类:建筑、树、天空、汽车、标志、道路、行人、栅栏、杆子、人行道和自行车。

文中还有大量数据集介绍,我用不到就不记录了。

3.2  方法

深度学习技术的关键优势, 是学习特性表征问题的能力。

语义分割技术先驱:FCN全卷积网络。通过用卷积层代替完全连接的层,输出空间图,而不是分类分数。这些空间图使用部分跨步卷积(也称为反卷积)进行更新采样,以产生密集的逐像素标记输出。FCN是用于语义分割的深度学习的基石。

图像和视频语义分割的深度学习技术综述_第2张图片

 

 

 

 

 

 

 

你可能感兴趣的:(论文阅读,深度学习,计算机视觉,神经网络,人工智能,图像处理)