语义分割与目标检测入门:若干经典工作综述

语义分割

从原理上来说,语义分割就是像素级别的分类,传统的方法也是直接按照这个思路来做的,效率比较低,而从FCN开始,语义分割有了相对比较专用的方法。

0. 重要的数据集:PASCAL VOC和COCO

1. FCN

用于图像(N×M)分类的网络前端用卷积层提取特征,后端用全连接层进行分类。假设总共有K个类别,则全连接层最后会输出一个1×K的向量。FCN(Fully Convolutional Network,全卷积网络)将用于分类的全连接层替换为(反)卷积层,输出变为N×M×K的向量。

FCN还有一个技巧,如下图所示,用反卷积网络进行上采样的时候把上采样的结果与前面pooling的结果相加,有助于提升结果。

语义分割与目标检测入门:若干经典工作综述_第1张图片

 

2. U-Net

       U-Net是FCN的改进版。针对医学图像提出了U-Net,因此U-Net不用在ImageNet上预训练。还有一个区别是U-Net上采样步骤融合浅层特征时用的是Concatenate而不是相加。

语义分割与目标检测入门:若干经典工作综述_第2张图片

 

3. 后来又陆续出现了SegNet, Dilated Convolutions, DeepLab(v1/v2/v3), RefineNet, PSPNet, LargeKernel Matters等多个模型。这里就不再详述。

 

目标检测

目标检测主要有两个不同的思路。一种思路是借鉴语义分割的做法,这方面的工作主要有YOLO和SSD。另一种思路是把目标检测看作分类任务(bounding box里的对象的类别)和回归任务(bounding box的坐标)的组合,主要工作由R-CNN, SPP-Net, Fast R-CNN, Faster R-CNN。总的来说,思路一速度更高,精度稍差,主要用在实时性要求高的场合;思路二速度稍慢,精度更高,是主流方法。

 

1. YOLO

    YOLO的思想是首先把图片划分成S×S个单元格,把每个单元格属于某种类别的概率、属于某个bounding box的置信度以及bounding box的位置x,y,bounding box的大小w,h这些量在单元格上做回归。

语义分割与目标检测入门:若干经典工作综述_第3张图片

其网络结构类似图像分类的网络结构,前面是卷积层最后两层是全连接层,只不过最后输出维度不同。

语义分割与目标检测入门:若干经典工作综述_第4张图片

作者自己在论文里说YOLO在小目标和小bounding box的检测上表现不佳。

 

2. SSD

    SSD采用金字塔型结构,将多层卷积层的特征concatenate起来,一定程度上可以解决YOLO不精确的问题。另外考虑到bounding box大小形状的不同,用了不同的Prior Box.

语义分割与目标检测入门:若干经典工作综述_第5张图片

语义分割与目标检测入门:若干经典工作综述_第6张图片

3.R-CNN

(1)根据已有的Selective Search算法提取Region Proposal

(2)将每个Region Proposal缩放到统一大小输入CNN,输出固定大小特征

(3)将特征用SVM进行分类

(4)训练一个回归器微调Bounding Box的位置

缺点:大量重复的特征提取,速度慢

 

4. SPP-Net

    SPP-Net整体框架与R-CNN相同,主要贡献在于提出Spatial Pyramid Pooling,主要解决了SVM/全连接层输入必须是定长tensor的问题。关键就在于Spatial Pyramid Pooling中的Sliding Window(作者称之为“Spatial bin”)是与输入图像的大小成比例的,而传统的Pooling的Sliding Window大小是固定的。

语义分割与目标检测入门:若干经典工作综述_第7张图片

这样就可以将Region Proposal映射到卷积层输出的Feature Map上,一张图像只需一次卷积,而不用像R-CNN一样每个Region Proposal的卷积分别计算。

 

5. Fast R-CNN

相比于SPP-Net,

(1)用ROI-Pooling精简了SPP,将图像特征统一映射到H×W×d维

(2)将classification和regression作为Multi-task learning一起训练

(3)开放对卷积层的fine-tune

语义分割与目标检测入门:若干经典工作综述_第8张图片

 

6. Faster R-CNN

    与3/4/5的最大不同是在Faster R-CNN这里,不需要额外的Selective Search算法,Region Proposal也是用神经网络(Region Proposal Network, RPN)学出来的。方法就是采用一个Sliding Window在卷积层输出的Feature Map上滑动,为了适应各种形状、大小的Region Proposal,这个Sliding Window会由多种Anchor产生,每个Anchor对应不同的大小和形状。

语义分割与目标检测入门:若干经典工作综述_第9张图片

你可能感兴趣的:(Machine,Learning,Computer,Vision)