目标检测、实例分割部分网络概述

FCN

框架
对于一般的分类CNN网络,如VGG和Resnet,都会在网络的最后加入一些全连接层,经过softmax后就可以获得类别概率信息。但是这个概率信息是1维的,即只能标识整个图片的类别,不能标识每个像素点的类别,所以这种全连接方法不适用于图像分割。
FCN提出可以把后面几个全连接都换成卷积,这样就可以获得一张2维的feature map,后接softmax获得每个像素点的分类信息,从而解决了分割问题。



结构



(1)对于FCN-32s,直接对pool5进行32倍上采样。
(2)对于FCN-16s,首先对pool5进行2倍上采样,再把pool4和2x逐点相加,然后16倍上采样。
(3)对于FCN-8s,首先进行pool4+2x,然后又进行pool3+2x 逐点相加,然后8倍上采样,即进行更多次特征融合。
最后再对每个点做softmax prediction(得分割图)

作者在原文种给出3种网络结果对比,明显可以看出效果:FCN-32s < FCN-16s < FCN-8s,即使用多层feature融合有利于提高分割准确性。


Instance FCN

FCN 语义分割对同一类型的对象是不区分的,Instance-sensitive 就是区分同一类型的对象。
原始FCN 中每个输出像素是 a classifier of an object category, Instance FCN每个输出像素是 a classifier of relative positions of instances,在 FCN 中引入 relative positions 信息。这个模块就是将各个部件组合起来构成一个 instance。


在推理阶段,仅仅依靠sliding window去生成结果是不够的。在相近位置上会得到相似的结果,这就需要对物体本身进行整体的判别,以确定物体(中心)的准确位置。
Instance FCN增加了物体检测分支,通过物体的外接框以及得分,利用NMS得到最终无重复的实例分割结果。

论文:Instance-sensitive Fully Convolutional Networks

FCIS

InstanceFCN提出了positive-sensitive score map,每个score表示一个像素在某个相对位置上属于某个物体实例的似然得分。
FCIS也采用position-sensitive score maps,只不过在物体实例中区分inside/outside,目的是想引入一点context信息,同时输出 instance mask 和类别信息。

FCN/InstanceFCN/FCIS

FCIS也是基于位置敏感的特征融合的方法,分为inside/outside两种位置敏感的特征提取方法。
(1)inside提取的是关于物体的特征,进行分割
(2)outside提取的是物体外的特征,然后对每一个像素取最大值,然后进行平均投票,进行类别判断。
20180121161943969.png

RPN与 FCIS 共享卷积层。RPN 产生的兴趣区域(RoI)会作用在 score maps 上,同时产生分类和分割预测。
FCIS使用ResNet模型,去除最后一层全连接层,仅训练卷积层,使用RPN生成ROIs,从conv5层,生成2(k^2)×(C+1)个得分图,计算分割概率图和分类得分。
论文:Fully Convolutional Instance-aware Semantic Segmentation

FPN

低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而FPN不一样的地方在于预测是在不同特征层独立进行的。

FPN示意图

参考链接:https://blog.csdn.net/kk123k/article/details/86566954

RetinaNet

Focal Loss是一个能够动态缩放的cross entropy loss,当正确类别的置信度提高时缩放因子衰减为0,缩放因子可以自动降低easy例子在训练期间贡献loss的权重,使得模型注重hard例子;
我们知道二分类交叉损失函数如下:

交叉熵损失函数

首先在原有的基础上加了一个因子,其中γ>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本。

此外,加入平衡因子α,用来平衡正负样本本身的比例不均:论文中α取0.25,即正样本要比负样本占比小,这是因为负例易分。

为了验证focal loss的有效性设计了一种one-stage的目标检测器RetinaNet,它的设计利用了高效的网络特征金字塔以及采用了anchor boxes,表现最好的RetinaNet结构是以ResNet-101-FPN为bakcbone,在COCO测试集能达到39.1的AP,速度为5fps;
RetinaNet网络结构

你可能感兴趣的:(目标检测、实例分割部分网络概述)