【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN

目录

  • FCN
  • SegNet
  • U-Net
  • DeepLab V1
  • DeepLab V2
  • DeepLab V3
  • DeepLab V3+
  • Mask R-CNN


【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第1张图片


FCN

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第2张图片
【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第3张图片

FCN: Fully Convolutional Networks for Semantic Segmentation
论文发表时间: 2015-3-8
最重要特点: 第一个图像分割网络,图像分割的milestone论文
组成部分:全卷积网络(FC层更改为卷积层),上采样(upsample),跳跃连接(skip layer)
损失:基于像素点的 softmax+交叉熵损失
优点:
缺点:得到的结果还是不够精细,对各个像素进行分类,没有充分考虑像素与像素之间的关系。
面试直接背:


SegNet

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第4张图片

SegNet: 语义分割模型
论文发表时间:
最重要特点:基于编解码器的分割网络,encoder-decoder过程。
组成部分:

  1. encoder(5个block:Conv+ Batch Norm + ReLU)
  2. decoder(5个block: 每个block由Upsampling+ Conv + BN)

损失:交叉熵损失
优点:效率高,速度快,结构简单
缺点:
面试直接背:
图像使用max pooling,记录池化之前的位置下标,利用下标还原。还原的时候不需要激活函数。


U-Net

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第5张图片
U-Net:
论文发表时间:
最重要特点:在医疗图像图像领域(冠军)、需要极少图像即可。Skip connection
组成部分:收缩路径(contracting path)、扩张路径(expanding path)、Skip connection
损失:交叉熵损失+softmax
优点:速度非常快
缺点:
面试直接背:
利用Skip connection,将高层和底层的特征图特征进行融合,可以最大化保证细节特征的提取。


DeepLab V1

DeepLab:
论文发表时间: 2014.12
最重要特点: 空洞卷积、CRF
组成部分:空洞卷积,全连接条件随机场CRF
损失:
优点:空洞卷积比max pooling好处多很多
缺点:
面试直接背:
DeepLab V1是由两个非常成熟的模块(DCNN和CRFs)级联而成,空洞卷积增大感受野,不增加参数数量,避免了max pooling造成的信息损失。


DeepLab V2

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第6张图片
DeepLab V2:
论文发表时间: 2015年4月9日 Google
最重要特点:多孔空间金字塔池化(ASPP)
组成部分:ResNet+ASPP,CRF
损失:
优点:
缺点:
面试直接背:


DeepLab V3

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第7张图片
【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第8张图片
DeepLab V3: state of the art(业界最先进的语义分割)
论文发表时间: 2017年12月5日 Google
最重要特点:去除了CRF,使用ASPP(1个1x1卷积,3个rate不同的3x3卷积,一个平均池化)
组成部分:
损失:
优点:
缺点:
面试直接背:
采用了并联的ASPP


DeepLab V3+

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第9张图片
【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第10张图片

DeepLab V3+:
论文发表时间: 2018年8月22日 Google
最重要特点: 结合encoder-decoder
组成部分: Modified Aligned Xception(修正对齐的Xception)
损失:
优点:
缺点:
面试直接背:


Mask R-CNN

【目标分割】面试大纲:三分钟说清楚一个网络:FCN SegNet U-Net DeepLab V1 DeepLab V2 DeepLab V3 DeepLab V3+ Mask R-CNN_第11张图片

Mask R-CNN:
论文发表时间: 2018年1月24日 【何凯明】 Facebook AI Research
最重要特点:实例分割:Faster R-CNN基础上演化而来,ResNet-FPN的架构
组成部分: Faster R-CNN(VGG换成ResNet)、ROI Align、Mask R-CNN的损失函数
损失: L = L_cls+ L_box+ L_mask
优点:
缺点:
面试直接背:
Mask R-CNN 可以用于姿态检测,是一个号称最好的通用型框架,在实例分割超越了当时最好的网络。基于Faster R-CNN的feature map输出bbox和cls,另加入了mask用来预测像素二分类,很巧妙的是这里mask分类直接参考cls,而不是从80个分类里softmax。应该是参考SPP或相似结构,这里采用了FCN(多层金字塔)结合RoIAlign的特殊池化算法,从多个层输出预测(cls+bbox+mask)。


你可能感兴趣的:(计算机视觉CV)