SegNet 速览笔记

SegNet

用于做图像语义分割。比以往神经网络要训练参数更少、速度更快、memory需求更低。

Architecture

总体上是encoder-decoder的结构。
encoder采用了与VGG16网络相同的13层卷积层,decoder由上采样和卷积层构成。
每一个encoder和一个decoder对应。
最后用一个可训练的soft-max层做分类。将3 channels的像素分类为K classes

Encoder

每一个encoder由若干个卷积层跟上一个Max-pooling以及sub-sampling构成。
这里的卷积层有batch-normalized以及relu
具体来说,是一个可训练卷积层,2x2大小,2滑动距离的max-pooling,以及因子为2的sub-sampling。

Decoder

Decoder是本网络最重要的工作。它由Upsampling和卷积层构成。
Upsampling中的indices和Encoder中的indices相同,这可以保留segmented images中的高频信息,并大大减少训练参数。

卷积层也是带有batch-normalized以及relu。

特点

  • 提高了边界的描述(delination)
  • 减少了训练参数 提高了速度,降低了内存
  • upsampling形式可被用于其他网络

效果

以CamVid road scene segmentation 和 RGB-D indoor scene segmentation 来衡量

你可能感兴趣的:(深度神经网络,计算机视觉)