【论文阅读】Structured Knowledge Distillation for Semantic Segmentation

概述

这篇论文来自CVPR2019 Oral。

  • 论文的出发点:语义分割的模型往往很难兼顾速度与精度,也因此语义分割的网络分为两类,论文中描述为 cumbersome segmentation network与 compact segmentation network,简单地说一个注重精度,一个注重速度。这篇论文利用知识蒸馏来提高compact segmentation network的精度。
  • 论文的创新点(核心):知识蒸馏不是什么新鲜的东西,论文的核心主要是几个loss的设计,最后一个Discriminator的loss也是亮点,然后就是用复杂网络去teach轻量级网络来提高Prediction的精度,这一点让人(至少我是这样的)眼前一亮。
  • 论文中不明白的地方:在loss函数中有两个点不是很清楚概念, Wasserstein distance和 Kullback-Leibler divergence,两个名词听说过,有时间再看一下。

论文内容

整体的网路如下图所示
【论文阅读】Structured Knowledge Distillation for Semantic Segmentation_第1张图片

  • 结构很明朗,下面看一些几个loss的设计:
    Pixel-wise distillation:两个网络输出feature-map之间的像素之间的差距,用Kullback-Leibler divergence来度量【论文阅读】Structured Knowledge Distillation for Semantic Segmentation_第2张图片
    Pair-wise distillation:这个loss好像是来自其他论文的启发,直接拿来用了,看公式定义不难理解【论文阅读】Structured Knowledge Distillation for Semantic Segmentation_第3张图片
    Holistic distillation:这个loss采用了典型的GAN的处理方式,将两个网络的输出分别与原图concatenate,以一种 conditional generative adversarial learning方式进行训练。其中把复杂网络的输出视为real sample,把简单网络的输出视为fake sample。loss公式如下
    【论文阅读】Structured Knowledge Distillation for Semantic Segmentation_第4张图片

  • 训练过程
    Train the discriminator:训练鉴别器,就是对 l h o l_{ho} lho做一个minimize,简单明了。
    Train the compact segmentation network:训练分割网络时就是对如下的目标函数做一个minimize.
    【论文阅读】Structured Knowledge Distillation for Semantic Segmentation_第5张图片

你可能感兴趣的:(GAN+Seg,深度学习,神经网络,人工智能)