ESPNet

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segme


2019/03/11 Author:Yu Zhang

此篇论文为ECCV2018中的一篇论文,作者介绍了一个既快又效果说得过去的网络架构,用于语义分割当中。此网络可以达到每秒112帧,比目前有效的轻型网络如MobileNet,ShuffleNet, ENet等等都要快,还好,在只降低8%精度的条件下,比PSPNet小180倍,速度快22倍。

那么作者是怎么做到的呢?

ESP

上图为ESP的架构,看起来非常复杂,但其实操作很简单,首先使用逐点卷积将通道数进行缩减,缩减后送入空洞卷积金字塔,通过不同rate的空洞卷积获得更大感受野并进行融合,参数非常少,因为通道减少之后,每一个空洞卷积的参数都是很少的。具体通道及rate以及拼合策略如图所示。拼合策略与普通空洞卷积特征融合的方法不同,这里为了避免gridding artifacts现象,采用了逐级相加的策略。

设计的分割网络如下图:设计了一个轻量级的编码解码网络架构

structure

在cityscapes测试集上能达到60.3的准确率,已经不错了。 同时作者做了特别多的实验,感兴趣的可以到原文中去看。


在18年11月份,ESPNet作者又发布了ESPNetv2,继续缩小网络,并在分类,分割,语言模型三个任务中取得不错的效果。我们看一下他的结构:
structure

与ESPNet不同的地方是:

  • 一开始的普通1x1conv 降维变为了1x1 group conv,这会减少参数
  • 中间的空洞卷积变为深度可分离空洞卷积DDConv
  • A方案会在相加后再接一层1x1conv然后再concat, B方案直接concat不过后面再跟一个1x1 groupconv

实验结果我只帖分割结果,如下图:
results

可以看到比ESPNet参数少了4倍,性能只降低了6%

你可能感兴趣的:(deeplearning)