gcn语义分割_资源推荐:语义分割江湖三剑客

点击上方△头像可进入主页,了解更多精彩内容~

回顾

计算机视觉有三大核心任务——分类、检测、分割,三者号称是深度学习炼丹师的“三大浪漫”。分类针对整张图片,检测针对图片的局部,语义分割则如图所示,旨在给输入图片上的每个像素赋予一个正确的语义标签。

gcn语义分割_资源推荐:语义分割江湖三剑客_第1张图片

语义分割江湖之中,FCN 横空出世,自此 DL/NN 方法席卷了整个语义分割领域。

碰撞出了两个最重要的设计:U-shape Structure 和 Dilation Conv,据此形成当下语义分割领域网络设计最常见的两大派系:1)U-shape 联盟以 RefineNet、GCN、DFN 等算法为代表;2)Dilation 联盟以 PSPNet、Deeplab 系列方法为代表;

语义分割任务同时需要 Spatial Context 和 Spatial Detail 。今天我们介绍的三种算法都将从这两方面分别提出各自对应的解决方案。整体对比如下:

gcn语义分割_资源推荐:语义分割江湖三剑客_第2张图片

Global Convolutional Network/Large Kernel

算法全称:

Large Kernel Matters Improve Semantic Segmentation by Global Convolutional Network

论文链接:

https://arxiv.org/abs/1703.02719

论文简介:

GCN 主要将 Semantic Segmentation分解为:Classification 和 Localization两个问题。但是,这两个任务本质对特征的需求是矛盾的,Classification需要特征对多种Transformation具有不变性,而 Localization需要对 Transformation比较敏感。从 Localization 来看,我们需要全卷积网络,而且不能有全连接或者全局池化等操作丢失位置信息。从 Classification 来看,我们需要让 Per-pixel Classifier 或者 Feature Map 上每个点的连接更稠密一些,也就需要更大的 Kernel Size。

gcn语义分割_资源推荐:语义分割江湖三剑客_第3张图片

网络结构:

根据上述两条 Principle,这个方法整体结构正是背景介绍中提到的U-shape结构,其核心模块主要包括:GCN 和 BR。

gcn语义分割_资源推荐:语义分割江湖三剑客_第4张图片
gcn语义分割_资源推荐:语义分割江湖三剑客_第5张图片

Discriminative Feature Network

算法全称:

Learning a Discriminative Feature Network for Semantic Segmentation

论文链接:

https://arxiv.org/abs/1804.09337

论文简介:

本文从宏观角度出发重新思考语义分割任务,提出应该将同一类的 Pixel考虑成一个整体,也就需要增强类内一致性,增大类间区分性。总结而言,语义分割需要更具有判别力的特征。

  • Intra-class Inconsistency(具有相同的语义标签,不同的表观特征的区域)
  • Inter-class Indistinction(具有不同的语义标签,相似的表观特征的区域)
gcn语义分割_资源推荐:语义分割江湖三剑客_第6张图片

网络结构:

本文提出的DFN主要包括两部分:Smooth Network 和 Border Network;Smooth Network 主要解决类内不一致性问题。文中认为类内不一致性问题主要来自Context 的缺乏。进而,我们需要引入 Multi-scale Context 和 Global Context;但是,不同 Stage 的特征虽然带来了 Multi-scale Context,与此同时也带来了不同的判别能力;因此,我们需要对这些具有不同判别力的特征进行筛选,这就诞生了其中核心的设计——Channel Attention Block(CAB)。

gcn语义分割_资源推荐:语义分割江湖三剑客_第7张图片

而通过可视化输出,可以看到Smooth Network确实可以将类内区域变得更加一致。

gcn语义分割_资源推荐:语义分割江湖三剑客_第8张图片
gcn语义分割_资源推荐:语义分割江湖三剑客_第9张图片

BiSeNet

算法名称:

Bilateral Segmentation Network(BiSeNet)

论文链接:

https://arxiv.org/abs/1808.00897

论文简介:

本文对之前的实时性语义分割算法进行了总结,发现当前主要有三种加速方法:1) 通过 Crop 或者 Resize 限制输入图片进而减少计算量;2) 减少网络通道数,尤其是 Early Stage;3) 还有像 ENet 类似的方法直接丢掉最后一个 Stage,如图10(a)所示。

这些提速的方法会丢失很多 Spatial Details 或者牺牲 Spatial Capacity,从而导致精度大幅下降。为了弥补空间信息的丢失,有些算法会采用 U-shape 的方式恢复空间信息。但是,U-shape 会降低速度,同时很多丢失的信息并不能简单地通过融合浅层特征来恢复。

gcn语义分割_资源推荐:语义分割江湖三剑客_第10张图片

网络结构:

BiSeNet区别于 U-shape 和 Dilation 结构,尝试一种新的方法同时保持 Spatial Context 和 Spatial Detail 。所以,我们设计了Spatial Path和Context Path两部分。顾名思义,Spatial Path使用较多的 Channel、较浅的网络来保留丰富的空间信息生成高分辨率特征;Context Path使用较少的 Channel、较深的网络快速 downsample来获取充足的 Context。基于这两路网络的输出,文中还设计了一个Feature Fusion Module(FFM)来融合两种特征。

gcn语义分割_资源推荐:语义分割江湖三剑客_第11张图片

详细内容请查看原文链接:https://zhuanlan.zhihu.com/p/55263898


Mark.AI专栏简介:

首个深度学习垂直领域资源推荐专栏,于每日晚更新,更新内容主要为人工智能与深度学习领域的论文开源源代码,用知识修炼心灵,以智慧对话世界,在这里,持续感受人工智能技术的魅力。

Mark.AI专栏推荐:

►资源推荐:深度学习开放数据集

►「码上十点」十月份机器学习最火的四篇文章

►「码上一课」快而准,经典的轻量级深度神经网络(论文代码)

►「码上一课」2018计算机视觉顶会论文及源代码分享

你可能感兴趣的:(gcn语义分割)