极简笔记 Pyramid Attention Network for Semantic Segmentation

极简笔记 Pyramid Attention Network for Semantic Segmentation

本文核心提出PAN,提出Feature Pyramid Attention module(FPA)和Global Attention Upsample module(GAU),引入注意力机制用于语义分割。
极简笔记 Pyramid Attention Network for Semantic Segmentation_第1张图片

文章认为现有分割ASPP模型会导致grid artifact;以及pyramid pooling module会很大程度丢失像素位置信息。因此考虑不使用atrous形式,同时通过用金字塔结构学习注意力mask而不是直接对feature map进行学习,从而保持像素级别的位置信息。FPA结构如图,一个分支用pyramid结构预测attention mask,另外再加一个global pooling branch。值得吐槽的是配图画的真丑,我真的没有从配图中看出来下采样使用pooling还是用stride=2的形式实现的,以及每个尺度上的卷积是做两次nxn还是一次nxn。还有global pooling branch后面原文写着和之前的feature进行concatenate,在图里又变成了+,这种说话说一半,前后不一致的现象,极度影响阅读体验!要不是看在sota的份上我就不看了!
极简笔记 Pyramid Attention Network for Semantic Segmentation_第2张图片

GAU是用在decode时候的单元,同样引入注意力机制,基本思路也就是high resolution feature map预测一个channel mask然后乘在low resolution shortcut上,具体实现如图。
极简笔记 Pyramid Attention Network for Semantic Segmentation_第3张图片

文章对FPA结构进行了拆解分析,结果如图,同样的,我还是没看懂Max pooling 和Ave pooling到底是用在了什么地方,只能猜测是Pyramid结构里下采样的方式。
极简笔记 Pyramid Attention Network for Semantic Segmentation_第4张图片

对GAU也有分析,发现shortcut用3x3比用1x1效果好
极简笔记 Pyramid Attention Network for Semantic Segmentation_第5张图片

最后是各种sota的比较
极简笔记 Pyramid Attention Network for Semantic Segmentation_第6张图片

你可能感兴趣的:(极简笔记)