前言:
{
前几篇分割网络的论文都是在[1]中找到的,开始我发现我忘了[2],在[2]中我找到了一个比较新的网络:Gated-SCNN[3],这次就来看看它有什么特点。
}
正文:
{
在论文的第一节,作者指出了目前分割网络所面临的问题,包括使用略微修改的分类网络会降低网络输出的空间解析度,和颜色、形状(shape)、纹理信息都被混在一起处理。因此,作者提出了一种新网络结构,其多出一条处理形状的分支(原文叫流,stream)。新网络的结构如图1所示 。
具体结构在下面描述。
论文的第三节中,作者详细介绍了新网络的结构,见图2。
图2把网络结构描述地比较清楚,不过有一部分还是要解释一下。
Gated Conv Layer(GCL)的计算如式(2)所示。
式中s是GCL的来自形状流Shape Stream(靠左边)的输入,w是核(应该是指GCL的权重参数),是按位相乘,α的定义见式(1)。
其中是sigmoid函数,r是GCL的另一个输入,||表示特征链接操作(concatenation)。
edge bce loss是边界输出的二值交叉熵,segmentaion loss是分割输出的交叉熵,
ASPP是Atrous Spatial Pyramid Pooling,我的另一个博客[4]里有提及。
dualtask loss是一个正则损失,其公式为式(7)(各种定义可参考式(5),式(4)和式(6))。
上式中,代表输出点y的预测,G是高斯滤波器[5],λ都是超参数,上面有则代表其对应于标签,是梯度函数,p+代表所有非0像素点(包括预测和标签),代表p的01二值化结果(1对应大于阈值的点,这里的阈值是0.8)。
第四节是实验部分,我就直接上Cityscapes数据集上结果了,见表1。
可见,在这个数据集上,本论文的结构优于DeepLabV3+。
}
结语:
{
这次我没仔细查看训练细节,因为我该睡觉了。。。。。
是不是可以衍生一下,也添加更多的路径来处理其他特征信息(例如角点)?
实际上我之前想过在网络中额外添加边缘图信息,但只不过是在输入多加一个通道罢了,我这样没有很好实现论文中所呼吁的信息分离。
虽然不想更新,但是我还是会强迫我自己更新。如果之后没有论文可读了,我可能会写点心得日记什么的。
能力有限,欢迎提问和拍砖。
参考资料:
{
[1] https://github.com/mrgloom/awesome-semantic-segmentation
[2] https://www.paperswithcode.com/task/semantic-segmentation
[3] https://arxiv.org/pdf/1907.05740v1.pdf
[4] https://blog.csdn.net/fish_like_apple/article/details/82787705
[5] https://blog.csdn.net/geduo_feng/article/details/81604921
}
}