前言:
{
最近在github上看到了一个语义分割的汇总[1],上面有很多论文我都还没看过,这次我打算选一个比较新的来读读看。
这次选择的论文是2019年的High-Resolution Representations for Labeling Pixels and Regions [2]。
}
正文:
{
在论文的第一节,作者介绍了目前一些高分辨率风格的网络结构的特点。这些网络可分为两种,一种是缩小再放大的网络,例如[3];另一种是保持高分辨率的网络,这种网络通过并行路径提取全局信息和局部细节,例如[4](HRNetV1)。本论文所提出的网络就是保存高分辨率的第二种。
在第三节,作者对论文提及的网络进行了详述。图1是网络的结构图。
此网络由图2中的(a)和(b)组成。
网络最后的输出是一个特征张量,见图3。
上图中,(a)是[4]中提出的结构,(b)是本论文提出的改进结构,最后还会跟一个线性分类器,(c)是为目标检测改进的结构。
值得一提的是,下采样是通过stride为2的3*3卷积实现的,上采样则通过双线性差值来实现。4种分辨率的特征图具有不同的通道数,分别为C, 2C, 4C, 和 8C(C应该是一个超参数)。另外,图2中(a)的每一条分支是4个残差单元(residual unit),每个残差单元包括2个3*3的卷积。
第四节是实验细节。
在Cityscapes数据集上,本论文中采用的具体训练配置为:
结果见表2。
表2中的-W48代表高分辨率特征图的通道数(上面提到的C)为48。
可以发现,当使用训练和验证数据后,本论文的网络在结果上有大幅提高。
}
结语:
{
值得一提的是,在open-mmlab中已经实现了HRNet[5],之后我可能会去用用看。
能力有限,欢迎拍砖。
参考资料:
{
[1] https://github.com/mrgloom/awesome-semantic-segmentation
[2] https://arxiv.org/pdf/1908.07919.pdf
[3] http://www.arxiv.org/pdf/1505.04597.pdf
[4] https://arxiv.org/pdf/1902.09212v1.pdf
[5] https://github.com/open-mmlab/mmdetection
}
}