【论文阅读纪录】High-Resolution Representations for Labeling Pixels and Regions(HRNetV2)

前言:

{

    最近在github上看到了一个语义分割的汇总[1],上面有很多论文我都还没看过,这次我打算选一个比较新的来读读看。

    这次选择的论文是2019年的High-Resolution Representations for Labeling Pixels and Regions [2]。

}

 

正文:

{

    在论文的第一节,作者介绍了目前一些高分辨率风格的网络结构的特点。这些网络可分为两种,一种是缩小再放大的网络,例如[3];另一种是保持高分辨率的网络,这种网络通过并行路径提取全局信息和局部细节,例如[4](HRNetV1)。本论文所提出的网络就是保存高分辨率的第二种。

 

    在第三节,作者对论文提及的网络进行了详述。图1是网络的结构图。

    【论文阅读纪录】High-Resolution Representations for Labeling Pixels and Regions(HRNetV2)_第1张图片

    此网络由图2中的(a)和(b)组成。

    【论文阅读纪录】High-Resolution Representations for Labeling Pixels and Regions(HRNetV2)_第2张图片

    网络最后的输出是一个特征张量,见图3。

【论文阅读纪录】High-Resolution Representations for Labeling Pixels and Regions(HRNetV2)_第3张图片

    上图中,(a)是[4]中提出的结构,(b)是本论文提出的改进结构,最后还会跟一个线性分类器,(c)是为目标检测改进的结构。

    值得一提的是,下采样是通过stride为2的3*3卷积实现的,上采样则通过双线性差值来实现。4种分辨率的特征图具有不同的通道数,分别为C, 2C, 4C, 和 8C(C应该是一个超参数)。另外,图2中(a)的每一条分支是4个残差单元(residual unit),每个残差单元包括2个3*3的卷积。

 

    第四节是实验细节。

    在Cityscapes数据集上,本论文中采用的具体训练配置为:

  • 数据扩增:随机裁剪(尺寸为1024×2048到512 × 1024),随机缩放(比例为0.5到2),随机翻转;
  • 优化器相关设置:优化器为SGD,初始学习率为0.01,冲量为0.9,权值衰减为0.0005,学习率改变策略为Polynomial(power为0.9);
  • 其他:120000次迭代,batch size为12,使用syncBN(4个GPU).

    结果见表2。

【论文阅读纪录】High-Resolution Representations for Labeling Pixels and Regions(HRNetV2)_第4张图片   

    表2中的-W48代表高分辨率特征图的通道数(上面提到的C)为48。

    可以发现,当使用训练和验证数据后,本论文的网络在结果上有大幅提高。

}

 

结语:

{

    值得一提的是,在open-mmlab中已经实现了HRNet[5],之后我可能会去用用看。

    能力有限,欢迎拍砖。

    参考资料:

    {

        [1] https://github.com/mrgloom/awesome-semantic-segmentation

        [2] https://arxiv.org/pdf/1908.07919.pdf

        [3] http://www.arxiv.org/pdf/1505.04597.pdf

        [4] https://arxiv.org/pdf/1902.09212v1.pdf

        [5] https://github.com/open-mmlab/mmdetection

    }

}

你可能感兴趣的:(高分辨率,语义分割,HRNet,python,神经网络与机器学习,论文阅读记录)