[论文解读] Don‘t Hit Me! Glass Detection in Real-world Scenes

论文链接:
Don’t Hit Me! Glass Detection in Real-world Scenes

1 总述

这篇文章针对玻璃检测的问题, 提出了一个新的用于玻璃检测的网络GDNet, 并在作者自己构建的GDD数据集和其他一些公开数据集上取得了SOTA的结果。这篇文章的主要贡献点有3个: 第一,构建了一个专门用于玻璃检测的数据集GDD; 第二, 设计了一种大视野上下文特征集成的网络模块;第三, 在多个任务场景中取得了SOTA的结果。

2 主要方法

2.1 网络描述

整个GDNet网络主要可分为3个部分: 第一部分是特征提取网络,第二部分是作者专门设计的大视野上下文特征集成模块(large-field contextual feature integration (LCFI) modules),第三部分主要是进行一些特征融合以及产生最终输出的模块。
[论文解读] Don‘t Hit Me! Glass Detection in Real-world Scenes_第1张图片
第一部分的特征提取网络,作者采用了预训练的ResNeXt101, 并把它的最后四层输出给第二部分的网络作为输入。
其中比较核心的是第二部分的大视野上下文特征集成模块。 该模块有4个并行的block, 4个block是相同的。 block的结构是比较简单的, 首先是一个3x3卷积+BN+Relu, 接着经过2个空间可分离的卷积, 并把他们的输出concat在一起, 最后在经过一个3x3卷积+BN+Relu。有一点比较有意思的是, 2个空间可分离的卷积的顺序是相反的, 作者认为这样有助于消除歧义。 原文的说法是As the content inside a glass region is typically complicated, contextual features with different characteristics are needed to eliminate the ambiguity.
[论文解读] Don‘t Hit Me! Glass Detection in Real-world Scenes_第2张图片

2.2 LOSS函数设计

作者采用了3种loss函数的加权和作为最终的loss函数, 分别是binary cross-entropy
(BCE) loss, edge loss and IoU loss 。
L o s s = w h L h + w l L l + w f L f Loss = w_hL_h+w_lL_l+w_fL_f Loss=whLh+wlLl+wfLf
其中, L h = l b c e + l i o u L_h =l_{bce}+l_{iou} Lh=lbce+liou, L l = l b c e + l e d g e L_l = l_{bce}+l_{edge} Ll=lbce+ledge, L f = l b c e + l i o u + l e d g e L_f = l_{bce}+l_{iou}+l_{edge} Lf=lbce+liou+ledge

3 实验结果

1 在GDD数据集上和其他方法的对比:
[论文解读] Don‘t Hit Me! Glass Detection in Real-world Scenes_第3张图片
2 在mirrow segmentation 任务上和MirrowNet的对比:
[论文解读] Don‘t Hit Me! Glass Detection in Real-world Scenes_第4张图片

你可能感兴趣的:(论文解读,人工智能,深度学习,神经网络)