[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记

Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记

  • Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark(ICCV 2021)
    • 1 摘要
    • 2 引言
    • 3 相关工作
    • 4 PIDray 数据集
    • 5 Selective Dense Attention Network
      • 网络架构
      • Selective Channel-wise Attention
      • Selective Spatial Attention
      • Dependency Refinement
    • 实验结果

Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark(ICCV 2021)

论文链接:论文链接
代码链接:代码链接

1 摘要

  • 问题
    • 类内方差、类不平衡、遮挡
    • 有些物品可能是被故意藏起来的,这就意味着遮挡很严重
  • 解决方案
    • 提出数据集 PIDray
    • 提出基线检测器 SDANet(selective dense attention network),包括
      • dense attention module(由 spatial 和 attention-wise dense attentions 组成,用来学习特征之间的差异性)
      • dependency refinement module(用来找到多尺度特征之间的依赖关系)

2 引言

  • 数据集示例

  • 现有 x 光数据集忽略的问题

    • 类别少,数量少
    • 根据不同的安全级别,有些场景可能需要进行实例分割
    • 刻意隐藏的物品,如下图[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第1张图片

3 相关工作

  • GDXray:包含三种违禁物品:枪、手里剑和剃须刀片。由于几乎没有复杂的背景和重叠,因此很容易识别或检测该数据集中的对象
  • Dbf6、Dbf3和OPIXray:包含复杂的背景和重叠数据,但图像的数量和违禁物品的数量仍然不足
  • Liu et al.:构建了一个包含 32253 张 X 射线图像的数据集,其中 12683 张图像包含违禁物品。该数据集包含 6 种类型的物品,但没有一种是严格禁止的,例如手机、雨伞、电脑和钥匙
  • SIXray:包含1,059,231张带有图像级别注释的X射线图像,然而,在数据集中包含违禁物品的图片较少(即只有0.84%)。此外,该数据集包含6个类别的违禁物品,但实际上只有5个类别被标注
  • PIDray:本文包含超过47000张带有违禁物品的图像和12个带有像素级注释的违禁物品类别

4 PIDray 数据集

  • 使用 3 台来自不同制造商的安检机来收集 X 射线数据[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第2张图片
    [论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第3张图片
  • 分为 Easy、Hard、Hidden 三个测试集:easy模式是指测试集中的图像只包含一个禁止项目。hard模式表示测试集中的图像包含多个违禁物品。hidden模式表示测试集中的图像包含故意隐藏的违禁物品[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第4张图片

5 Selective Dense Attention Network

网络架构

  • FPN之后,网络通过两个关键步骤充分利用了muti-scale特征图
    • 两个 selective attention module 融合来自不同层的信息:Selective Channel-wise Attention module (SCA) 和 Selective Spatial Attention module (SSA)
    • dependency refinement module 增强融合特征
  • 这两个步骤是在每一层的 feature map上执行的。在结合原始 map 和增强的 map 后,multi-scale representation 被输入 RPN 进行最终预测
  • 为了实现 SCA 和 SSA 模块,先通过 element-wise 的操作来融合不同层的特征,即 X = ∑ i = 1 n X i X = ∑^n_ {i=1}X_i X=i=1nXi。注意,在将多级特征 { X 1 , . . . , X n } \{X_1, ..., X_n\} {X1,...,Xn} 送入两个模块之前,将其调整为与第i层特征相同的大小(也就是图中的 Rescale Operation 操作)

Selective Channel-wise Attention

[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第5张图片

  • 采用 global average pooling (GAP) 层来获得基于基础特征 X ^ \hat X X^ 的全局通道信息。之后,使用全连接(FC)层减少通道维度(例如,从256到128)。此外,通过增加 FC 层和每层的 softmax 操作,自适应地获得不同特征图的 channel-wise 的注意力权重 { ω i c } i = 1 n \{ω^c_i\}^n_{i=1} {ωic}i=1n。最后,通过每层的注意力权重得到增强的特征图 V C = ∑ i = 1 n ω i c X i V_C= ∑^n_{i=1} ω^c_i X_i VC=i=1nωicXi

Selective Spatial Attention

[论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第6张图片

  • 在特征图 X ^ \hat X X^ 上使用平均池化和最大池化操作来生成两种不同的空间上下文描述符,即 A v g ( X ^ ) , M a x ( X ^ ) Avg( \hat X),Max(\hat X) Avg(X^)Max(X^)。将两种上下文描述符进行拼接,通过增加卷积层和每层的 softmax 操作来获得空间注意力权重。最后,通过各层的注意力权重得到特征图 V S ( x , y ) = ∑ i = 1 n ω i s ( x , y ) X i ( x , y ) V_S(x,y)=∑^n_{i=1} ω^s_i(x,y)X_i(x,y) VS(xy)=i=1nωis(xy)Xi(xy),其中 ( x , y ) (x,y) xy表示特征图中像素的位置

Dependency Refinement

  • 在获得具有通道和空间注意力的聚合特征后,使用 Dependency Refinement (DR) 模块以生成更具辨别力的特征图。Non-local 可以有效地捕获远程依赖关系,从而进一步提高准确性。如图 5(c) 所示,先聚合全局上下文特征,然后建立不同通道之间的关系。最后,通过融合模块将全局上下文特征融合到所有位置的特征中

实验结果

  • PIDray 数据集结果

  • 消融学习
    [论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第7张图片

  • 和 Cascade Mask R-cnn 对比

  • 注意力模型对比
    [论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第8张图片

  • COCO 和 VOC 的结果
    [论文笔记] Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark 阅读笔记_第9张图片

你可能感兴趣的:(论文笔记,论文阅读,深度学习,人工智能)