论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)

基于标签感知机制的X射线安检图像重叠目标检测

原文下载地址: Detecting Overlapped Objects in X-Ray Security Imagery by a Label-Aware Mechanism | IEEE Journals & Magazine | IEEE Xplore

摘要 X射线安检的关键挑战之一是在X射线图像中检测出背包或行李箱中重叠的物品。现有的大多数方法都是通过增强颜色和边缘等底层视觉信息来提高模型对物体重叠问题的鲁棒性。然而,这种策略忽略了物体与背景有相似的视觉线索,以及物体相互重叠的情况。由于这两种情况在现有数据集中很少出现,我们贡献了一个新的数据集——刀具和液体容器X射线数据集(Cutters and Liquid Containers X-ray Dataset, CLCXray)来完成相关研究。此外,我们提出了一种新的标签感知机制(Labelaware Mechanism, LA)来解决对象重叠问题。其中,LA建立了特征通道与不同标签之间的关联,并根据分配的标签(或伪标签)对特征进行调整,有助于提高预测结果。大量的实验表明,该方法在重叠目标检测中具有较好的准确性和鲁棒性,同时也验证了该方法对先进(SOTA)方法的有效性和良好的泛化性。此外,实验结果表明,在OPIXray和CLCXray数据集上,LA构建的网络优于SOTA模型,特别是解决了高度重叠对象的问题。

关键词 目标检测,X射线数据集,重叠

  1. 引言

在过去的几十年里,安检在世界范围内被公认为是预防恐怖袭击和犯罪的有效措施,基于X射线的包裹安检系统已广泛应用于地铁、机场、海关等公共场所去检查包裹中的危险品。虽然该系统已经取得了很大的成功,但由于依赖人工操作人员的审核,系统的稳定性和准确性都不高。为了解决这一问题,许多研究者研究了目标检测算法在X射线安检图像中的应用,以协助工作人员识别威胁物体。Schmidt-Hackenberg等人[1]提出使用SLF-HMAX和V1-like两种视觉皮层启发特征并结合视觉单词袋的方法。Flitton等人[2]研究了在3D CT安检图像中使用3D特征描述符的目标检测方法。Bastan等人[3]提出了两种密集采样方法作为无纹理物体的关键点检测器,并扩展了SPIN颜色描述符以利用材料信息应用于多视图图像。Kundegorski等人[4]结合视觉词袋方法对各种特征点描述符进行了基准测试。Jaccard等人[5]首次在货物集装箱的X射线图像中使用卷积神经网络(CNN)。随后,Jaccard等人[6]提出了X射线货物检验的机器学习框架。Petrozziello和Jordanov[7]使用图像增强来去除噪声和模糊图像,并评估了CNN和Autoencoder的性能。Akcay等人[8]-[13]评估了YoloV2 [14]、R-CNN[15]和其他深度学习方法在X射线安检图像上的性能。

现有的工作[6]、[8]显示了深度学习方法相对于传统方法如视觉单词袋法的优势。然而,深度学习方法需要大量的样本来实现良好的泛化。从2015年到2019年,只有一个公共数据集GDXray[16],其中只有1552张X射线行李图像被标记。为了在有限的可用数据下提高模型的泛化能力,研究人员采用了数据增强和迁移学习等技术。Jain等人[9]采用了一种生成模型来生成新的X射线图像。Cui和Oztan[12]使用危险品图像投影(TIP)生成训练数据。Bhowmik等人[17]研究了使用真实和合成X射线训练图像在检测性能上的差异。Gaus等人[18]评估了深度学习网络的可迁移性。Wei和Liu[19]设计了一个基于SSD的迁移学习网络。然而,这些技术在泛化方面的改进是有限的。Caldwell和Griffin[20]指出从光学图像数据到X射线安检图像的数据转换只对小样本数据有益。Bhowmik等人[17]显示了合成训练数据在X射线安检图像中违禁目标检测方面的局限性。Cubuk等人[21]指出数据增强的幅度受限于模型和训练集的大小。为了研究一个特定的问题,必须要有一个特定的数据集。Miao等人[22]发布了一个数据集SIXray,该数据集包含了大量没有危险品的图片,用于研究正负样本的不平衡。Wei等人[23]发布了一个数据集OPIXray来研究重叠问题,其中图像通常具有复杂的背景。

由于X射线成像原理,行李内堆放物品的图像经常重叠。与光学图像中的遮挡问题不同,重叠的物体在X射线安检图像中仍然可见。然而,由于图像的重叠,重叠物体的检测受到干扰。根据重叠对象的不同,重叠问题可以分为三种类型:对象与不相关背景之间的重叠、对象与相似背景之间的重叠、多个对象之间的重叠。以前的工作主要研究危险品与不相关背景之间的重叠。Liu等人[24]提出了一种两阶段方法,首先利用颜色信息从输入图像中分割出目标图像,然后对目标图像进行检测。Hassan等人[25]也提出了一种两阶段的方法,首先利用轮廓信息从图像中分割出感兴趣区域(ROI),然后对ROI进行检测。Wei等人[23]提出利用注意力机制使网络关注图像中物体的颜色和轮廓,而不是从背景中分割物体。此外,Cao等人[26]提出使用部分外观来识别危险品,这需要额外的部分外观标签。

然而,真实的场景是复杂的。在一些场景中,背景和物体的颜色相似,物体没有清晰可分的轮廓。此外,不同物体之间存在重叠。在本文中,我们贡献了一个新的数据集刀具和液体容器X射线数据集(CLCXray)来进一步研究重叠问题。与OPIXray[23]不同的是,CLCXray更关注目标与相似背景之间的重叠,以及多个目标之间的重叠。在类别方面,CLCXray数据集中有两种类型的危险品,刀具和液体容器,它们广泛存在,但在以前的研究中被忽略了。CLCXray样本如图1所示。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第1张图片

图1

为了解决重叠问题,我们提出了一种新的标签感知机制(Labelaware Mechanism, LA),该机制利用梯度建立特征通道与分配标签之间的关系,并根据分配的标签对特征通道进行加权。以前的策略基于底层视觉信息,不区分不同的前景,LA基于高级特征。大量实验表明,在OPIXray和CLCXray数据集上LA算法检测重叠目标时具有较好的准确性和鲁棒性,并验证了LA算法对任意网络的有效性和良好的泛化性。

我们总结这项工作的贡献如下:

  • 我们为重叠问题贡献了一个新的数据集CLCXray。与现有的所有数据集不同,CLCXray提供了大量基于真实场景的重叠对象,为重叠问题的研究提供了良好的基础。此外,CLCXray还考虑了危险液体,扩大了对威胁对象的研究范围。此外,CLCXray提供了高精度的注释,这弥补了目前缺乏高质量的目标框(bbox)标签。

  • 我们提出了一种新的标签感知机制(LA)来解决重叠问题。与现有的所有方法不同,LA在高级特征图中分离重叠对象。通过分配给不同锚点(采样点)的标签,自适应地调整相应的特征,LA可以处理物体与相似背景之间的重叠,以及多个物体之间的重叠。

  • 我们评估了CLCXray和OPIXray上的几种SOTA目标检测方法,并评估了LA在不同方法上的性能。大量实验表明,基于OPIXray和CLCXray的聚类算法在检测重叠目标时具有较好的准确性和鲁棒性,并验证了聚类算法对任意网络的有效性和良好的泛化性。

  1. 相关工作

  1. X射线安检图像数据集

Mery等人[29]、[30]总结了论文中出现的用于目标检测的X射线安检图像数据集。如表1所示,Durham Baggage Patch/Full Image Dataset [8], MV -Xray Dataset [27], and SASC Dataset [28]尚未公开发布。已经公开的数据集有GDXray、SIXray、和OPIXray。其中,GDXray[16]包含多视图图像,通常用于分类任务。GDXray包含5组:铸件、焊缝、行李、自然、设置,其中行李组是X射线安检图像目标检测所需的数据集,包含8150张X光图片,分为77个系列,X射线图像是从不同的容器中拍摄的,如背包、笔盒、钱包等。系列B0046、B0047和B0048包含600张X射线图像,可用于手枪、飞镖、剃须刀片的目标检测。为了研究多视角问题,可以在B0049系列、B0050系列和B0051系列上进行实验,分别从不同角度拍摄单个手枪、飞镖、刀片的X射线图像。

SIXray[22]用于研究类别不平衡问题。SIXray总共包含1,059,231张X射线图像,其中8,929张图像被标记。这些图像是从几个地铁站收集的,原始元数据表明存在或不存在违禁物品。禁带物品一般有六类,即枪、刀、扳手、钳子、剪刀、锤子。这些物体的分布与现实场景一致,其中正样本比负样本少得多。为了研究训练数据不平衡带来的影响,Miao等人在该数据集中构建了三个子集,分别命名为SIXray10、SIXray100和SIXray1000,其中数字表示负样本与正样本的比值。

OPIXray是首个用于安检的高质量目标检测数据集。OPIXray共包含5类刀具的X光图像8885张,即折叠刀、直刀、剪刀、万能刀、多刀。所有样品的背景由安检机扫描,禁带物品由专业软件合成到这些背景中。为了研究遮挡水平带来的影响,Wei等人将测试集分为三个子集,分别命名为occlusion Level 1 (OL1)、occlusion Level 2 (OL2)和occlusion Level 3 (OL3),其中数字表示图像中违禁品的遮挡水平。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第2张图片
  1. 标签分配

标签分配是目标检测任务中的一个步骤,用于匹配标签和空间分布式预测。目前,大多数标签分配策略都是基于先验知识的。例如Faster-RCNN[31]、SSD[32]、YOLOv3[33]、RetinaNet[34]基于anchor-based的IoU先验,它根据预先设定的锚框和真实框bbox的IoU (Intersection over Union)为每个空间位置分配标签。FCOS[35]基于中心先验,根据采样点到真实框bbox中心的距离为每个采样点分配标签。然而,基于先验的标签分配策略忽略了相交区域的实际内容,相交区域可能包含有噪声的背景、附近的物体或待检测目标物体的少数有意义的部分。由于这些实际内容反映在预测结果中,近年来有许多基于预测的标签分配动态策略的研究。FSAF[36]探索了为不同FPN层分配标签的动态策略。为了确定最优FPN层,FSAF设计了一个新的模块,通过比较不同FPN层预测和标签之间的损失来分配标签。FreeAnchor[37]进一步探索了为所有anchor分配标签的动态策略,FreeAnchor将检测器训练制定为最大似然估计(MLE)过程,从每个目标的anchor bag中选择最具代表性的anchor。PAA[38]提出了一种新的anchor分配策略,该策略根据模型的学习状态自适应地将anchor分离为正样本和负样本,从而能够以概率的方式推理。

  1. 重叠问题的解决方案

以前的工作主要研究目标之间的重叠和不相关的背景。Miao等人[22]尝试利用不同FPN层的信息来解决重叠问题,从这个角度出发,他们提出在不同FPN层之间使用前景信息来消除背景信息。Liu等人[24]尝试从图像处理的角度出发解决重叠问题,具体来说,他们根据危险品的颜色统计,在原始图像中分割出前景和背景。Hassan等人[25]没有使用颜色信息,而是选择了使用轮廓信息来分离前景和背景,他们将输入图像转换为轮廓图像,并使用一种新的结构张量来分离前景和背景的轮廓。Wei等人[23]同时考虑了颜色和轮廓信息,并引入了注意机制来解决重叠问题,为了使网络更关注图像的颜色和轮廓,他们设计了一个DOAM模块,根据颜色和轮廓生成注意图,生成的注意图用于增强输入图像。

  1. CLCXray数据集

重叠问题是X射线安检图像的一个难题。为了研究这一问题,需要一个合适的数据集。虽然针对重叠问题已经提出了一个数据集OPIXray,但它并没有覆盖多个对象之间的重叠。另外,OPIXray的图像是由TIP合成的,与真实场景的数据有所不同。基于上述原因,我们提出了一个新的数据集CLCXray。与所有现有数据集相比,CLCXray拥有最多的标记图像、标记的危险品、危险品类别和准确的边框标签。下面的小节将详细介绍CLCXray。

  1. 动机

目前,对重叠问题的研究仅限于目标与背景的重叠,现有数据集中很少有多个目标相互重叠的图像。为了扩展对重叠问题的研究,我们提出了CLCXray数据集。图2显示了CLCXray中不同类型的重叠。此外,在早期的数据集中,高致命性武器是主要的研究对象,而有毒、腐蚀性、易燃、易爆液体和各种刀具被忽略。因此,在CLCXray中,我们将刀具和液体容器标记为危险品,以促进刀具和液体容器的研究。而且,如图3所示,SIXray和OPIXray中的标签比较粗糙,不利于更精确定位目标检测的研究。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第3张图片

图2

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第4张图片

图3

  1. 预处理

我们提供的CLCXray是经过预处理的,是经过专业人士认可的。每个样本的原始数据包括两张16位灰度图像,其值从0到65535。为了将原始数据转换为用于训练、测试和可视化的三通道图像,我们首先将高能图像和低能量图像除以256。所产生的图像构成所述三通道图像中的第一通道和第二通道。然后我们用高能量图像与低能量图像的比值R来填充第三通道。由于Sigmoid(0)等于0.5,且R的值大于0,我们使用公式将R投影到0到255之间的区间:Channel3=510 Sigmoid(R)-255。

  1. 数据属性

CLCXray数据集包含9565张X射线图像,其中4543张X射线图像(真实数据)来自真实地铁场景,5022张X射线图像(模拟数据)来自手工设计所有图像均使用同一类型的X射线扫描仪(TECHIK,型号TH-XS6550)获取。所有标签由8名初级员工(工作经验不足5年的学生)分别标记,并由2名高级员工(工作经验超过5年)审核。CLCXray数据集中有12个类别,包括5种类型的刀具和7种类型的液体容器。五种刀具包括刀片、匕首、刀、剪刀、瑞士军刀。七种液体容器包括易拉罐、盒装饮料、玻璃瓶、塑料瓶、真空杯、喷雾罐、罐头。每一类的分布情况见表2。CLCXray数据集包含超过20,000个潜在危险的项目和每个X射线图像平均包含两个以上的潜在危险品。图像分辨率在373 × 200 ~ 732 × 1280之间。标签被制作成COCO格式。参考一般划分,CLCXray按照8:1:1的比例分为训练集、验证集和测试集。我们首先通过随机抽样的方式构建模拟数据与真实数据之比为1:9的测试集。然后我们用剩下的样本以8:1的比例组成训练集和测试集。测试集包含的真实样本比例(90%)远高于训练集和验证集中真实样本的比例(43%)。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第5张图片

与GDXray、SIXray、OPIXray相比,CLCXray具有以下独特的属性:第一,CLCXray中多个物体之间的重叠更多,这是因为平均每张图像中标记的对象更多。如图5所示,CLCXray数据集中近60%的X射线图像包含至少两个或两个以上的前景。在SIXray和OPIXray中,只有少数X射线图像包含一个以上的物体。图2显示了CLCXray中不同的重叠。第二,CLCXray中的类别包含液体容器,这在以前的研究中没有看到。液体容器可能含有有毒、腐蚀性、易燃和爆炸性液体,这很危险但很容易被忽视。第三,CLCXray有更准确的bbox标签。图4为ATSS[39]在不同数据集上训练和测试得到的折线图。OPIXray和SIXray上出现的急剧下降显示了模型从bbox中精确定位的难度。此外,我们将不同数据集的标签可视化,如图3所示。与SIXray和OPIXray相比,CLCXray的标签在视觉上更贴近目标边缘。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第6张图片

图4

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第7张图片

图5

  1. 有效性

图片和相应的标签结果只能用于学术目的。禁止商业使用。版权所有©同济大学视觉与智能学习实验室。从这里下载数据集:GitHub - GreysonPhoenix/CLCXray: Detecting Overlapping Objects in X-ray Security Imagery by a Label-aware Mechanism

  1. 方法

  1. 总体框架

在本文中,我们将LA和ATSS相结合来构建我们的网络。ATSS是基于RetinaNet在以下方面进行了改进:在结构上,ATSS采用五层FPN,并预测回归分支上的回归质量评分(中心度)。在回归损失的选择上,ATSS采用GIoU损失。在标签分配策略中,ATSS根据IoUs of anchors和ground truth bbox的统计数据,将分配正标签或负标签的固定阈值更改为动态阈值。如图6所示,整体网络结构与ATSS相似,只是在Head部分增加了一个新的分支Labelaware。标签感知分支从预测结果和标签分配到特征映射形成一个反向网络。因此,在头部部分有一个循环。在我们的设置中,这个循环只发生一次。具体来说,网络进行两次预测,回归分支在第二次预测中重复两次。在计算损失函数时,不考虑第一个预测。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第8张图片

图6

  1. 标签感知机制

图7显示了真空杯(A)、塑料瓶(B)和未标记键盘(背景)之间的重叠。P是位于绿色网格中的采样点。由于P在重叠区域,P从A、B和背景中提取低级视觉特征。当P负责预测A时,来自B和背景的信息是冗余的。当P负责预测B时,来自A和背景的信息是冗余的。冗余信息使得P的高级特征靠近决策边界。LA根据分配给P的标签区分冗余信息,并调整高级特征使P远离决策边界。该机制可以表示为寻找任务损失最小的调整权值L:

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第9张图片

y为目标的ground truth集合,σ是采样点下标到ground truth下标的映射,由标签赋值决定。θ是网络头部部分的一组参数。相似的对象通常会导致网络的错误预测,这表明相似的对象可能具有共同的特征。为减少错误预测,对上式进行修正如下:

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第10张图片

由式中可以看出,为了得到w,需要通过标签赋值来获得每个采样点的标签信息。与动态标签分配方法不同,动态标签分配方法通常是在静态标签分配的基础上对标签进行再分配,而LA是在静态标签分配的基础上对特征进行调整。标签信息可以被划分为类和回归。在下一节中,我们将介绍使用这两种类型的标签信息实现LA。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第11张图片

图7

  1. 使用分类标签的LA

在本节中,我们将介绍如何使用类标签来实现LA。我们最初的想法是让网络通过分配标签的类别和预测的多类置信度直接学习权重w。因此,LA的早期版本首先计算预测类别和类标签的置信度的交叉熵,然后使用一组1 × 1卷积来根据计算结果学习权重。该方法的网络结构如图8 (A)所示。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第12张图片

图8

虽然早期版本的LA可以提高模型的性能,但它不稳定,缺乏可解释性。为了让生成的权重合理地反映特征和标签之间的对应关系,我们利用了梯度。对于特定类别的预测置信度,特征图的相应梯度反映了特征图上不同位置对提高置信度的重要性。因此,这个梯度与我们的目标是一致的。考虑到残差的形式有利于特征映射,生成新特征图的公式为:

然而,预测不同类别所需的不同特征通道之间可能存在交叉。加强共同渠道,不仅会增强对正确类的信置信度,也会增强对错误类的置信度。为了减少错误的预测,我们基于置信度最高的类别(而不是正确类别)生成第二个权重。通过从第一个权重中减去第二个权重,我们得到当前版本,即LAcls。LAcls生成的新特征图的公式如下:

  1. 无标签的LA

LA主要工作在训练阶段,使用分配的标签来调整特征。在测试阶段,LA没有标签。然而,最近的研究[42],[49]表明了训练阶段和测试阶段一致性的重要性。为了解决这个问题,我们使用由预测类别生成的伪标签来代替标签在测试阶段的作用。当网络预测正确时,伪标签等价于真实标签。当网络预测错误时,LA不会改变决策。与原始网络相比,使用LA训练的网络更有效地学习特征提取和特征到标签映射。所以总的来说,在测试阶段,带有LA的网络比原始网络产生了更好的预测。

  1. 使用回归标签的LA

与使用类标签构建LA机制相比,使用回归标签更加困难。因为在测试阶段使用的伪标签不能在当前的一般回归表单中生成。为了解决这个问题,我们参考了GFL[49]和作用域头[50]的策略来离散化连续回归表示。在我们的方法中,我们首先将原始的回归表示改为FCOS的回归表示,它回归了从中心点到边框的四个边界的四个距离。然后,我们将四个方向上的距离预测转化为预测距离值在不同数值范围内下降的概率。通过以这种方式离散回归量,我们可以采用与LAcls相同的策略,使用回归标签构建LA。此外,该方法还可以通过计算期望值得到四个方向上的连续预测距离。在我们的实验中,我们将最大距离设置为步幅的16倍,并将最大距离均匀地分成16个间隔。使用回归标签的LA被命名为LAreg。新的特征图以如下形式生成:

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第13张图片
  1. 实验

在本节中,我们首先在OPIXray上设置一个比SOTA方法强得多的基准,并通过将LA应用于基准来验证LA的有效性。然后在CLCXray上比较了多种SOTA对象检测方法的性能,并将LA与其他方法进行了比较,进一步验证了该方法的有效性。我们还在其他网络上应用了LA,验证了LA的普遍性。由于CLCXray包含许多没有重叠对象的图像,我们构建了一个更有挑战性的子集用于进一步评估。

  1. 实验细节

我们在OPIXray和CLCXray两个数据集上进行实验。对于OPIXray,我们采用OPIXray[23]文中的评价指标,即mAP50。对于CLCXray,我们采用COCO评价指标[51]。如表3所示。我们使用两个Nvidia RTX 3090 gpu进行实验,在所有模型中使用预训练的权重。所有具有R-50-FPN主干的模型的epoch统一设置为12。批大小、学习率、动量、权值衰减等参数为原论文中每种方法的配置。我们的网络配置与ATSS一致,其中每个GPU的批处理大小为4,优化器类型为SGD, epoch为12,学习率为0.01,动量为0.9,权重衰减为0.0001。此外,我们使用相同的回归和分类分支运行LAcls和LAreg。

  1. 与SOTA方法的比较

在OPIXray数据集中,我们使用ATSS作为基线并测试其性能。此外,我们在ATSS上测试了使用DOAM[19]、LAreg和LAcls的性能,其中DOAM是OPIXray文章中提出的方法。所有测试方法的配置都与CLCXray数据集上的配置一致。我们使用文章[19]中的指标mAP50。从表4的mAP50列可以看出,ATSS比SOTA模型FCOS + DOAM高出4.17%。在此基准上,LAcls使mAP50提高了1.67%。在CLCXray数据集中,我们测试了近年来目标检测的SOTA模型、FCOS + DOAM以及其他通用目标检测方法的SOTA模型。同样,我们使用A TSS作为基线并测试其性能。我们还测试了LA对ATSS的改进。如表3的mAP列所示,基线ATSS比重叠问题的SOTA模型FCOS + DOAM高3.7%。在这样一个强基准上,所提出的方法LAcls使mAP提高1.3%,LAreg使mAP提高0.6%。与之前的方法相比,SOTA方法在CLCXray上有较小的改进,说明CLCXray具有挑战性。与此同时,LA's对基准模型的改善是显著的。此外,在所有模型中,ATSS + LAcls在mAP上得分最高。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第14张图片
论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第15张图片
  1. 与注意力机制的比较

注意力机制52]、[53]和LA都是根据生成的权重来调整特征图。区别在于注意力机制从特征本身生成权重,而LA从分配的标签生成权重。为了探究这两种策略之间的区别,我们用网络中的注意力机制代替LAcls,并在CLCXray上对这些方法进行评估。从表5可以看出,LAcls的性能比CBAM[53]提高1.4%,比SE[52]提高1.5%,比RCCA[54]提高1.2%。一般来说,注意力机制也能达到类似的效果。与通过网络本身学习权重相比,我们基于标签和梯度生成权重的策略在CLCXray上更有效。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第16张图片
  1. LA的泛化性能

为了检验我们方法的通用性,我们选择了静态标签分配模型FCOS和动态标签分配模型PAA来应用我们的方法。这两个都是过去两年里最先进的模型。在CLCXray上进行了实验。如表6所示,我们的方法LAcls将FCOS从56.3提高到57.4,将PAA从58.5提高到59.3。与静态标签分配模型相比,LA对动态标签分配模型P AA的改进相对较小。如前所述,动态标签赋值的本质是根据提取特征的状态选择最优标签赋值,而LA则根据标签赋值对提取特征进行调整。因此,它们带来的性能改进是相互稀释的。此外,PAA是基于ATSS的。与PAA对ATSS的改进相比,LA对ATSS有更大的改进,这表明LA更适合于重叠问题。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第17张图片
  1. 消融实验
论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第18张图片
论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第19张图片
  1. 分析

因为CLCXray仍然包含一些没有重叠的图像。我们从CLCXray中选择300张具有高度重叠对象的图像来构建一个具有挑战性的子集。比较了我们的方法LA,基准模型ATSS和SOTA目标检测模型FCOS + DOAM。为了构建具有挑战性的子集,我们选择并保留测试集中多个目标之间重叠的图像,或者目标与相似背景之间重叠的图像。比较情况见表8。LAcls使ATSS提高3.9%,LAreg使ATSS提高2.4%,ATSS + LAcls比SOTA模型FCOS + DOAM高3.8%。图9显示了模型ATSS和模型ATSS + LAcls的可视化测试结果。如左边的一组图像所示,有许多液体容器没有被成功检测。这些液体容器通常要么与其他物体重叠,要么与背景非常相似。当物体与相似背景存在重叠时,采样点提取的背景信息过多,导致对背景的预测。当多个对象之间存在重叠时,采样点提取了太多其他对象的特征,导致预测出其他对象的低质量边框,然后NMS将这些边框去除。如右图所示,正确检测到几个存在重叠问题的物体。同时,由于LA对特征进行了调整,因此检测到的目标通常具有较高的预测置信度。实验数据和可视化结果表明,通过优化重叠区域采样点的特征提取,LA提高了模型对重叠问题的鲁棒性和准确性。

论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第20张图片
论文翻译Detecting Overlapped Objects in X-Ray SecurityImagery by a Label-Aware Mechanism(2022)_第21张图片

图9

  1. 结论

重叠问题是X射线图像危险品检测的一个重要和具有挑战性的问题。在本文中,我们首次公开发布了一个高质量的数据集CLCXray作为重叠问题的研究基础。然后我们提出了一种新的方法LA来解决重叠问题。与以往的方法不同,LA调整的是高级特征,而不是低级视觉特征,能够在高维空间中分离出重叠的物体。可视化结果表明,LA总体上提高了重叠目标的检测置信度,避免了由于重叠问题而导致的大量漏检。实验结果表明,LA总体上提高了模型的检测性能,且ATSS和LA的组合获得了最高的mAP。为了进一步研究,我们对一些高度重叠的样本进行抽样,以形成一个更具挑战性的子集。在子集上的实验表明,LA为模型提供了更大的性能提升,进一步证明了LA在检测重叠目标方面的有效性。

你可能感兴趣的:(计算机视觉,人工智能,目标检测)