1.文章信息
本次介绍的文章是天津大学和南开大学发表的一篇基于计算机视觉的火灾检测文章,题目为《An efficient fire and smoke detection algorithm based on an end-to-end structured network》,这篇文章2022年发表在Engineering Applications of Artificial Intelligence上。
2.摘要
Detection transformer(DETR)将卷积神经网络(CNN)与transformer相结合,提供了一种更先进的思想。文章提出了一种基于DETR的火灾和烟雾探测目标检测模型。与其他基于深度学习的方法相比,该方法简化了检测流程,构建了端到端检测器。同时,原始的DETR模型通常需要较长的训练时间和大量的计算量,导致检测速度和准确性相对较差,并且对于小型或早期火灾检测不友好。因此,在设计所提出的网络模型时,在特征提取阶段添加了基于规范化的关注模块,以突出有效特征,这有利于编码过程。编码器-解码器结构中还使用了多尺度可变形注意力,从而加速了模型训练过程中的收敛过程,包括增强对小对象的检测。此外,考虑到计算成本,重新定义了编码器-解码器结构中的层数,以降低模型的复杂性,这也降低了应用设备的要求。在三个自建数据集和两个公共视频集上进行了详细的实验。结果表明,所提出的方法在这里考虑的所有数据集上都具有优异的性能。
3.介绍
失控的火灾是残酷的,它不仅造成巨大的经济损失,而且危及人类安全、社会稳定、自然环境和生态平衡。此外,事实证明,火灾造成的环境破坏通常需要几十年才能恢复。
随着公众意识的提高,消防产品的市场迅速增长,传统的基于传感器的火灾探测技术表现不佳的问题已经显露出来。例如,基于烟、热和光的火灾探测器过于昂贵,无法安装在大型室外空间、多层建筑或有干扰物体(如照明、灰尘和障碍物)的空间中。近年来,随着嵌入式智能监控设备处理能力的提高,研究人员提出了基于图像的火灾检测方法,它们在位置灵活性方面表现优异,适合室外环境,也可用于早期火灾检测。
早期基于图像的火灾检测方法通过创建手动设计的特征分类器(如颜色、运动和纹理)来检测火灾和烟雾,显示出对环境的适应性较差。基于深度学习的方法可以自动从原始图像中提取特征,因此在图像火灾检测中表现出更好的性能。因此,由于基于深度学习的方法具有更好的适应性和快速的硬件开发,具有手动特征提取的传统视觉火灾检测方法已逐渐被取代。
基于深度学习的对象检测网络,如Faster RCNN、YOLO、SSD,在各种类型的检测任务中表现出优异的性能。与上述网络相比,DETR是一种更直接的端到端检测方法,因为它不需要许多手动设计的组件。
作为第一个开始使用transformer进行对象检测的方法,DETR的亮点是将变换器应用于视觉任务,将自然语言处理(NLP)和计算机视觉(CV)任务联系起来。
DETR的结构有三个阶段,第一阶段是基于CNN的特征提取网络,第二阶段是基于transformer的encoder–decoder结构,在第三阶段,解码器的每个输出被传递到共享预测前馈网络(FFN),以预测对象检测的分类和边界框。尽管DETR为目标检测带来的创新是革命性的,但为了更全面地获取信息,在计算注意力时,变换器会对每个图像块进行处理,从而导致大量冗余和处理速度减慢。同时,DETR采用单尺寸特征,而检测小尺寸对象需要高分辨率特征图,因此仍有大量计算。
由于上述缺陷,DETR的原始模型很难在实际应用中实现火灾探测,例如,它在早期火灾探测方面表现不佳,并且对设备要求严格。因此,文章基于DETR的集合预测对其进行了改进。具体而言,采用了一种新的注意力机制来突出重要特征并提高多尺度对象检测的准确性,并结合重新设计编码器-解码器结构的层,降低了模型的复杂性并加快了收敛速度。最后,组合损失函数的应用进一步提高了分类精度,并有助于更精确地定位边界框。结果表明,改进的模型在各种类型的实验中表现良好。
本文的主要创新点如下:
1.借鉴DETR的思想,该方法将集合预测和位置编码应用于可视化火灾探测任务,并基于DETR设计了一个更轻量级、更快速的火灾和烟雾探测模型。
2.为了更好地测试所提出的模型在真实火灾检测中的有效性,构建了三个高质量的数据集,包括真实火灾数据集、真实烟雾数据集、同时具有烟雾和火灾的两个对象数据集。获得的数据由监控摄像头捕获,或从实验中收集,或从授权网站上获取。
3.在所提出的模型中,在特征提取部分添加了轻量级spatial attention和channel attention,在编码器-解码器结构中采用了多尺度变量关注,重新定义了编码器-解码器的结构数量,并在最终预测阶段采用了组合损失函数。实验证明,所提出的网络在所有自建数据集和公共视频集上都表现出优异的性能。
4.模型
近年来,基于transformer的方法开始应用于计算机视觉,DETR率先将transformer应用于目标检测任务。与传统的基于深度学习的方法相比,基于DETR的方法可以利用对象的位置信息,显示出更强的适应性。这篇文章的研究中,提出了一种基于深度学习和DETR的火灾探测系统,该系统可以有效地从监控设备视频中捕获的图像中检测火灾和烟雾。系统的架构如下图所示。
A. 烟雾和火灾探测的架构
与DETR相似,所提出的网络模型也由三部分组成:特征提取网络、编码器-解码器结构和预测头。在所提出的网络的开头,特征提取网络中的主干网络从输入图像中提取特征,并且在主干网络后面添加了基于归一化的注意力机制,以通过使用权重的贡献因子来改进注意力机制。此外,归一化特征图有助于位置信息的编码。
在所提出的网络的下一部分中,编码器-解码器结构由3个编码器层和6个解码器层组成,并添加了多尺度可变形注意机制,以稀疏特征并增强具有多尺度特征的对象的检测性能。就像DETR一样,所提出的网络的最后一部分是预测头,在FFN之后输出对象的分类和边界框。所提出的网络模型的结构如下图所示。
B.特征提取网络
在特征提取网络中,ResNeXt50(类似于Inception系列的剩余网络ResNet50)被用作主干网络。ResNet作为最流行的主干网络,避免了深度网络中的梯度问题,从而使更深的网络结构可以获得更多的信息和更丰富的特征。与ResNet相比,ResNet和ResNeXt(Xie等人,2017)都采用了拆分-转换-合并策略,即拆分输入特征(拆分)、分别处理分离的输入特征(转换)和合并输出(合并)。
然而,ResNeXt简化了Inception系列中的分支方法,使其模块化且每个模块一致。ResNeXt的结构具有很强的可扩展性,在DETR中使用时,在计算量相同的情况下,其性能优于ResNet。
利用注意力机制来提高网络性能已经成为一个研究热点。许多专注于可视化火灾探测的研究人员经常试图通过注意力的操作来捕捉火灾的显著特征。然而,没有考虑使用权重的贡献因子来进一步抑制不明显的特征。因此,在所提出的网络中,在特征提取网络中添加了基于归一化的注意力模块NAM,该模块由空间注意力模块和通道注意力模块组成,以抑制不太显著的特征。通道和空间注意力模块都使用批次归一化的缩放因子来指示权重的重要性。NAM是轻量级且有效的,它通过使用权重的贡献因子来改进注意力机制,并采用标准差来显示权重的重要性,避免添加完全连接的层和卷积层,如SE和CBAM,从而不增加网络的计算量。
对于通道关注子模块,使用批次归一化比例因子,并通过该因子测量通道的方差来计算重要性,其计算如下:
是平均值,是标准偏差,和分别是可训练仿射变换参数、尺度和位移。
通道关注模块的结构如下图所示。
在空间关注模块中,在空间维度上应用批次归一化的缩放因子,称为像素归一化。模块如下图所示。
其计算为,表示通道注意力输出特征,表示空间注意的输出,为比例因子,其计算方法如下。
C.编码器和解码器
DETR最显著的贡献是在编码器-解码器结构中加入了空间信息,在自然语言处理中引入了转换器,直接对图像中的特征进行编码,通过解码得到分类和预测帧,形成了一种新的目标检测方法。在这部分网络中,DETR包含6个编码器和6个解码器,这是derr序列在目标检测中实现高精度的关键因素。
变形的注意机制
在编码器-解码器结构中使用交叉注意机制来细化特征,导致对小物体的识别不足,这需要多轮训练才能收敛。因此,对编码器-解码器结构中的注意机制进行了重新设计。采用了一种可变形注意模块,它聚焦于采样位置的小集合,并作为预过滤器突出所有特征图像素点中的关键元素。无需FPN的帮助,该模块可以很自然地扩展到聚合多尺度特征。因此,采用多尺度变形注意模块来代替transformer来处理特征图。
DETR的注意模块和变形注意模块计算如下:
其中是查询元素之一,是关键元素之一,和分别是可学习的权重,是注意力头的数量。是归一化的注意力权重,是可学习的权重。
在正常注意力模块中,提取关键元素,并对结果的权重进行汇总。在可变形注意力模块中,. 假设是二维空间上的任何点,它首先被添加到通道预测采样偏移, 其和通常为小数,然后通过双线性插值获得新特征图上的一个点。
多尺度可变形卷积计算如下。
其中,是特征图的级别.将归一化坐标重新缩放到第一个输入特征图,并与可变形关注模块相比,它从多尺度特征图中采样LK点。随着变小,在每个查询中,所有层都采样K个点,融合了不同层的特性,表现得像FPN。因此,这种关注加速了模型的收敛,并显示了检测多尺度对象的能力。
重新定义编码器-解码器结构的层
编码器-解码器结构中的层数也被重新设计。所提出的网络模型具有3个编码器层和6个解码器层的设计,如下图所示的transformer结构。编码器层起到卷积的作用,主要用于提取上下文特征。而对于每个解码器层,预测的FFN被添加到尾部,并应用辅助二部分匹配损失。
辅助解码丢失在更新查询特征时引入了强监督,这使得解码器更高效,因此模型对解码器层的数量更敏感。在烧蚀实验中,还证实了3个编码器层和6个解码器层的设计在目标检测的准确性和速度方面具有最佳性能。
预测头和损失函数
预测头是模型的最后一部分,它们用于对解码器的输出进行分类并预测对象的边界框。
FFN
与DETR类似,所提出的网络模型也在预测头中使用FFN,FFN可以看作是1×1卷积,使编码器类似于注意力增强的CNN。最终的FFN由3层感知器、激活函数ReLU和d个隐藏层节点计算得出。在每个对象查询中,通过预测头预测检测到的对象的边界框和分类,并通过FFN预测边界框的三个值,包括中心、宽度和高度,然后通过激活的Softmax函数获得预测类。
损失函数
模型中使用的损失函数包括回归损失和分类损失。对于火和烟,它们在各种应用场景下的形状和大小各不相同,表现出强烈的多样性。
此外,早期火灾总是很小的,但是对于小样本来说,可用的检测方法总是结构复杂,需要大量的计算。因此,为了提高所提出的方法对多尺度对象的有效性,采用了平滑-L1损失和GIoU损失的组合,这保证了算法的稳定回归,提高了精度,并加速了收敛。平滑-L1的计算如下
其中表示索引和是位于个索引。
在训练的初始阶段,地面真值框和预测框之间的距离太大,Smooth-L1极大地限制了预测框的梯度,避免了梯度爆炸,并使网络模型更鲁棒,同时保持了快速收敛的特性。在训练的最后阶段,地面真值框和预测框之间的距离缩小,当损失函数在0附近波动时存在导数,使模型能够收敛到更高的精度。
然而,当损失函数Smooth-L1计算预测框时,预测框中只有四个角的值被聚焦,这很难真正反映预测框和地面真实框之间的交叉合并关系。
因此,在计算损失函数时,将回归预测框作为一个整体的GIoU引入到模型中,显示预测框和地面真实框之间的相关性。GIoU计算如下:
为了保证预测框和地面真值框之间的最大匹配,匈牙利算法用于二分图匹配,即预测集和实数集的元素之间的一对一对应,以最小化匹配损失。
首先,对于那些不是背景的对象,使用交叉熵损失函数来获得相应预测结果是对象的概率。接下来,使用匈牙利算法来寻找增强路径,并实现类别和预测框之间的最佳匹配,最终预测框的损失函数表示为GIoU和Smooth-L1的加权和,其中和分别是GIoU和Smooth-L1的权重系数。改进的损失函数大大提高了网络模型的性能,加快了算法的收敛速度,提高了训练效率。
5.实验结果与分析
为了进一步证明所提出的方法在火灾和烟雾探测方面的有效性,在自建的数据集和公共视频集上进行了一系列详细的实验,以评估和比较所提出方法与其他先进方法的性能。可变形注意力默认设置为M=8和K=4,其他超参数设置和训练策略遵循DETR。该模型训练了50个epoch,学习率在第40个epoch衰减0.1倍。使用Adam优化器,基本学习率为,重量衰减为.
A. 数据集说明
由于没有可用的公共真实烟雾或火灾数据集,为了运行实验,根据MS COCO数据集自行构建了三个数据集,包括烟雾数据集、火灾数据集和烟雾和火灾两个对象数据集。所有收集的图像都是24位RGB图像。训练和测试集中的图像来自不同的视频剪辑,以8比2的比例分割。此外,为了防止过度拟合,在训练阶段,通过随机翻转、缩放和裁剪来增强收集的数据。评估实验也在公共烟雾和火灾视频数据集上进行。
真实的早期火灾数据集
该数据集中的图像是从51个实际火灾视频和113个模拟火灾视频中收集的,包括数百个场景,如文化遗址、工厂、公园、学校、地铁站、仓库等,涉及室内、室外、白天、午夜等环境,以及移动物体、类似颜色和灯光等干扰。同时,考虑到网络模型的实用价值,并为了在早期火灾检测中获得更好的结果,图像的内容几乎是从实际应用中的监控摄像机中采集的火灾,火灾通常表现为小、长和窄。该数据集由先前应用的数据集补充而成,共有13750幅图像,包括训练集中的11000幅图像和测试集中的2750幅图像。
真实烟雾数据集
目前,大多数采用的烟雾数据集使用合成烟雾,因为真实的烟雾是模糊和稀薄的。实验中的自建数据集通过以下方式收集:近8000个烟雾视频来自实验室模拟实验的工程应用,其中1000个来自消防科学重点实验室,其余来自互联网。该数据集涵盖了近100个烟雾场景,如食堂、操场、田地、车库、工厂、农舍和地铁站,共有9465张图像,其中7572张在训练场,1893张在测试场,视频中的烟雾是燃烧道具产生的白烟。
既有烟又有火的两个对象数据集
在过去的实验中,纸制可燃物大多用于点火,产生的烟雾稀薄且扩散,因此经常使用道具来制造烟雾。因此,同时包含烟和火的图像非常少。该数据集中的图像主要从点火实验中收集或从互联网上获取。与自建的烟雾数据集(主要包含白烟)相比,该数据集中的烟雾是严重火灾产生的黑烟。场景包括城市、森林、荒地、建筑物等的火灾,总共有2895张图像,其中2361张在训练集中,534张在测试集中。数据集中的图像示例如下图所示,由于空间限制,仅显示了少数代表性图像。
B. 烧蚀实验
为了更好地理解网络中每个模块的贡献,进行了消融实验。在烧蚀实验中,使用自建的真实早期火灾数据集作为实验数据集,以COCO评价标准中的作为主要评价指标。其他指标包括模型重量(MB)和处理速度(FPS)。消融实验包括扩展的NAM注意力模块、编码器-解码器结构和损耗函数。此外,由于DETR的收敛速度慢,需要5000次迭代才能收敛,因此考虑到成本,消融实验中的编码器-解码器结构使用了可变形注意力模块,将收敛迭代次数减少到50次。
NAM注意力模块上的消融实验结果如下表所示。从结果来看,在主干网络后面添加了强调权重贡献和强调有效信息的归一化注意力机制后,AP50增加了2.6%,对处理速度的影响最小。
基于先前的实验,对编码器-解码器结构的层数进行了烧蚀实验。根据下表中的结果,与具有6个编码器层和6个解码器层的结构相比,AP50仅低0.6%,但模型大小和处理速度大大提高。
在下表中,显示了不同损耗函数对实验结果的影响,使用的方法是文章中提出的网络。这部分基于前两个实验,使用所提出的模型进行每个损耗函数的烧蚀实验。与仅使用一个回归损失相比,增加,证明改进的网络更适合于真实火灾检测。
C.自建数据集的实验结果
为了进一步证明所提出的模型的有效性,将其与所有三个数据集上的其他经典对象检测模型进行了比较。基于FPS评估处理速度,FPS越高,每秒可处理的帧越多,检测速度越快。
从上表来看,无论是在真实的早期火灾数据集还是真实的烟雾数据集上进行测试,所提出的方法都显示出最佳的准确性,最佳结果以粗体突出显示。显然,所提出的方法在包含单个对象的数据集上显示出高效,并且所提出的算法被证明在精度和速度之间实现了良好的平衡。
为了测试所提出的方法对两种类型的对象的能力,在具有烟和火的两个对象数据集上进行了比较实验,比较的经典方法与先前实验中的方法相似。由于模型的尺寸相同需要AP50和FPS作为指标来评估方法的准确性和处理速度。
由于数据集中的样本总数较少,因此本实验中的总体检测精度低于前两个数据集(包含单个对象)。从下表中,最佳结果以粗体突出显示,与其他方法相比,建议的方法显示了最佳结果AP50,即火灾和烟雾检测的最高精度,并且所提出的方法在火灾和烟雾的检测精度之间也实现了非常小的差异,仅为5.7%。
就处理速度而言,所提出的方法的FPS仅比最快的FCOS低3。结果示例如下图所示。
D.公开视频实验结果
为了更全面地评估所提出方法的目标检测能力,还对公共视频集进行了测试,包括来自Mivia的31个火灾视频片段,以测试火灾检测的准确性,来自Yuan等人创建的数据集的7个烟雾视频片段,用于测试烟雾检测的准确性。
这两组实验的结果与其他研究人员提出的可视化火灾探测方法进行了比较。引用的结果是所有视频评估的平均值,直接引用自相关出版物。为了实现公平的比较,对于所提出的模型,在自建数据集上训练的权重用于测试,而不添加测试视频的任何帧,以及名称、持续时间和帧速率。实验结果还取测试集中所有视频的测试结果的平均值。
选择最直观的评估指标、准确性和误报率来评估所提出的模型对每个视频片段的检测效果。
Mivia视频集的实验结果
作为VisiFire数据集的扩展,Mivia数据集包含大量数据,包括31个视频片段,视频分为两类。前14段视频包含火灾。另外17段视频中没有火灾。在17个没有真实火灾的视频中,有类似火灾的物体,或者很容易被误归类为火灾的场景。在实验中,将所提出的方法的性能与YOLOv5和FCOS进行了比较,后者在自建数据集上表现良好。结果如下表所示。
结果表明,该方法具有较高的精度和较低的误报率。与FCOS和YOLOv5相比,所提出的方法在准确性和误报率方面都表现出更好的性能,而所提出方法的FPS仅略低于FCOS。此外,由于无法获得在数据集上测试的其他方法的处理速度,因此仅选择准确性和误报率进行比较。
7个烟雾视频的实验结果
对于在公共视频集上进行的烟雾检测实验,使用了7个最受欢迎的烟雾视频。与Mivia上的实验过程类似,从每个视频剪辑中捕获25帧,并计算TP、TN、FP、FN以评估总体准确性和误报率。对7个视频的实验结果进行了比较,并显示在下表中。
从表中可以看出,在准确率和误报率方面,所提出的方法表现优异。尽管所提出的方法的处理速度略低于FCOS,但总体精度仍远高于FCOS,显示出速度和精度之间的更好平衡。
6.结论和未来工作
随着深度学习技术的快速发展以及计算设备和硬件的更新,采用深度学习技术进行基于图像的火灾探测方法已成为研究和实际应用的首选。DETR为目标检测提供了一种新的思路,但仍存在明显的缺点,包括所需的大量计算、小目标检测的性能差等,卷积层等被添加到提取网络后面以抑制不重要的特征。
并且使用多尺度可变形注意力模块来加速模型的收敛过程,同时增强对小对象的检测。此外,考虑到成本,重新设计了编码器-解码器结构的层数,以平衡精度和计算量。实验结果表明,与几种经典目标检测方法以及一些基于图像的目标检测方法相比,所提出的方法显示出更好的综合性能,这证明了DETR用于火灾检测的可行性。然而,从结果来看,仍然存在一些问题,例如处理速度相对较慢,对设备的要求较高。在未来的工作中,在确保准确性的基础上,考虑进一步减小模型的大小,以增强对不同类型设备的适应性,加快检测速度,提高有效性,促进模型在嵌入式设备上的应用。
Attention
欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!