arXiv:2004.08352v2 [cs.CV] 24 Oct 2020
作者:
自动跌倒检测是确保人们健康和安全的重要技术。用于跌倒检测的家用摄像头系统通常会危及人们的隐私。热成像相机可以部分或完全模糊面部特征,从而保护个人隐私。另一个挑战是与日常生活的正常活动相比,跌倒发生的概率较低。由于跌倒很少发生,因此,由于类不平衡的学习算法是价值不大的。为了解决这些问题,我们将跌倒检测制定为使用热成像的对抗框架内的异常检测。我们提出了一种新的对抗网络,它包括两个通道的3D卷积自编码器,分别重建热成像数据和光流输入序列。我们引入了一种技术来跟踪感兴趣的区域,基于区域的差异约束,和一个联合的计算重建误差。较大的重建误差意味着跌倒的发生。在公开的热成像数据集上的实验表明,与标准基线相比,所获得的结果效果更好。
关键字:跌倒检测 对抗学习 热成像
由于可能造成严重伤害、卫生系统的高成本以及跌倒的心理影响,跌倒的自动检测是重要的。然而,由于跌倒发生的罕见性,传统的监督机器学习分类器对于这个问题是不适定的[1]。在收集真实的跌倒数据方面也存在挑战,因为它可能会使人们的生命处于危险之中[1]。因此,在许多现实环境中,在训练期间可能只有很少或没有可用的跌倒数据。由于这个影响因素,我们采用跌倒检测作为异常检测问题[2]。在此设置中,分类器仅在正常活动上进行训练;在测试期间,正常活动和跌倒样本都输入给分类器。
基于视频的跌倒检测的另一个挑战是保护人的隐私,这是传统RGB相机无法提供的[3]。因此,在不明确知道人的身份的情况下检测视频中的跌倒这种系统对于真实的世界中的可用性是重要的。热成像可以部分或完全混淆人的身份,并已用于其他跌倒检测应用[2]-[4]。
最近的工作主要集中在使用自动编码器[2]和对抗学习[5]进行跌倒检测的基于重建的网络。对抗学习框架提供了一个独特的机会来训练网络,不仅可以通过生成器模拟正常活动,还可以通过训练来帮助将其与异常事件区分开来([5],[6])。对于基于视频的异常检测,通常,生成器是自动编码器的某种变体,并且神经网络是一个前馈神经网络,两者都是以对抗的方式训练的。以前最成功的工作主要集中在使用3D卷积自动编码器。(3DCAE)和3D卷积神经网络(3DCNN)来学习时空特征[5]。
基于视频的跌倒检测的性能可能会受到背景差异的影响。这在热感相机中可能变得更加突出,在热感相机中,强度可能由于热量的差异而改变(例如,当一个人进入场景时)。因此,重点关注人周围的区域是很重要的。人和其周围的物体的相对运动也可以提供有用的信息来检测跌倒。基于区域和运动的方法([7],[8])在动作识别任务中表现出优秀的性能。因此,我们假设,当以对抗方式训练时,利用视频序列中的区域和运动感知的学习时空特征将改进对跌倒的检测。为此,我们提出了一个运动和区域感知的对抗框架,它由两个单独的通道联合优化。第一通道输入热成像视频序列(具有提取的感兴趣区域),第二通道输入相应的光流。来自两个通道的输出被组合以给予对抗学习的区分性分数。我们假设联合训练的热成像和光流通道可以提高运动和基于区域的差别特征的学习。
关于用热成像仪以对抗性的方式检测视频中的跌倒的文献很少。我们现在将审查与我们的工作密切匹配的研究。
跌倒检测:随着经济型相机传感器的进步,有几个作品[9]-[11]使用RGB相机进行数据捕获。RGB传感器的一个主要限制是缺乏隐私,因为主体的身份不会被保存。为了克服这一限制,Vadivelu等人。[3]是第一批关于热数据的跌倒检测工作之一。此外,Nogas等人。[4]提出使用成热像仪和循环卷积自动编码器(CAE)进行跌倒检测。在这些工作的启发下,我们还使用了热成像仪的模态数据进行实验。读者还可以参考最近关于跌倒检测的调查[1]、[12],以获得对文献中提出的不同技术的更多见解。目前使用热成像仪和深度相机进行跌倒检测的研究大多将其描述为异常检测。
异常检测:鉴于跌倒事件的罕见性质,我们遵循与我们的工作在概念上相似的异常事件检测中的工作。许多最近的异常检测方法([13],[14])是基于一个类分类范例,其中正常事件的分布是使用自动编码器学习的,并且在测试时间期间将与学习的分布的偏差检测为异常。Hasan等人。[13]使用手工制作的特征和CAE学习视频中的正常运动模式。Ravanbakhsh等人。[14]提出了一种用于异常事件检测的视频流生成对抗方法。Khan等人[15]提出将3DCAE用于跌倒检测的异常事件检测。Sabokrou等人。[16]提出了一种端到端对抗网络,它由一个生成器和一个识别器组成,生成器用添加的噪声重建输入,识别器将重建的输出与实际输入区分开来。此外,Khan等人。[5]将Sabokrou等人的工作[16]从单个图像扩展到使用时空对抗学习框架进行跌倒检测的图像序列。
跌倒是主体姿势的时空变化,这项工作的局限性在于运动信息没有明确地添加到网络中。我们建立在Khan等人的对抗学习工作的基础上。[5]并提出了一个双通道网络,其中一个通道以光流的形式显式学习运动,而另一个通道将原始视频帧作为输入。我们提出的方法可以处理一个人可能不存在于帧中的情况,这可能会降低误报率。
我们提出的对抗框架包括两个通道。第一通道的输入是热成像帧的窗口,第二通道是光流帧的窗口。每个通道由
(i)用于重建输入窗口的3DCAE和
(ii)用于将它们与原始帧窗口区分开来的3DCNN组成,其中两个通道都由单个神经元作为联合神经元连接**(图1)**。我们只使用来自热成像帧的日常生活活动(ADL)来训练这个框架。我们执行人跟踪和提取感兴趣的区域(ROI)从热和光流帧的运动和基于区域的重建。
1)3DCAE-3DCNN:我们的3DCAE架构类似于Khan等人[5]。我们通过增加一个以光流为输入的通道来扩展他们的网络(见表I)。我们在3DCAE的所有层中使用3 × 3的3D滤波器,时间深度为5,与Khan等人相同。[5]。在流程3DCAE中的操作是相同的,除了第二层卷积层,其使用时间深度为4的2×2的滤波器来重建奇数长度的时间深度。
3DCNN的架构与3DCAE中的编码器相同,后面是一个带有sigmoid函数的神经元,用于输出帧序列是原始的还是重建的概率。除了输入层之外,3D打印机的所有层中都有使用批量归一化。在所有隐藏层中设置LeakyRelu激活,负斜率系数设置为0.2([5],[17])。
表1:3DCAE的结构
2)对抗性学习:在本节中,我们首先解释Khan等人的工作中描述的一般对抗性训练。该模型由3DCAE(表示为R)组成,采用窗口大小为T的输入序列I并重建序列,其中输出序列命名为O,然后将其馈送到3DCNN(表示为D)。R和D使用标准GAN损失进行训练,描述如下:
我们将对抗损失与均方误差(MSE)损失结合起来,MSE损失仅用于R,定义为
最小化R的总损失函数定义为:
其中λ是加权损失的正超参数。热成像网络和光流网络的符号分别为
和
基于视频的跌倒检测方法的性能可能受到背景的影响。这种情况在热成像相机中会变得更糟,因为热量的变化会改变视频序列中帧的背景和像素强度[2]。因此,我们只重建人所在的区域,这不会受到背景物体和强度变化的影响。我们使用对象检测器和图像处理技术来定位图像中的人来执行人跟踪。
1)人员检测:据我们所知,目前还没有预先训练好的、公开可用的基于深度学习的人体检测模型,特别是针对热图像的模型。为此,我们使用基于区域的全卷积网络(R-FCN)[18]在COCO数据集上训练[19]。由于TSF数据集在帧中仅包含一个主题,因此选择具有最高置信度分数的边界框。检测器没有错误的建议;然而,发现本地化的边界框在大小和位置上波动,这降低了跟踪方法的预测。
2)轮廓框定位:在热图像中,由于人和物体发出的热量的差异,人可能看起来比背景更亮。因此,将大津阈值化[20]应用于热图像以分离暗背景,如图2所示。阈值化图像可能仍然包含明亮的背景对象。我们在应用形态学操作后在阈值化图像上找到轮廓[21],并根据内部区域选择最大轮廓。包含该轮廓斑点的最小框被选择作为人边界框的候选者。
3)跟踪:我们在恒定速度假设下对边界框的左上和右下坐标应用卡尔曼滤波。跟踪器使用人检测器进行初始化,并预测下一帧的边界框。我们将预测框与人员检测边界框(如果在下一帧中检测到)进行比较,以检查跟踪器是否漂移。我们使用一个计数器(年龄)来跟踪连续跟踪器预测的数量,而不进行检测。在没有检测到的情况下,跟踪器的年龄增加,并且当跟踪器的年龄超过20的限制时,跟踪器停止。联合的交集(IoU)在许多跟踪方法中用于匹配边界框。然而,当一个边框的大小与另一个边框相比较大时,IoU较小,这可能是由于检测器的不良定位。因此,我们还使用了其他标准,如面积比和检查子集。在某个特定的时刻,这里最多有三个可能的候选人用于人员定位-检测、轮廓和跟踪框。检测框确认人的存在,但在大多数情况下它不适合人。因此,使用轮廓框和轨迹框来改善整体跟踪。算法1描述了整个跟踪方法。
4)基于区域的重建:我们移除其中人在跟踪后未被定位的帧,并且其余的帧由其对应的边界框(称为ROI掩模)掩蔽。对于基于区域的重建,3DCAE被馈送有掩蔽帧的窗口,并且使用基于区域的重建损失LROI(而不是LR):
其中,ROI(X)表示窗口X中的帧被对应的ROI掩模所掩蔽,并且期望值是在ROI内的像素上取得的。
除了对R的基于外观的约束之外,我们以两种方式将运动并入跌倒检测系统中:
1)差异约束:Mathieu等人。[22]计算未来帧预测的差异和基于梯度的损失,这增加了预测帧的清晰度。我们采用类似的技术在热3DCAE中添加额外的损耗项,其基于I和O的差帧的MSE。差帧是通过减去两个连续帧计算的残差图。我们通过它们各自的ROI来屏蔽差异帧,ROI是用于计算差异帧的两个帧的ROI的并集。此外,差异损失定义为:
其中DF(X)表示窗口X的差帧。因此,对于具有LROI和LDiff的(3)中的R的最终损失被定义为:
其中λS和λD是加权损失的正数。
我们提出了一个联合对抗网络的热流和光流重建,它由两个3DCAE和一个单一的联合神经网络。在联合神经网络DTF中,使用单独的3DCNN网络DT和DF,其中两个单独的sigmoid神经元被单个sigmoid神经元取代(见图1)。对于基于区域的重建,联合损失函数被定义为:
其中LT_ROI和LF_ROI分别是热流和光流的基于区域的重建损失。超参数λT和λF是它们对应的加权损失的正常数。具有基于区域的重建和差异约束的联合损失函数可以写为:
其中LT_Diff(等式(5))和LT_ROI(等式(4))是差分约束和基于区域的重建损失。
检测不可见福尔斯的策略如图3所示(源自[2])。使用步长=1的滑动窗口方法,将视频中的所有帧Fri分解成长度为T = 8的帧的窗口。对于第i个窗口Ii,3DCAE给出输出作为该窗口Oi的重建。Ii和Oi的第j帧之间的重构误差(Ri,j)可以被计算为(类似于等式2)
对于基于区域的重建模型,其可以被定义(类似于等式4)如下:
有两种方法可以在帧级或窗口级检测未看到的跌倒,下面将对此进行描述。
对于具有差异约束的基于区域的重建模型,我们将使用热帧计算的异常分数命名为ROI分数,将使用差异帧计算的异常分数命名为Diff-score。对于融合模型,我们使用术语“Thermal ROI-score”、“Flow ROI-score”和“Thermal Diff-score”来比较针对相同模型计算的不同异常分数。我们将tolerance(α)定义为窗口中将整个窗口的groundtruth标签设置为fall所需的fall帧数。我们将α从1变化到T,以了解其对结果的影响。
待续》》》》》》