【论文阅读笔记】:DeepFall – Non-invasive Fall Detection with Deep Spatio-Temporal Convolutional Autoencoders

DeepFall – Non-invasive Fall Detection with Deep Spatio-Temporal Convolutional Autoencoders

作者:Jacob Nogas, Shehroz S. Khan, Alex Mihailidis
单位: University of Toronto. Toronto Rehabilitation Institute, University Health Network.
发表信息:arXiv:1809.00977,Submitted 27 April, 2020
论文链接:https://arxiv.org/pdf/1809.00977

背景动机

  从健康和安全的角度出发,检测跌倒非常重要。然而,由于摔落的情况极少发生,很难收集足够的训练数据为他们。鉴于缺少训练数据,可能没有或只有很少的摔跤训练数据,因此很难使用监督分类技术。在本文中,我们提出了一个新颖的框架DeepFall,该框架将跌倒检测问题表述为异常检测问题。该DeepFall框架展示了深度时空卷积自动编码器(DSTCAE)的新颖用法,可使用非侵入式传感方式从正常活动中学习时空特征。作者提出了一种计算异常得分的新方法,称为上下文内得分,该方法考虑了窗口内帧的重构误差并给出了给定窗口的异常得分。异常分数可用于识别DSTCAE测试阶段中没有发现的跌倒。

同行工作情况v介绍;

  Ribeiro等人使用CAE检测视频中的异常。他们从视频帧中提取外观和运动特征,并将它们组合以向CAE呈现不同的场景,他们仅在正常帧上训练CAE,并使用正则化的重构错误作为分数来识别正常帧和异常帧。他们通过使用在正常视频帧上训练的CAE的重建错误作为一类SVM的输入来展开工作。
  Munawar等人提出了一种通过无监督学习生成无偏特征的方法,以发现工业机器人监视任务中的异常。它们根据不同的图像提示(例如颜色和渐变)对输入图像数据进行聚类,以生成伪类标签。然后,他们同时在不同的伪类标签上训练网络,以使用卷积神经网络学习中性特征表示。最后,他们使用基于深度长期记忆的循环神经网络来预测学习到的特征空间中的下一个视频帧。如果它与观察到的帧有明显偏离,则将其标识为时间和空间异常。
  Chong和Tay提出了一种检测视频异常的方法,该方法由空间特征提取器和时间编码器-解码器框架组成。空间特征提取器包括卷积和反卷积层,而时间编码器-解码器是三层卷积长短期记忆模型。该模型将称为CLSTMAE。他们的模型也仅在具有正常场景的视频上训练。
  作者使用时空CAE从正常活动中学习时空特征,在DeepFall中,仅在正常ADL上训练DSTCAE,并使用新的异常评分方法来识别出跌倒。

算法思路

  DeepFall框架包括:将跌倒检测看作是异常检测问题,设计深度时空卷积自动编码器(DSTCAE)并仅对其进行训练正常的ADL,并且提出新的异常评分来检测不容易发现的跌倒。
  其中DSTCAE首先通过执行3D卷积/池化在时间窗口中对连续帧的堆栈进行编码。在解码阶段,DSTCAE使用3D UpSampling或3D反卷积来重建帧的输入窗口。然后计算窗口内每个帧的重建误差。然后,作者提出了一种计算异常得分的新方法,称为上下文内得分,该方法考虑了窗口内帧的重构误差并给出了给定窗口的异常得分。异常分数可用于识别DSTCAE测试阶段中不易发现的跌倒。
编码:DSTCAE由一系列3D卷积和3D-max-pooling层编码形成。3D卷积使用步幅为1×1×1,并使用填充。池化层同样使用填充,步幅和卷积核的尺寸2×2×2。这样通过每个池化层,每个维度都减少了一半,重复此过程两次。
【论文阅读笔记】:DeepFall – Non-invasive Fall Detection with Deep Spatio-Temporal Convolutional Autoencoders_第1张图片

图1 编码和解码配置比较

解码:对于DSTCAE的解码,作者探索了两种变体。第一种方法(DSTCAE-UpSampling)使用带有步幅的填充3D卷积2×2×2,然后进行固定的UpSampling操作以增加尺寸。第二种方法(DSTCAE-Deconv)使用3D反卷积,步幅2×2×2,并使用填充来代替UpSampling。
【论文阅读笔记】:DeepFall – Non-invasive Fall Detection with Deep Spatio-Temporal Convolutional Autoencoders_第2张图片

图2 DSTCAE-UpSampling)的DSTCAE层概述

  DSTCAE-UpSampling结构如图2。第一层产生16个特征图,卷积和池化层依次重复,最终尺寸为2×16×16×8。之后 停止编码,以避免完全破坏时间维度。然后,解码是两个UpSampling / 3D卷积,从而将隐藏的尺寸表示为8×64×64×16,最终通过3D卷积层将这16 个特征图映射到一个解码后的特征图中。
  作者还测试了第三个3D卷积自动编码器变体C3D,称为DSTCAE-C3D。DSTCAE-C3D网络具有与DSTCAE-UpSampling相似的编码和解码,但是在编码中具有额外的3D卷积/ 3D最大池化层,在解码中具有额外的3D UpSampling / 3D卷积。多加的最大池化层具有填充,步幅和卷积核尺寸1×2×2。这虽然会导致空间尺寸减小,但不会导致时间尺寸减小,允许更大的网络深度而不会缩小时间维度。

实验

数据集:

  1. Thermal Fall Dataset
  2. UR Fall Detection Dataset
  3. SDU Dataset

数据预处理:
  Thermal数据集帧是从mp4视频文件中提取的。UR数据集已经以png格式提供。SDU数据集帧是从AVI视频文件中提取的。将像素值使归一化范围内 [0,1],然后减去每帧均值,得出的像素值范围为 [-1,1]。所有图片的大小也都调整为64×64。

结果

表1 基于跨上下文异常评分的每个数据集的不同方法的ROC AUC值

【论文阅读笔记】:DeepFall – Non-invasive Fall Detection with Deep Spatio-Temporal Convolutional Autoencoders_第3张图片

  结果表明,DeepFall该框架的性能优于标准CAE和传统的DAE。而且DSTCAE变体胜过了卷积LSTM自动编码器检测跌倒的方法。

算法优点

  作者提出了一个新的框架DeepFall,该框架将跌倒检测问题表述为异常检测问题,该框架展示了深度时空卷积自动编码器的新颖用法,可使用相机从正常活动中学习时空特征,并且最终在多个数据集中取得不错的结果。

算法缺点

  DeepFall方法的性能可能会受到场景中多个人的存在及其他异常行为或者光照条件的影响。

你可能感兴趣的:(行为分析)