RadHAR: Human Activity Recognition from Point Clouds Generated through a Millimeter-wave Radar
准确的人类活动识别(HAR) 是实现新兴的情境感知应用的关键,这些应用需要对人类行为的理解和识别,例如,监测独居的残疾人或老年人。传统的环境传感器如相机,或者可穿戴设备、智能手表可以实现人类活动识别。环境传感器更具有普遍性,因为不需要每个人有可穿戴设备。但是用相机可能会侵犯个人隐私。因此雷达被提议作为替代。然而,由于低成本的毫米波(mmWave)雷达系统产生稀疏和不均匀的点云,训练细粒度、准确的活动分类器是一个挑战。在本文中,我们提出了RadHAR,一个使用稀疏和不均匀的点云执行精确的HAR的框架。RadHAR利用一个滑动的时间窗口来积累毫米波雷达的点云,并产生一个体素化的表示,作为我们分类器的输入。
体素是体积元素(Volume Pixel)的简称,是数字数据于三维空间分割上的最小单位,概念上类似二维空间的最小单位——像素,像素用在二维计算机图像的影像数据上。
毫米波(mmWave)技术的工作频率范围为30GHz和300GHz。
毫米波雷达捕获的每一帧中的点的数量各不相同,增加了构建一个能够原样处理这些数据的神经网络架构的复杂性。
在本文中,我们提出了RadHAR,一个利用毫米波雷达产生的点云进行人类活动识别的框架。
为了说明毫米波雷达点云的稀疏性,RadHAR利用了人类活动通常持续几秒钟的概念,并在一个滑动的时间窗口中积累点云。每个点云被体素化以克服数据的不均匀性,然后被送入一组分类器。
贡献
RadHAR的源代码和数据集在https://github.com/nesl/RadHAR
。
在过去的几年里,在毫米波范围内工作的低成本单芯片雷达一直在增长。德州仪器公司的毫米波雷达就是这种流行设备的一个系列。这些传感器输出的点云包含每个点的x、y、z位置等信息和其他数据。
带宽和范围分辨率。雷达的范围分辨率是指其区分两个彼此非常接近的目标的能力。范围分辨率和带宽的关系是:
d r e s = c 2 B d_{res}=\frac{c}{2B} dres=2Bc
其中 d r e s d_{res} dres是范围分辨率,单位是米, c c c是光速,单位是米/秒, B B B是雷达的带宽,单位是赫兹。因此,如果我们想获得更好的范围分辨率,带宽应该很高。我们使用的雷达的最大连续带宽是4GHz,相当于大约4厘米的范围分辨率。
RADHAR 框架首先从监测人类的毫米波雷达收集数据。点云数据经过预处理后被送入HAR分类器。下面详细介绍每一个组成部分。
我们使用TI公司的IWR1443BOOST雷达来收集新的点云数据集,称为MMActvity(毫米波活动)数据集。它是一个使用啁啾信号的FMCW(调频连续波)雷达。这种雷达在76GHz到81GHz的频率范围内工作。该雷达包括四个接收器和三个发射器天线,能够跟踪多个物体的距离和角度信息。这种天线设计能够估计方位角和仰角,从而能够在三维平面上探测物体。
数据预处理的工作流如上图所示。将毫米波雷达采集到的点云数据体素化,体素体积是 10 ∗ 32 ∗ 32 10*32*32 10∗32∗32,时间窗口是通过将60帧(2秒)组合在一起生成的。
捕获的点云包含空间坐标(x,y,z,单位为米)以及速度(米/秒)、距离(点到雷达的距离)(米)、强度(dB)和角度(度)。雷达的采样率是每秒30帧。
为了克服每帧中点数量的不均匀性,我们将点云转换为尺寸为10x32x32(深度=10)的体素,使得输入的大小恒定与帧中点的数量无关。在我们的体素表示中,每个体素的值是其边界内出现的数据点的数量。虽然拥有大量体素可以很好地表示底层信息,但它会使数据大小增加几个数量级。
我们创建了2秒(60帧)的窗口,其滑动系数为0.33秒(10帧)。在时间窗口体素化表示中,每个样本的形状为60 * 10 * 32 * 32。
利用稀疏毫米波雷达点云的时间窗体素表示,提出了用于稀疏毫米波雷达点云的RadHAR框架。我们对分类器的评估表明,深度学习分类器可以直接在时间窗体素表示上进行训练,测试准确率可达到90%以上。