车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

使用深度时空神经网络,在低质量视频中计算车数目。为了使用视频时间信息,结合FCN和时间递归神经网络(LSTM),即FCN-rLSTM估计车辆密度和车辆计数。FCN进行像素级预测,LSTM学习复杂的时间动态。使用残差连接,将车辆数目回归问题作为残差学习函数,加速网络训练过程。为保持特征分辨率,提出Hyper-Atrous集合FCN中artous卷积,综合不同层卷积信息。

车辆计数是统计给定区域内车辆数目,如下图所示:
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第1张图片
上图中列举了车辆计数所面临的挑战,即视频的低帧率,低分辨率,高拥堵,大视角。普通的车辆计数法有帧差法,检测法,运动法,密度估计法及深度学习法。目前的方法很少考虑帧间相关性,即时间关系。

FCN-rLSTM
FCN可以做像素级预测,允许输入任意尺寸图像,目前的目标计数方法是估计目标密度图,累加整幅图密度得到目标数量。但这种方法受大视角视频和大尺寸车辆干扰。因此提出FCN-rLSTM
网络通过残差的方式估计车辆密度和车辆数目。

FCN-RLSTM网络包含卷积网络,反卷积网络,hyper-atrous特征综合及LSTM层。结构如下图所示:
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第2张图片
卷积层和反卷积层使用 3×3 小卷积核。递归神经网络RNN通过保持内部隐含层状态,对动态时间行为建模。LSTM对RNN进行了扩展,增加了3个gates:遗忘门 ft ,输入门 it ,输出门 ot 。这样LSTM可以学习序列的长相关,解决了RNN中常出现的梯度消失问题。LSTM还包含单元激活向量 ct 和隐含输出向量 ht 。将FCN的密度图reshape到1D的向量,并输入到LSTM中。为了加速训练,使用残差连接形式,如下图所示:
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第3张图片

多任务学习
FCN-rLSTM包含两个任务,即像素级密度图和每帧全局车辆计数。如果目标使用点d来标记,车辆数目真值是点的数目,每个像素p的真值密度:由以点标记为中心且覆盖像素p的2D高斯核之和定义,即:
这里写图片描述

如果目标使用bbox标记,车辆数目是bbox数目,真实密度是:
这里写图片描述

FCN估计密度图,LSTM估计车辆数目,联合训练,车辆密度由FCN最后一个 1×1 的卷积层估计,欧式距离测量估计密度和真值的差距,密度图的损失函数为:
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第4张图片

LSTM车辆数目有两部分:基础部分由密度图集合得到,残差部分由LSTM学习到,综合两者得到最终的车辆数目:
这里写图片描述

损失函数为:
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第5张图片

最终网络的损失函数为:
L=LD+λLC

FCN-rLSTM的训练过程为:
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第6张图片

实验结果
车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”_第7张图片

你可能感兴趣的:(车辆计数)