基于卷积神经网络的近红外夜间道路行人识别

near infrared nighttime road pedestrians recognition based on convolutional neural network

题目:基于卷积神经网络的近红外夜间道路行人识别

摘要:在行人预测系统中,行人识别是行人检测的核心技术。这篇文章对比和分析了可见光和红外图片,这些图片通过可见光谱,近红外,短波红外,长波红外相机获得。结果显示当设备投入和行人图片质量综合考虑的时候,近红外相机对于夜间行人预测是最好的选择。这篇文章介绍了首例使用自学习softmax分类器搭建的的9层卷积神经网络来识别近红外夜间行人。267000个近红外图片样本用来优化CNN识别模型。收集来的近红外夜间图片分成三类:背景,行人和骑自行车的人或骑摩托车的人。这些图片对所有研究者开源。测试结果表明,使用自学习softmax分类器优化的CNN模型有更具竞争性的准确率和实时性的潜力。

1.介绍:车辆给生活带来方便,但是也带来了严重的交通安全问题。交通安全问题随着车辆数量的增加而增加,列举了2015年全球交通安全报告的内容,说明了在交通系统中行人,骑自行车的人,骑摩托车的人处于弱势地位。尤其是在夜间交通事故中,行人预测系统为的是提高行人的安全保障。近年来,人们对使用计算机视觉检查的行人预测系统越来越感兴趣。

行人预测系统可以预测车辆周围静止和移动的行人,以便及时制动或采取避免伤害措施。行人识别是行人预测系统的核心技术。夜间行人识别依靠高质量数据获得设备和鲁棒性强并且高效的检测算法。

数据获取设备:可见光谱,雷达,近红外,短波红外,长波红外,多光谱融合。分析各种设备的优劣:

可见光

夜间效果不好

短波红外

容易被潮湿的表面吸收

雷达

解释性差(可视性差)且造价高

长波红外

依靠目标本身热辐射成像,不能穿透透明物体(如挡风玻璃)成像,不能被安装在车辆内部,且对车窗的污染和损伤敏感,造价相对高,分辨率低,对运动的物体成像模糊,对不同季节的成像差异大。

多光谱融合

检测速度慢,造价相对高。

近红外

波长范围在可见光和短波红外之间,可以提高低成本,高质量图片,补光可以很好的实现图片质量的提升,且不会影响其他道路灯光使用者。

分析了造成夜间行人识别复杂的几个原因:

①行人本身身体和衣着的差异

②不断地改变视角,距离和背景

③形态的不同

④实时准确率的挑战

早期目标检测算法采取手动的提取统计特征,然后将这些特征进行识别依靠高级分类器,如支持向量机和人工神经网络等等。介绍了Alexnet 的发展史,有人应用CNN进行了近红外夜间行人检测的研究,但是没有考虑骑自行车的人和骑摩托车的人。这篇文章的损失率为24%,在我们的研究中,一个基于候选框的两步CNN检测算法被使用,两步法在目标检测中有极好的优势。

由于重要的图片特征的差异,基于可见光和长波红外的行人识别算法直接应用于近红外图片很难获得满意的结果。这篇文章专注于近红外夜间图片系统,结合高效的,可信的和快速的行人识别算法。提出了一种自学习的softmax分类器应用于9层CNN网络模型。252000训练样本和15000测试样本用来优化CNN识别模型参数来适应夜间行人识别。测试集从复杂场景中抽取,CNN识别模型测试准确率达到94.49%。使用普通GPU,单个样本识别时间只有0.07毫秒。

  1. 近红外行人识别系统

近红外行人检测系统结构:

 

 

 

 

 

 

 

 

基于卷积神经网络的近红外夜间道路行人识别_第1张图片

 

车载近红外相机获得的高质量图片是行人检测的基础,对图片质量,摄影速度,可见光,近红外,短波红外和长波红外进行了对比。近红外夜间图片是廉价的,并且具有高分辨率和帧频率。通常情况下城市和郊区道路车辆行驶速度和制动距离也被考虑其中。目标检测距离限制在15-50米之间。将几种夜间道路图片在20米左右的图片结果进行了对比,近红外摄像机的图片结果更令人满意,为近红外摄影系统提供全光可以提升夜间行人图片质量。安装了一个可选滤波器来将700纳米以下的可见光过滤。全光的波长范围在700纳米到900纳米之间,这个范围内仅仅可见人物但不会影响其他道路光使用者。近红外辅助和可见光滤波使得近红外行人图片质量得到提升。营造的这个环境仿真了车辆迎面驶来的场景。添加可见光滤波和近红外辅助的近红外相机是夜间行人检测系统最经济并且图片质量最高的选择。

预处理:对近红外夜间图片进行最大灰度限制和灰度对比度拉伸来增强图片对比度。这就提高了样本信息提取。在图片边缘进行补零操作,这样根据最大截距框尺度限制去确定行人使得在边缘可以很好的截取和检测。

区域建议是一种在整张图片上提取兴趣区域的方法。常用的区域建议方法有:DPM;R-CNN;FPN;Fast R-CNN;Faster R-CNN;Mask R-CNN。这些算法各有优劣。快速并准确提取兴趣区域的区域建议算法是未来研究的最终目标。

CNN是近红外行人检测系统的核心。近红外图片是灰度图片,图片中有两到三个待分类的目标。提出了一种使用自学习softmax分类器构建的9层CNN夜间行人识别模型。CNN训练需要大量的样本。在研究中,在60000个预处理近红外图片中选取252000个训练样本和15000测试样本来优化CNN网络。

基于CNN模型的自学习softmax分类器

CNN模型:该模型包括一个80*32的输入层,两个步幅是1的卷积层(在第二和第四层的位置)。卷积核的大小分别设置为7*7和3*3,两个步幅为2的平均池化层,三个全连接隐藏层,一个节点数分别为为540,86,10和分类数量的输出层。使用第二和第四层两层卷积层表现了卷积模型的特点。举个例子,CNN模型第二和第四层分别提取了图片特征。除了池化层和输入层的每一层都使用了relu作为激活函数。自学习softmax分类器作为输出层得到概率显示。

自学习softmax:输出层经过激活函数relu后,CNN模型得到一个非负的输出。这个输出经过softmax分类器处理。发现预测分类概率总是距离标签有一定距离。这是因为在进行无限次权重更正。在研究过程中,使用自学习softmax分类器可以减轻这种无限权重更正的现象。

主要改进:

 

基于卷积神经网络的近红外夜间道路行人识别_第2张图片

 

 

 

 

这个并没有改进

 

 

 

这些因为涉及到zj,所以顺势进行改进

 

 

 

基于卷积神经网络的近红外夜间道路行人识别_第3张图片

 

 

 

 

 

 

 

 

 

实验

样本获取:本研究的检测目标包括行人,骑自行车的人和骑摩托车的人。1024*1280的60000近红外图片来自城市和郊区的道路,照片拍摄使用的是加可见光滤波器的车载近红外相机并进行了近红外补光。根据图片分析,从60000预处理近红外图片中选择截取样本,这些样本是宽度为104到336像素均匀放置并且高度宽度比例为2.5的11个框。这个宽度是根据15到50米光线检测距离计算的。

首先,手动截取11900张背景,34000张行人,19300张骑车的人或骑摩托车的人样本。样本数据调整为80*32大小,经过5度的顺时针和逆时针旋转增加了三倍的样本数量。用扩增样本预训练的CNN模型采用划动窗口的方法去预测600000预处理近红外图片中的目标。任何预测结果误差都有一个交并比值,这个值门限小于0.3,认为是背景样本,经过这一处理,我们获得一个新的样本数据集。这个背景样本增加到135700.新的样本数据同样进行尺度调整和三倍扩增。最终我们获得267000张扩增样本。它们将作为最终数据优化CNN模型。需要注意的是,测试数据通过计算机自动的从新数据集中随机选取。2000张背景样本,1000张行人,2000张骑自行车的人或骑摩托车的人选作测试样本,其余作为训练样本。

执行:算法用python实现,实现环境:core i7-8700;3.2GHz.处理器为12核CPU;一个GPU:NVIDIAGeForce GTX1060 6GB;16GB内存。批次,初始学习率,动量和随机下降梯度分别设置为50,0.003,0.9,0.00003.

训练和测试结果:

①对比了2分类和3分类识别情况:3分类是背景,行人,骑自行车和骑摩托车的人,通过误差分析,行人和骑车的人经常混淆,然后说明了可以把行人和骑车的人合并在一起的理由,进行了2分类测试,效果显然比三分类好。

②卷积通道调整:在测试识别过程中发现了一些顽固的反例,这些样本是由灯光反射或车辆灯光系统造成的。在训练和测试中为了减轻这些反例的影响,应用均值减去法对样本数据进行预处理。此外,为防止梯度爆炸,在训练过程中当测试损失率连续3代不再提高的时候将学习率减半。

对比了卷积层滤波器个数为30-18,25-15,20-12时的2分类结果。得到个数为25-15时2分类结果最佳,测试准确率93.22%,训练损失率为1.07%。

③使用自学习softmax分类器微调:准确率由93.22%上升到94.49%,平均识别时间为0.07毫秒。

5.结论:近红外相机经济实惠,图片上质量高,可靠性高,实时性好,这些特点可以更好地进行商业应用。又说了一通结果和识别效果,然后说识别是本次研究的基础,未来努力的方向是在优化区域目标获取来减小交并比。

 

 

 

 

 

 

 

你可能感兴趣的:(基于卷积神经网络的近红外夜间道路行人识别)