行人检测论文阅读

一、基于深度卷积神经网络的行人检测_芮挺

1、行人检测的概述

行人检测作为目标检测的一种。目前行人检测技术主要基于统计分类的方法,将行人检测转化成人与非人的二分类问题,包括特征提取和分类学习两个部分。

传统的行人检测需要人工设计复杂的特征提取方法,这些方法再鲁棒性上有一定的局限性。HOG特征是目前公认的最具有泛化能力的特征之一,但是对于复杂背景和遮挡等情况下的行人检测效果较差。将HOG特征和多种特征相融合是行人检测的另一个趋势,但是复杂的高维特征运算大大降低了系统的实时性。

系统分析了卷积神经网络层数、卷积核大小、特征维数等对识别效果的影响,优化了网络参数。实验结果表明该方法对于行人检测具有很高的识别率,优于传统方法。


2、卷积神经网络概述

卷积神经网络是深度学习模型的一种,它的权值共享结构使之更类似于生物神经网络,大大减少了网络的参数,结合局部连接和空间下采样,使得网络在图像分析中优势明显,能够自动提取图像的纹理、颜色等特征,并具有一定平移、缩放和扭曲不变性,提高了分类的鲁棒性。

卷积神经网络,应用于模式分类、物体检测、物体识别等领域。卷积神经网络是一种多层的监督学习网络,有输入层、隐含层(包括卷积层和下采样层)和输出层,通过误差反传算法优化网络结构,求解未知参数。

  在卷积层,特征图(Feature  Map)的每一个神经元与前一层的局部感受野相连,经过卷积操作提取局部特征。卷积层中有多个Feature  Map,每个Feature  Map提取一种特征,在提取特征时,同一个Feature Map的神经元共享一组权值(即卷积核),不同的Feature  Map权值不同,从而提取不同的特征,在训练过程中不断地调整权值参数,使特征提取朝着有利于分类的方向进行,卷积操作示意图如图2所示。

    在下采样层中,输入的Feature  Map经过池化( Pooling)后其个数不变,大小变为原来的1/n(假设池化尺寸为n)。池化操作的主要作用是减小特征图的分辨率,降低特征维数,同时在一定程度上增加网络对位移、缩放、扭曲的鲁棒性。池化分为最大池化和平均池化。


3、网络模型影响因素

数据集:

样本集中负样本大多数取自于Daimler数据库,因其采用行车驾驶拍摄,更符合实际情况;训练集中正样本包括所有MIT数据库样本和部分INRIA数据库样本,

测试集正样本全部取自INRIA数据库,且训练集和测试集之间无相关性。所有样本都转化为灰度图像,大小为128x64。

(1)卷积核的大小

    卷积核的影响。卷积核是卷积神经网络模型中最具特性的部分,可以理解为生物视觉中感受野的模型化表示。它的性质直接决定了特征提取的好坏、网络收敛的速度等。卷积核的大小决定了感受野的大小,感受野过大,提取的特征超出卷积核的表达范围,而感受野过小,则无法提取有效的局部特征。因此,卷积核大小对整个网络的性能有着至关重要的影响。

(2)网络层数

特征学习过程正是通过具有一定深度的网络结构在逐层抽象中完成的。通过增加网络的层数,其特征信息表达能力逐步增强,但层数过多也会致使网络结构过于复杂,训练时间增加,易出现过拟合现象。因此,选择合适的层数对提高网络训练效率和检测结果有重要影响。

(3)特征维数

    分类器输入特征维数的影响。在卷积神经网络中,训练过程采用BP训练策略,因此最后一层的分类器本质上是BP分类器,输入维数的高低对最终结果也有
影响。同时,一个隐含层特征提取的好坏决定着网络的总体性能,而隐含层输出的特征维数则是影响网络收敛和收敛速度的一个重要因素,在有限样本集的情况下,过高的特征维数会产生冗余,无法提取有效信息,过低则无法完整表达特征。

实验证明,特征维数过少或过多都会导致网络不收敛,过少时不能进行充分特征描述,过多时会产生过拟合现象。因此,在设计深度卷积神经网络时应该根据样本特征的复杂度等因素调整特征维数,过高或过低均不能产生理想分类效果。


二、基于深度学习模型的行人检测研究与仿真_曾敏,周益龙_2015南京邮电大学学报

1、论文概述

在卷积神经网络中引入了遮挡模型和变形层,把行人检测的主要模块构建成一个联合深度学习的框架,提出了一个新的深度网络结构。模型利用Caltech行人数据集进行联合训练和参数优化与评估,测试了模型的检测正确率,并利用实际拍摄的图像和视频进行行人检测实验。


2、行人检测相关知识

行人检测方法大致可以分为三种:基于全局特征的方法、基于人体部件的方法、基于立体视觉的方法。

行人检测数据库:MIT、Caltech、INRIA等

行人检测算法的四个重要组成部分:特征提取、变形处理、遮挡处理、分类器。


3、卷积神经网络

本系统将变形处理引入到卷积神经网络,利用多层相关联的网络来模拟人类的大脑的多层抽象机制和视觉信息的处理过程,逐层对输入图像进行抽象处理,提取图像的显著特征,实现对输入图像的抽象描述和分类,并对真实的行人检测进行了仿真与分析。

卷积神经网络的优点:可以避免了显式特征提取,并且网络各个层级中的神经元实现全值参数共享。多层级神经元网络的构建以及训练,极大程度上降低了对数据预处理的要求,同时也减少了需要训练的参数,提高了向前BP算法的训练性能。

在卷积神经网络中,一般包含两类神经元:特征提取神经元S-元、抗变形神经元C-元。

S-元中包含两个重要参数:感受野与阈值参数。感受野用来确定输入链接特征的数目,阈值参数控制对特征子模式的反应程度。


深度学习网络分为六层:

第一层:数据输入层,图像数据需要经过一定的预处理,再进入模型

第二层:第一卷积层,把输入的图像提取出多幅特征提取图

第三层:子采样层,进行特征提取,取样压缩

第四层:第二卷积层,将特征图提取成局部检测图

第五层:隐藏层,并通过隐藏层获取得这些局部检测图评分

第六层:输出层,得到最终标签y

在训练阶段,所有的参数通过反向传播(BP)进行了优化


4、处理步骤

1)图像数据预处理

设置图像大小,28x84,将原始图像从RGB模型转化成HSV模型,H通道就作为输入的第一通道。第二通道,缩放为14x42。第三通道,用sobel边缘检测器计算14x42的HSV图像的水平和垂直边缘等级,得到三组边缘图,,,

最后为了解决光照变化问题,每个通道都做零均值和单位方差处理。

2)特征提取

特征提取层:第一卷积层和子采样层

输入28x84大小的图片作为第一卷积层输入,第一卷积层有64个滤波器。输入数据的每个9x9邻域数据与滤波器中参数作用,作为一副输出特征图的而一个元素,最终,经过第一卷积层的64个滤波器卷积作用,输出结果是64幅20x76大小的特征图。

3)生成局部检测图

第二卷积层对特征提取图进行处理后得到局部检测图。

4)变形层


5)分类器











你可能感兴趣的:(深度学习)