论文提要“Taking a Deeper Look at Pedestrians”

比较:使用CNN做行人检测,目前最好的基于convnet的行人检测方法是SDN,之前的方法没有直接使用LeNet的,本文使用该网络。目前最好的行人检测方法是基于决策树的,包括SquaresChnFtrs,InformedHaar,SpatialPooling,LDCF和Regionlets,这些方法都是ICF结构的变体。
之前的基于cnn的方法使用的是人工设计的特征,最早的方法ConvNet的输入是YUV图像,DBN-Isol和DBN-Mut的输入是HOG,MultiSDP使用HOG+CSS作为输入,JointDeep和SDN使用YUV+梯度作为输入。本文直接使用RGB图像作为输入。

训练数据:使用Caltech,KITTI,ImageNe,Places。Caltech数据集是行人录像,对Caltech数据3帧提取一次得到Caltech10x,数据量增加十倍。

proposal提取
使用SquaresChnFtrs,将其从决策树转化为convnet。SquaresChnFtrs包含2048个2层决策树,使用超过十个特征通道(HOG+LUV),对通道的矩形块进行加和输入到树的分离节点中。主要转化pooling和决策树,将sum-pooling映射为内积运算,决策树映射成两个隐含层,通过线性加权得到树的输出。

普通的卷积网络
先使用CifarNet,解决Cifar-10分类问题的网络,输入是RGB图像。网络结构如下图所示。

  1. CifarNet网络设置
    使用SquaresChnFtrs提取proposal,IOU作为正负样本的阈值,模型大小128*64,固定正负样本数目比例为1:5。通过调整卷积滤波器大小发现对结果影响不大,网络结构保持32-32-64,滤波器大小为5*5。网络层数,图像通道对结果影响也不大。
    网络在Caltech的实验结果不错,超过了SDN,如下表所示:
    论文提要“Taking a Deeper Look at Pedestrians”_第1张图片

大规模卷积网络
使用RCNN为基础,proposal提取使用SquaresChnFtrs,微调后Caltech的测试MR为25.9%。使用场景数据库Places实验结果发现与ImageNet类似,表明ImageNet没什么特别的。使用Caltech10x进行微调,MR降到23.3%,说明微调的数据多也有好处。
仅使用Caltech直接进行训练AlexNet,效果也不错,MR为32.4%。

不同方法的结果对比如下图所示:

你可能感兴趣的:(论文提要“Taking a Deeper Look at Pedestrians”)