行人检测“Joint Deep Learning for Pedestrian Detection”

动机:行人检测中的特征提取,形变处理,遮挡处理和分类联合学习。深度网络可以将各部分放到不同的网络层并使用BP进行优化。

相关工作:
用于行人检测的特征:Haar,HOG,SIFT,一阶颜色特征如颜色直方图,二阶颜色特征如CSS,co-occurence特征,纹理特征LBP,其他形式的特征包括协方差,深度图,分割结果,3D几何,深度学习局部最大或平均池化特征。这些特征没有考虑行人的形变特征。
处理形变:DPM
处理遮挡:主要用part进行处理

方法描述
文章深度网络框架如下图所示,每层功能描述如下:
1.filtered data map的获取:第一个卷积层对三通道的输入图像使用9*9*3的滤波器,输出64个特征图,激活函数用tanh(x)
2.特征图获取:平均池化
3. part detection map:第二个卷积层,20个part filters进行卷积
4. part score:形变处理层
5. 估计标签:可视化推理,某bbox是否包含行人
行人检测“Joint Deep Learning for Pedestrian Detection”_第1张图片

准备输入数据
输入的图像数据包含三个通道:YUV尺寸为84*28尺寸的Y通道,YUV三通道42*14串联空白加零,4个边缘图串成42*24大小图像。

生成part检测图
第二个卷积层的part滤波器具有不同的大小,设计了三层不同尺寸的滤波器,如下图 所示,上层的滤波器包含下层滤波器的部分,上层的parts是有可能存在的遮挡情况。
行人检测“Joint Deep Learning for Pedestrian Detection”_第2张图片

deformation 层
形变层输入P个part检测图输出得分 s=s1,...,sp ,2D summed map是part检测图和形变图的加和,即:
Bp=Mp+cn,pDn,p (1)
Dn,p 表示part p的第n个形变图, sp Bp 全局最大池化得到:
sp=maxx,ybx,yp
part位置:
(x,y)p=argmaxx,ybx,yp
cn,p,Dn,p 都是可学到的参数。

形变层可表示为DPM中的二次形变约束,即:
这里写图片描述
可用公式(1)表示为如下形式:
行人检测“Joint Deep Learning for Pedestrian Detection”_第3张图片
过程如下图所示:
行人检测“Joint Deep Learning for Pedestrian Detection”_第4张图片

Visibility推理及分类
part j在l层的得分和visibility表示为 slj,hlj ,l层part的visibility为 hl=[hl1,...,hlPl]T ,BP模型如下:

论文的方法增加part 2层和3层的隐含节点,这样可以将1层和2层的信息直接传播到分类器,如下图,用白色节点表示:
行人检测“Joint Deep Learning for Pedestrian Detection”_第5张图片

在论文中,特征,形变模型,visibility关系联合学习,为了学习两个卷积层和形变层的参数,通过得分s进行反向传播:
行人检测“Joint Deep Learning for Pedestrian Detection”_第6张图片

实验结果
在Caltech上的实验结果对比如下:
行人检测“Joint Deep Learning for Pedestrian Detection”_第7张图片

你可能感兴趣的:(行人检测“Joint Deep Learning for Pedestrian Detection”)