目标检测“DPMs are CNNs”

DPMs是图形模型(Markov 随机域),CNNs是”黑盒子”非线性分类器。论文将DPM重构为CNN,将DPM算法展开,每步映射到一个相当的CNN层,将DPM使用的特征用学到的特征替换,得到DeepPyramid DPM。

基于区域的检测R-CNN和基于滑动窗的方法DPM是互补的,一些物体比较容易分割,比如cats,另一些比如bottle,people难分割。

DeepPyramid DPMs
输入图像金字塔,输出目标检测得分金字塔,可描述为两个小的网络,一个特征金字塔“front-end”CNN和一个DPM-CNN,模型的原理图如下所示:

特征直方图front-end CNN
物体以不同的尺度出现在图像中,常用的技术是使用图像金字塔在多个尺度运行检测器,论文使用单尺度的CNN结构

DPM-CNN
DPM将物体以多”Components”模型化,每个”Components”负责不同的外形表示(如车辆侧视图,倒立的行人等),每个组件使用一个低分辨率的全局模型和几个高分辨率的“part filters”。
测试时,DPM以滑动窗方式在HOG特征金字塔上运行,每个金字塔通过优化得分函数(平衡deformation part costs 和 image match scores)分配一个DPM得分,得分函数的全局最大值通过临近位置的共享计算和动态规划算法得到。对于一个给定的DPM,将每步展开,得到一个具有固定深度的CNN网络,网络的结构如图2所示。

1.DPM-CNN输入是特征金字塔层(con5特征图)
2.将特征图与一个root filter和P个part filter卷积,得到P+1个特征图
3.part filter的P个特征图输入距离变换池化层
4.将P+1个特征图堆栈
5.将P+1个特征图与object geometry filter卷积,生成DPM得分图

距离变换池化
最大池化: Mf(p)=maxΔpk,...,kf(p+Δp)
距离变换池化: Df(p)=maxqG(f(q)d(pq))
对于DPM,d(r)是凸二次函数 d(r)=ar2+br ,a,b是可学的参数,池化的区域可从数据中学到。

Object Geometry Filters
component c在位置s处的得分是root filter的得分和经过距离变化的part的得分之和,每个part相对于锚点的位移为 vp=(vpx,vpy) ,计算组件在所有位置的得分可认为是卷积。将P+1个得分图与”object geometry”卷积,”object geometry filter”只有一个系数为1,其余都为0。”object geometry”第一个通道的左上角系数为1,令其筛选root的得分,通道p在位置 vp 处系数为1,筛选 part p的得分。

maxout 所有components的结果
使用 zqc 表示组件c在位置q的结果,所有组件的结果是最大化值: zq=maxczqc ,在DPM-CNN中, zqc=wcxq+bc , wc 是组件c的object geometry滤波器, xq 是位置q处root和part得分的子矩阵, bc 是偏移量。下图是DPM-CNN的maxout结构:
目标检测“DPMs are CNNs”_第1张图片

实验设置
两个方法训练Deep Pyramid DPM,第一个方法是将模型认为是一个CNN,使用SGD和BP进行端到端的训练。第二个方法是分两步训练模型,(1)固定front-end CNN;(2)使用latent SVM在第一阶段后训练DPM,本文选用第二种方法。

实验结果
HOG描述尺度不变图像特征,conv5特征描述大图像块,如下图所示:
目标检测“DPMs are CNNs”_第2张图片
在VOC2010上的实验结果如下:
目标检测“DPMs are CNNs”_第3张图片

你可能感兴趣的:(目标检测“DPMs are CNNs”)