Deep Image Homography Estimation 个人解读

      本篇博文主要讲解2016年发表在 Computer Visionand Pattern Recognition上的一篇文章Deep Image Homography Estimation文章地址,该文章主要讲述了使用ConvNet来实现对Homography的估计,作者来自于Magic Leap,一家做AR的公司,大家可能对这个名字不是很熟悉,但是相信该链接中的视频确实引起一阵AR的浪潮。Homography(单应性)为SLAM领域的问题,由于本人对SLAM并不是特别的了解,对该文章中的卷积神经网络的应用比较感兴趣,所以如果有领域内的专业术语理解有误或者措辞不当的请谅解。

     需要解决的问题?

     传统、简单的解决Homography的方法是使用一个3*3的矩阵和一个固定的尺度比例,如下公式所示:

                                                                      

其中[u,v]为图像1中点p的位置,[u',v']为同一物体相机位于不同视角拍摄的图片2中所对应p'的位置,为旋转 项,[H_13 H_23]为平移偏移项。可以将问题寻找9个参数的问题转化为8个参数的问题,如下图所示。

                                                        Deep Image Homography Estimation 个人解读_第1张图片

 其中∆u_1=u_1^'-u_1,其中左图中的4个角点组成一个4边形,对应右图中由4个角点组成的4边形,这样参数就由9个变成现在的8个。问题现在比较明确为求这8个参数。

     数据集构造

        对于深度学习来说,构造数据集是一个非常关键的问题。

                                                             Deep Image Homography Estimation 个人解读_第2张图片                              

     step1:随机的以p为中心(注意边界)切一个正方形大小的patch,该patch由4个角点组成,step2:对这4个角点加扰动量[-ρ,ρ],就生成了step3中的绿色的4变形,将该多边形的变化矩阵应用到整幅图中就可以得到step4中的图。这样就可以得到左右两幅图的图像对。

    其中在训练网络中,采用SGD,动量值为0.9,基本的学习速率为0.005,每经过30000次迭代产生学习速率会下降0.1,训练网络中共有90000次迭代,batch size为64.在caffe框架中训练,采用Titan X GPU加速,大概每个网络训练时间为8小时。

    training data

    采用MS-COCO的训练集,将所有图片转化为320*240的灰度图,通过上述的构造数据集的方法共产生500,000对128*128的图像对,其中ρ=32,大约为图像尺寸的1/4。

   testing data

   采用MS-COCO14的测试集,将图片转化为640*480的灰度图,并裁剪成256*256的图像对,其中ρ=64。

 

       HomographyNet构建

       结构类似于VGG的网络,卷积核为3*3,采用了Batch Norm和ReLU,总共网络包含8个卷积层,每个卷积层的个数为:64、64、64、64、128、128、128、128,每两个卷积层之后又一个max pooling(2*2,步长为2),以及2个全连接层,输入为2-通道的灰度图,即将左图和右图叠加成2通道的图片,可以参考该博客理解。 

其中文中构造了两种HomographyNet网络,

                                                                Deep Image Homography Estimation 个人解读_第3张图片

Classificationnetwork:采用量化机制(会产生量化误差),训练过程中交叉熵为代价函数,最后一层为softmax层产生每个角点置信度的8维向量。

Regression network:产生8个真实值,训练过程中欧式距离为代价函数,最后一层的输出为8*21,基于classionation网络的缺点,8个方向的输出用21个量化量来表示。

       效果如何?

                                                                   Deep Image Homography Estimation 个人解读_第4张图片                                   

        可以看出,Regression Network的效果最好,不过文中也提到了HomographyNet相比较于传统的ORB的方法在有些优势,并且对噪声的鲁棒性强,但是在有些场景下传统的也会比HomographyNet表现的好。

       深度学习目前在各个领域开始有应用,正如文中在结尾所说,如何将homography估计由之前的计算机视觉方面的角度转到学习的角度,是我们现在要思考的,相信深度学习将会在各个领域的问题中有所建树。以上是我对该paper的理解,如果有误,请指出,共同进步。

 

你可能感兴趣的:(深度学习)