论文阅读笔记|Unsuperised Deep Homography

论文阅读笔记|Deep Image Homography: A Fast and Robust Homography Estimation Model

  • 前言
  • 无监督深度单应性模型
    • A.模型输入(Model Inputs)
    • B.张量直接线性变换(Tensor Direct Linear Transform)
    • C.空间变换层(Spatial Transformation Layer)
  • 实验结果

前言

T. Nguyen, S. W. Chen, S. S. Shivakumar, C. J. Taylor, and V. Kumar. Unsupervised deep homography: A fast and robust homography estimation model. IEEE Robotics and Automation Letters, 3(3):2346–2353, 2018
本文提出了一种无监督学习算法,设计了一个卷积神经网络进行单应性估计,使用了不需要人工标签的光度损失函数,并引入了张量直接线性变换层空间变换层,在合成数据集和真实数据集上都取得了较好的效果。
源码地址
Pytorch复现地址

无监督深度单应性模型

论文阅读笔记|Unsuperised Deep Homography_第1张图片
首先看一下单应性估计方法概述,如上图所示,(a)是监督学习方法,可参见这篇博客 (b)是
传统的基于特征的方法,©是无监督学习方法。可以看出,无监督方法主要由两大部分组成,前半部分使用和监督方法相同的网络,后半部分由Tensor DLT张量线性变换层、Spatial Transformation空间变换层和 L P W \mathbf{L}_{P W} LPW光度损失等组成。
在监督学习方法中,Regression Model是一个VGG风格的回归网络,网络的输出是8个参数的 H ~ 4 p t \mathbf{\tilde{H}}_{4 p t} H~4pt,表示图像的四个顶点之间的偏移量,损失函数是 H ~ 4 p t \mathbf{\tilde{H}}_{4 p t} H~4pt和标签 H 4 p t ∗ \mathbf{H}_{4 p t}^{*} H4pt之间的L2损失。
监督学习方法需要人工标注的Ground Truth标签,因此在实际应用中受限制。本文提出了一个无监督学习方法。给定一对图像对 I A ( x ) I^A(\mathbf{x}) IA(x) I B ( x ) I^B(\mathbf{x}) IB(x),其离散像素位置由齐次坐标 { x i = ( x i , y i , 1 ) T } \left\{\mathbf{x}_{i}=\left(x_{i}, y_{i}, 1\right)^{T}\right\} {xi=(xi,yi,1)T}表示,网络通过最小化以下平均L1像素光度损失来输出 H ~ 4 p t \mathbf{\tilde{H}}_{4 p t} H~4pt
L P W = 1 ∣ x i ∣ ∑ x i ∣ I A ( H ( x i ) ) − I B ( x i ) ∣ \mathbf{L}_{P W}=\frac{1}{\left|\mathbf{x}_{i}\right|} \sum_{\mathbf{x}_{i}}\left|I^{A}\left(\mathscr{H}\left(\mathbf{x}_{i}\right)\right)-I^{B}\left(\mathbf{x}_{\mathbf{i}}\right)\right| LPW=xi1xiIA(H(xi))IB(xi)其中, H ( x i ) \mathscr{H(\mathbf{x}_{i})} H(xi)是由 H ~ 4 p t \mathbf{\tilde{H}}_{4 p t} H~4pt定义的单应性变换。
这是一个L1损失函数,表示对经过单应性变换后的 I A ( x ) I^A(\mathbf{x}) IA(x)与原来的 I B ( x ) I^B(\mathbf{x}) IB(x)进行逐像素地计算强度值之差,再对所有的像素强度值之差求平均。相当于图中的 P ~ B \tilde{\mathbf{P}}^\mathbf{B} P~B与 PB求差的部分。
论文阅读笔记|Unsuperised Deep Homography_第2张图片

A.模型输入(Model Inputs)

模型的输入由三部分组成,第一部分是从 I A I^A IA I B I^B IB上随即裁剪的128×128×2大小的堆叠的Patch对,记为 PA和 PB。第二部分是PA的四个顶点坐标,用 C 4 p t A \mathbf{C}_{4 p t}^{A} C4ptA表示。第三部分是用来变换的图像 I A I^A IA
在这里插入图片描述

B.张量直接线性变换(Tensor Direct Linear Transform)

由于本文使用的无监督学习方法需要使用单应性矩阵对图像进行变换,因此设计该Tensor DLT层,使得能够从四个顶点的偏移量 H ~ 4 p t \mathbf{\tilde{H}}_{4 p t} H~4pt映射到3×3的单应性矩阵 H ~ \mathbf{\tilde{H}} H~
C 4 p t A \mathbf{C}_{4 p t}^{A} C4ptA是PA的四个顶点的坐标,加上 H ~ 4 p t \mathbf{\tilde{H}}_{4 p t} H~4pt就得到了对应的 C ~ 4 p t B \tilde{\mathbf{C}}_{4 p t}^{B} C~4ptB。通过直接线性变换(DLT)方法可以从 C 4 p t A \mathbf{C}_{4 p t}^{A} C4ptA C ~ 4 p t B \tilde{\mathbf{C}}_{4 p t}^{B} C~4ptB中估计单应性矩阵的9个参数。
论文阅读笔记|Unsuperised Deep Homography_第3张图片

C.空间变换层(Spatial Transformation Layer)

接下来设计的SLT层,是对图像 I A I^A IA的像素坐标 x i \mathscr{\mathbf{x}_{i}} xi应用Tensor DLT层的输出单应性矩阵 H ~ \mathbf{\tilde{H}} H~,得到变换后的图像 I A ( H ( x i ) ) I^{A}\left(\mathscr{H}\left(\mathbf{x}_{i}\right)\right) IA(H(xi)),即 P ~ B \tilde{\mathbf{P}}^\mathbf{B} P~B
论文阅读笔记|Unsuperised Deep Homography_第4张图片

实验结果

超参数:
(1) 初始学习率: 0.0001
(2) Batch size: 128
(3) 优化器: Adam, β 1 = \beta_{1}= β1= 0.9, β 2 = \beta_{2}= β2= 0.999, ϵ = \epsilon= ϵ= 10-8

使用逐像素光度损失函数的隐含假设是输入图像之间的亮度和对比度保持一致,因此在本方法中使用了随即光照偏移等数据增强方法。图像的重叠度通过参数 ρ \rho ρ控制。
对于合成数据集,从头开始训练网络共300,000次迭代。
对于航空数据集,对神经网络进行微调,共150,000次迭代。
最后的结果表明,监督和非监督方法在合成数据上的表现相当,但无监督方法在航空图像数据集上的表现却更好。

你可能感兴趣的:(Homography,Estimation)