论文笔记-Progressive Fusion for Unsupervised Binocular Depth Estimation using Cycled Networks

  • 论文信息

    • 标题: Progressive Fusion for Unsupervised Binocular Depth Estimation using Cycled Networks
    • 作者:Andrea Pilzer, Stephane Lathuili ere, Dan Xu, Mihai Marian Puscas, Elisa Ricci, Nicu Sebe
    • 机构:University of Trento, University of Oxford
    • 出处:TPAMI 2019
  • 代码链接

  • 论文主要贡献

    • 对最近的监督、非监督深度估计方法进行详细分析
    • 提出新的渐进混合网络 PFN 用于双目立体深度估计,基于多尺度优化策略将左右图提供的信息进行组合
    • 调整【10】提出的 cycle 模型用于从 PFN 预测的两个视差图中获益
    • 在 KITTI、CityScape、ApolloScape 等数据集上的实验结果表明提出的对抗式图像合成、循环生成网络结构、渐进混合网络的有效性
  • 论文要点翻译

    • 摘要
      • 基于深度学习的单目深度估计方法已经取得较好的性能,但是监督学习方法需要大量的标注数据进行训练,为了解决这个问题,本文提出无监督的深度学习方法用于估计深度图
      • 本文的新的深度学习网络叫做渐进混合网络 PFN,设计用于双目立体深度估计,网络基于多尺度的优化策略,将双目立体图像提供的信息组合,本文提出将网络堆叠两次之后形成循环,借助循环可以从前向以及后向两个方法进行网络训练
      • 同时,网络借助对抗学习的思想进行联合训练,在 KITTI、CityScape、ApolloScape 等数据集上的实验证明了模型的有效性,性能比其他非监督学习方法有优势
    • 引言
      • 基于监督学习的深度预测网络通常设计来用于单目深度估计,学习从单张 RGB 图像到对应的深度图之间的像素级的映射关系,但是监督学习需要大量的标注数据作为训练输入,而实际深度数据的采集和标注代价较大,而单目深度估计本身是一个病态的问题,带有明显的尺度歧义性,例如:给定一个蓝天的图像 patch 很难预测到这个 patch 是距离很远的蓝天,还是一个蓝色物体的一部分,因此,局部的纹理等信息必须和全局的上下文信息进行组合;此外,实际条件下的单目深度估计难以仅从单个相机采集的图像学习到必要的信息,还存在遮挡等问题
      • 为了解决这些问题,无监督/自监督方法可以基于双目立体图像进行深度预测,通过学习两个不同图像之间的对应关系,可以恢复左右图像之间的视差,进而结合相机参数等恢复深度信息。视差值和深度值成反比例关系,给定双目立体相机的参数,则可以从视差恢复深度信息,实际条件下,这样的条件设置使得深度估计有两种方式:(1)单目深度估计;(2)双目立体匹配;考虑到这个条件,可以不用采集深度标注图像,可以直接加设另一个相机采集双目图像,进而进行深度估计
      • 无监督的深度估计在测试推理的时候通过在线自适应的方式只使用单个分支,典型的无监督方法通过预测右图到左图的视差,结合右图重建左图,利用这个重建损失进行无监督的网络训练
      • 本文中,跟着这条研究主线,本文提出新的端到端的基于对抗学习的深度估计网络,与之前的方法不同,本文主要考虑双目图像都可用的情况,双目图像在训练和测试阶段都可用
      • 提出的方法由生成子网络组成,该网络学习从右图到左图和从左图到右图的视差图,自网络通过堆叠两次的方式形成一个循环(详见原文图1)
      • 循环的形状、对抗损失使得网络和之前的 CycleGAN 有一定的相似性,但是本文方法与 CycleGAN 不同,CycleGAN 用于无监督图像翻译任务,在双目深度估计任务中,本文的 cycle 可以看作是一种数据增强的技巧,训练过程中,在前向 cycle 阶段学习从图像到深度图的预测,在后向 cycle 中则学习从 warp 的图像到深度图的预测,此外通过这样的 cycle 的方式还有效避免了图像的毛刺、变形等问题,整个 cycle 联合训练,最终预测主要使用第一个 G 网络
    • 相关工作
      • (详细,相关文献可作为综述学习时参考)
      • 监督学习深度估计:Eigen 提出的多尺度的深度估计网络、结合概率图模型的优化、CRF 模型的引入、金字塔池化模块、MAP 估计和亚像素交叉熵损失等
      • 非监督深度估计:Garg 等人的左右图和深度图之间的关系以及重建 loss、Godard 提出估计两个视差图,利用两个视差图之间的一致性进行模型约束、提出 3D 卷积用于三维特征匹配、从单目视频中联合估计深度和相机姿态等
      • 像素级预测任务:全卷积网络,语义分割、去噪、图像着色等任务中的应用、GAN 的应用、光流预测相关工作
      • 粗粒度到细粒度的预测:迭代式优化
    • 方法
      • 方法的两个贡献:(1)循环一致性更好的规范模型,结合对抗学习策略提高预测结果;(2)渐进混合网络,多尺度方法混合不同的信息
      • 无监督双目深度估计:
        • 监督学习方法使用立体匹配网络学习深度信息,通过最小化像素级误差进行网络训练,本文的无监督条件:给定左右图像 I l , I r I_l,I_r Il,Ir,预测视差图 d r , d l d_r, d_l dr,dl,视差图 d r d_r dr 中每个像素值表示对应像素从左图到右图的偏移,对称地, d l d_l dl 每个像素表示对应像素从右图到左图的偏移,本恩提出从不同视角的图像合成进行视差的间接估计
        • 具体而言:方法训练的网络可以用于预测左右两个视差图,当输入左右图像从生成器网络 G 得到右到左的视差图 d l d_l dl 后,将 I r I_r Ir d l d_l dl 一起输入函数 f w ( ⋅ ) f_w(\cdot) fw() 进行视角合成生成新的左图
        • I ^ l = f w ( d l , I r ) , 其 中 : d l , d r = G ( I l , I r ) \hat I_l=f_w(d_l,I_r),其中:d_l,d_r=G(I_l,I_r) I^l=fw(dl,Ir)dl,dr=G(Il,Ir)
        • 为了实现可导的 warping 函数,利用空间转换网络 STN 中的双线性采样实现图像的 warp 操作,再利用重建 loss 训练生成网络 G (通常使用 L1 Loss 作为重建 Loss)
        • L r e c l = ∥ I l − I ^ l ∥ 1 \mathcal{L}_{rec}^l=\|I_l-\hat I_l\|_1 Lrecl=IlI^l1
        • 对称地对右图也做一样的操作
      • 双目深度估计的网络训练
        • L r e c = L r e c r + L r e c l \mathcal{L}_{rec}=\mathcal{L}_{rec}^r+\mathcal{L}_{rec}^l Lrec=Lrecr+Lrecl
        • 为了约束预测深度之间的一致性,加上一致性损失:
        • L c o n = ∥ d l − f w ( d l , d r ) ∥ 1 + ∥ d r − f w ( d r , d l ) ∥ 1 \mathcal{L}_{con}=\|d_l-f_w(d_l,dr)\|_1+\|d_r-f_w(d_r,d_l)\|_1 Lcon=dlfw(dl,dr)1+drfw(dr,dl)1
        • 为了提高生成图像的质量,引入对抗损失,网络结构中添加两个判别器 D r D_r Dr D l D_l Dl D r D_r Dr 用于判断生成深度后从左图合成的右图 I ^ r \hat I_r I^r 和真实的右图 I r I_r Ir 之间的可分辨性,左图也是相似:
        • L g a n D , r = E I r ∼ p ( I r ) [ ( D r ( I r ) − 1 ) 2 ] + E I l ∼ p ( I l ) [ D r ( f w ( d r , I l ) ) 2 ] \mathcal{L}_{gan}^{D,r}=\mathbb{E}_{I_r\sim p(I_r)}[(D_r(I_r)-1)^2]+\mathbb{E}_{I_l\sim p(I_l)}[D_r(f_w(d_r,I_l))^2] LganD,r=EIrp(Ir)[(Dr(Ir)1)2]+EIlp(Il)[Dr(fw(dr,Il))2]
        • L g a n G , r = E I l ∼ p ( I l ) [ D r ( f w ( d r , I l ) − 1 ) 2 ] \mathcal{L}_{gan}^{G,r}=\mathbb{E}_{I_l\sim p(I_l)}[D_r(f_w(d_r,I_l)-1)^2] LganG,r=EIlp(Il)[Dr(fw(dr,Il)1)2]
        • L g a n r = L g a n D , r + L g a n G , r \mathcal{L}_{gan}^r=\mathcal{L}_{gan}^{D,r}+\mathcal{L}_{gan}^{G,r} Lganr=LganD,r+LganG,r
        • L g a n = L g a n r + L g a n l \mathcal{L}_{gan}=\mathcal{L}_{gan}^{r}+\mathcal{L}_{gan}^{l} Lgan=Lganr+Lganl
      • 双目深度估计中的循环生成网络
        • 首先,第一个生成网络从不同方向生成不同的视差图 ( d r , d l ) (d_r,d_l) (dr,dl),分别合成两个不同视角的图像 I ^ l , I ^ r \hat I_l,\hat I_r I^l,I^r,第二个生成网络利用合成输入的两个图像输出新的视差图 ( d r ′ , d l ′ ) (d_r^{'},d_l^{'}) (dr,dl),然后分别再合成新的图像 I ^ l ′ , I ^ r ′ \hat I_l^{'}, \hat I_r^{'} I^l,I^r,第一个网络和第二个网络构成循环,循环可以看作是一侧数据增强,训练阶段使得网络不仅能预测真实图像的视差图,还能预测合成图像的视差图,本文提出的这种方式使得网络有效探索了左右一致性,因为 G 不仅能生成训练数据还能预测深度
        • L = γ 1 ( L r e c + L r e c ′ ) + γ 2 ( L g a n + L g a n ′ ) + γ 3 ( L c o n + L c o n ′ ) \mathcal{L}=\gamma_1(\mathcal{L}_{rec}+\mathcal{L}_{rec}^{'})+\gamma_2(\mathcal{L}_{gan}+\mathcal{L}_{gan}^{'})+\gamma_3(\mathcal{L}_{con}+\mathcal{L}_{con}^{'}) L=γ1(Lrec+Lrec)+γ2(Lgan+Lgan)+γ3(Lcon+Lcon)
      • 渐进混合网络
        • early fusion: 直接再每个颜色通道上进行拼接;late fusion: 两个网络分别估计视差,然后进行混合
        • PFN:首先估计低分辨率的是插入,用于对齐图像特征。使用 encoder 网络作用到两张输入图像,得到两个特征图 ξ r ( 0 ) , ξ l ( 0 ) \xi_r^{(0)},\xi_l^{(0)} ξr(0),ξl(0)
        • 渐进地优化视差图,逐渐放大到更高分辨率(多尺度方法)。利用上一步得到的特征,首先估计低分辨率的视差图 ( d l ( 0 ) , d r ( 0 ) ) (d_l^{(0)},d_r^{(0)}) (dl(0),dr(0)),然后得到新的特征图 ξ ^ r ( 0 ) = f w ( d r ( 0 ) , ξ l ( 0 ) ⨁ d l ( 0 ) ) \hat \xi_r^{(0)}=f_w(d_r^{(0)},\xi_l^{(0)}\bigoplus d_l^{(0)}) ξ^r(0)=fw(dr(0),ξl(0)dl(0))
        • 不同分辨率利用重建 loss
        • L r e c ( i ) = ∥ I l ( i ) − f w ( d l ( i ) , I r ( i ) ) ∥ 1 + ∥ I r ( i ) − f w ( d r ( i ) , I l ( i ) ) ∥ 1 \mathcal{L}_{rec}^{(i)}=\|I_l^{(i)}-f_w(d_l^{(i)},I_r^{(i)})\|_1+\|I_r^{(i)}-f_w(d_r^{(i)},I_l^{(i)})\|_1 Lrec(i)=Il(i)fw(dl(i),Ir(i))1+Ir(i)fw(dr(i),Il(i))1
        • L r e c = ∑ i = 0 3 L r e c ( i ) \mathcal{L}_{rec}=\sum_{i=0}^3\mathcal{L}_{rec}^{(i)} Lrec=i=03Lrec(i)

你可能感兴趣的:(计算机视觉,论文笔记,深度学习)