笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and

基本信息

题目:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and Motion Segmentation
发表信息:CVPR 2019
作者:Anurag Ranjan, Varun Jampani,Michael J. Black
学校/研究机构: max planck institute for intelligent systems,NVIDIA, MIT
关键字:Unsupervised, Single View Deptsynthetich, Camera Motion, Optical Flow, Motion Segmentation
文章/代码地址:https://github.com/anuragranj/cc

简介

CVPR2019的文章,Competitive Collaboration:利用四个子网络完成4个子任务,网络训练模式类似于EM算法,固定某几个训练其他,再固定其他训练某几个。进行单张图片的深度估计,相机的运动估计,光流估计(包括对场景中的背景、运动物体的光流),图像中静态区域和动态区域的分割。

论文中表明的结果显示其比有监督的方法的估计误差更小,且在位姿估计中,在Kitti 09和10上的估计误差小于带回环检测的ORB_SLAM2。

  • 深度估计

笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第1张图片

  • 位姿估计
    笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第2张图片
  • 光流估计
    笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第3张图片
  • 运动分割
    笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第4张图片

论文思路

  • 对于深度估计,一般采用有监督和无监督,有监督的方法依赖于真实真值数据,而真值数据的采集比较受限且不一定非常准确(如RGB-D相机受反射和透明材质的影响);对于光流估计,如果采用有监督的方式,由于没有传感器能提供光流数据,一般数据集中的光流真值都是近似的;而对于图像中运动的分割,若想获得真值则需要大量的人力进行标注。

  • 而无监督的学习方式,从像素到光流/深度/姿态的无监督学习是非常具有挑战的,于是有研究提出可以加入额外的约束或者利用静态场景和相机位姿及光流的关系,eg.Sfm-learner联合了相机姿态和深度估计,并用了explainability mask来标明图像中非静态物体,Yin et al(CVPR 2018)结合光流的前后向wrap一致性解释上述非静态物体。但是这些方法在深度和光流估计上表现poorly,作者认为原因是这些网络的加入的对场景中动态物体的描述是非显示的,没有将静态和独立运动的物体分隔开,导致训练集中的数据不是全都满足训练条件的,如深度和运动估计不应该包含独立运动物体、光流估计的数据中不应该包含遮挡(对应用光度一致性有影响)。

  • 深度和相机位姿作用于静态部分,光流作用于所有部分,运动分割可以将场景分成静止和运动区域,由于这些问题都与场景的运动和几何结构有关,因此将他们联合起来进行估计应该能提升估计效果。

  • 作者提出Competitive Collaboration,采用了类似EM算法的方法,下面将每个网络称为player game。
    笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第5张图片

  • 如图,包含三个player game:2 competitors,a moderator。左为静止场景重建,R(D,C),D代表深度,C代表相机姿态,用D和C推断静止场景像素;右上为运动区域光流估计,F用来推断独立的运动区域;这两个players通过推断图像序列中的静止场景和运动区域像素来竞争训练图像中的像素。右下为运动分割网络,M,该网络负责调和上述竞争关系,将图像分割成静止和运动区域,并将训练图像中的像素分发至上述两个players。

笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第6张图片

  • 三者关系类似于EM算法,首先固定M,用m的输出训练R和F,然后固定R,F,对比其与M的输出训练M。

  • 共四个子网络,深度 DispNet(T. Zhou, M. Brown, N. Snavely, and D. G. Lowe. Unsupervised
    learning of depth and ego-motion from video. In CVPR, 2017),DispResNet(ResNet结构),
    光流 FlowNetC(A. Dosovitskiy, P. Fischer, E. Ilg, P. Hausser, C. Hazirbas,
    V. Golkov, P. van der Smagt, D. Cremers, and T. Brox.
    Flownet: Learning optical flow with convolutional networks.
    In ICCV 2015.),PWC_Net(J. Janai, F. Güney, A. Ranjan, M. Black, and A. Geiger. Unsupervised
    learning of multi-frame optical flow with occlusions.
    In ECCV, 2018),
    位姿 PoseNet?,没有明说
    Mask:encoder-decoder,包含一系列残差卷积模块和残差反卷积

笔记:Competitive Collaboration: Joint Unsupervised Learning of Depth, Camera Motion, Optical Flow and_第7张图片

总结

  • 同时训练4个子问题能得到很好的协同效果,是第一个利用低层信息如深度/光流/姿态来解决分割问题的无监督方法,并且在这些问题上与其他无监督方法比较达到了top performance。
  • 若加入语义分割的话,可能比单纯的分割像素点能提高对于非刚性物体的分割效果
  • 如果加入少量的有监督训练,可能还能提高效果
  • 使用了静止和运动这样的图层分割模式,可以用于自动驾驶的一般场景/无人机(但是实时性怎么保证?)
  • 作者提供了代码,有一些预训练的模型,但仍需自己训练调整,有空试试效果。Flag。

你可能感兴趣的:(论文记录)