Deep Convolutional Neural Fields for Depth Estimation from a Single Image

主要贡献:

  • 通过探索CNN和连续CRF,提出了深度卷积神经场模型用于深度估计。考虑到深度值的连续性质,可以解析计算概率密度函数中的分区函数,因此我们可以直接求解对数似然优化而无需任何近似。可以在反向传播训练中精确计算梯度。而且,由于存在封闭形式的解决方案,解决用于预测新图像深度的MAP问题是非常有效的。
  • 在一个深度CNN框架中共同学习CRF的一元势函数和二元势函数,并使用反向传播对其进行了训练。
  • 所提出的方法在室内和室外场景数据集上都优于深度估计的最新结果。

overview

  • 使用x表示一幅图像, \small y = [y_1, . . . , y_n]^T表示图像x中所有的n个超像素所对应的连续深度值的一个vector。
  • 数据的条件概率分布模型

      (Z(x):partition function,这里除以Z(x)相当于做归一化)

  • E是势函数,看成是在结点(超像素)N的一元势能U和在图像X边的成对势能V的组合

       

       :结点(超像素):边 

       unary term U:回归单个超像素的深度值

       pair-wise term V:鼓励有相似外观的邻近超像素采取相似的深度

       在一个统一的CNN框架中,共同学习U和V

  • 预测新的图片的深度:找概率最大的深度值

       

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第1张图片

  • 整个网络由unary part,pairwise part和CRF损失层组成
  • 首先将一个输入图像,分割成N个超像素
  1. unary part : 将所有image patches resize为224×224 pixels后作为输入,放到每一个CNN中,输出一个包括n个超像素回归深度值的n维向量。CNN的参数被所有的超像素共享Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第2张图片
  2. pair wise part : 把所有邻近超像素对的相似向量作为输入,通过全连接层(参数被不同的超像素对共享),输出由所有相邻超像素对的相似性(一维)组成的向量。
  3. CRF损失:从unary part和pair wise part输出值作为CRF损耗层的输入来最小化负对数似然函数。

        1) 实现平移不变性(没有用到超像素的坐标)2)考虑相邻超像素的关系

Potential functions

Unary potential

最小平方损失:

\small z_{p}:带入CNN参数θ后预测的超像素p的回归深度

激活函数:ReLU:5个卷积层和前2个全连接层

                  sigmoid:第三个全连接层

                (最后一个全连接层之后没有激活函数)

Pairwise potential

  • 从K种相似性观察构造pairwise势函数,利用邻近超像素的一致性信息来获得平滑性
  • \small R_{pq}:给定相邻超像素对(p,q) 的pairwise part的输出(两个相邻超像素的相似度)
  • 使用全连接层:Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第3张图片

       \small S^{(k)}:第k个相似性矩阵,元素为\small S_{pq}^{(k)}

       \small \beta = [\beta _1,...,,\beta _k] ^T:网络参数,\small \beta _k\geq 0(使得z可积)

       没有使用激活函数

  • 3种pairwise相似性:颜色差异,颜色直方图差异,局部二进制模式(LBP)的纹理差距

learning

——精确计算反向传播的梯度

——得到对一张新的图片x的深度预测值(是解析解)

  • 势函数:

      

       令A = I + D − R

       其中 I:n*n单位阵 R:\small R_{pq}组成的矩阵 D:对角矩阵\small D_{pp} = \sum_{q}{R_{pq}}

  • 带入势函数得到

注:Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第4张图片

        ​​​​

 注:

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第5张图片

        

 注:

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第6张图片

        

  •  给定x,希望找到y使得 Pr(y|x) 尽可能大,即希望-log Pr(y|x) 尽可能小,加入正则化系数\small \theta\small \beta,得到最终要优化的函数目标:
  • 使用随机梯度下降
  • 链式法则求偏导:(\small \theta中,\small \betaA中)——用于反向传播更新参数Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第7张图片

注:

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第8张图片

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第9张图片

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第10张图片

  • 因此,对一张新的图片x,预测的深度y*为:

       

Implementation details

基于高效的CNN工具箱VLFeat MatConvNet1实现网络的训练。6GB的GPU可能无法在同一时间处理所有图像块,因此我们把一幅图像的超像素图像块分成两部分。在实施过程中,我们使用从 ImageNet中训练的CNN模型,初始化图2中一元部分的前6层。首先,我们通过固定前6层的参数,即不对前6层的参数进行反向传播,来训练网络的其余部分,然后我们执行60 epoches报告预训练结果(学习速率下降两倍),然后我们使用相同的动量和权重衰减训练整个网络。

Experiments

  • 数据集:NYU v2 Kinect dataset、Make3D range image dataset
  • 定量评价指标:

        average relative error (rel):  

        root mean squared error (rms):Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第11张图片

        average \small log_{10} error (log10): 

        accuracy with threshold thr: percentage (%) of \small d_p s.t.: 

         \small d_p^{gt}:像素p的ground truth        \small d_p:像素p的预测深度

NYU v2: Indoor scene reconstruction

结论:

 1) 只用unary term时(令\small R_{pq}=0), 因为our unary only model比SVR model表现更好,因此得 到结论:更深层的网络效果更好

2) 对SVR或者our unary only model添加平滑项帮助提高预测准确性

3) 在一个统一的CNN框架中统一学习unary 和 pairwise 的参数效果更好。对整个网络进行 fine-tuning得到的效果更好

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第12张图片

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第13张图片 Make3D: Outdoor scene reconstruction

Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第14张图片

 Deep Convolutional Neural Fields for Depth Estimation from a Single Image_第15张图片

 

 

你可能感兴趣的:(计算机视觉,深度学习,人工智能)