深卷积神经领域对于单幅图像的深度估计
Fayao Liu1, Chunhua Shen1,2, Guosheng Lin1,2
1澳大利亚阿德莱德大学的
2澳大利亚机器人视觉中心
在这项工作中,我们考虑单幅单目图像的深度估计问题。这是一项艰巨的任务,由于没有合适的深度线索,例如:立体匹配,运动等。以前的工作一直专注于利用几何先验或用带有手工制作特征的额外信息来源。最近,有越来越多的证据表明,对于各种视觉应用,深度卷积神经网络(CNN)的特征创造了新的记录。另一方面,考虑深度值的连续特性,深度估计可以很自然地形成一个连续的条件随机场(CRF)学习问题。因此,在本文中,我们提出了一个深卷积神经领域的模型,用来估计单幅图像的深度,旨在共同探索深CNN和连续CRF的能力。具体而言,我们提出了一个深层结构的学习计划,学习连续CRF在统一深CNN框架中的一元和成对的势能。
所提出的方法可以用于一般场景的深度估计,这些场景没有几何先验或任何额外的信息。在这种情况下,分区函数的积分可以用解析的方法计算,因此我们可以精确地解决对数似然优化。此外,用MAP方法去预测一幅新图像的深度,是高效的封闭形式的解决方案。我们的实验表明,在室内和室外场景数据集中,该方法优于最先进的深度估计方法。
从通用场景中的单幅单目图像估计深度,是计算机视觉中的一个基本问题,在场景理解,3D建模,机器人等已经广泛应用。它一个臭名昭著的病态问题,因为捕捉到的图像可能对应于大量真实世界中的场景[ 1 ]。而对于人类来说,从单幅图像中推断基础的三维结构并不困难,它仍然是一个具有挑战性的任务对于计算机视觉算法,因为没有合适的线索可以用,如时间信息,立体匹配等。以前的工作主要集中在执行几何假设,例如,盒子模型,推断室内[ 2,3 ] 或室外[ 4 ]场景的空间布局。这些模型有先天的限制,只可用在特定的场景结构中,因此不适用于一般的场景深度估计。后来,非参数方法[ 5 ]被利用,其中包括候选图像检索,场景对齐,然后使用带有平滑度约束的优化进行深度推断。这是基于这样的假设,当密集对齐时,场景中语义相似的地方应该有相似的深度分布。然而,这种方法容易传播错误通过不同的分离阶段,并很大程度上依赖于建立一个合理尺度的图像数据库,以执行候选人检索。
近年来,一直努力结合附加的信息来源,例如,用户注释[ 6 ],语义标签[7,8]。在最近的工作[ 8 ],Ladicky 等人已经表明,联合进行深度估计和语义标签能互相受益。然而,他们需要提前手动注释图像的语义标签,这些ground-truth信息通常是不可用的。然而,所有这些方法使用手工制作的特征。
不同于先前的工作,我们建议制定深度估计作为连续深CRF学习问题,不依赖于任何几何先验或任何额外的信息。条件随机场(CRF)[ 9 ]是流行的图模型,用于结构化预测。虽然在分类(离散)领域广泛研究,CRF已经在回归(连续)问题上进行探索。连续的CRF的先锋作品可以归结为[ 10 ],在文献检索的全球排名中被提及。在一定的约束条件下,它们把求解最大似然优化作为配分函数,可以直接进行解析计算。此后,连续的CRF已应用于解决各种结构性的回归问题,如遥感[11,12],图像去噪[ 12 ]。由于所有这些成功,我们在这里提出把它用于深度估计,给出深度值的连续性,并在深卷积神经网络(CNN)学习势能函数。
最近几年见证了深卷积神经网络(CNN)的繁荣。CNN特征已经为各种各样的视觉应用创造了新的记录[ 13 ]。尽管所有分类问题的成功,深CNN对结构化学习问题的探索比较少,例如,联合CNN训练和图模型,这是一个相对较新的,并且没有很好的解决的问题。据我们所知,没有这样的模型已经成功地用于深度估计。我们在这里通过共同探索CNN和连续的CRF,弥补这一差距。
总之,我们强调这项工作的主要贡献如下:
l 我们提出了一个深卷积神经领域的模型用于深度估计,通过探索CNN和连续的CRF。给定深度值的连续性,在概率密度函数中的分区函数可以解析计算,因此,我们可以直接解决对数似然优化,而无需任何近似。梯度可以在反向传播训练中精确地计算。此外,解决MAP问题,预测新图像的深度是非常有效的,因为封闭形式的解决方案。
l 我们在一个统一的深CNN框架,联合学习CRF的一元和成对的势能,这是使用反向传播训练。
l 我们表明,在室内和室外的场景数据集中,该方法优于深度估计的最先进的结果。
之前的工作[ 7,14,15 ]通常制定深度估计为一个马尔可夫随机场(MRF)学习问题。由于精确的MRF学习和推理通常是不容易的,这些方法大多数使用近似方法,如多条件学习(MCL),粒子的置信传播(PBP)。预测一幅新图像的深度是低效的,需要4-5秒在[ 15 ],甚至更长(30秒)在[ 7 ]。更糟糕的是,这些方法缺乏灵活性,[14,15]依靠图像的水平对齐和[ 7 ]要求事先知道训练数据集的语义标签。最近,Liu等人[ 16 ]提出了一种离散CRF模型考虑相邻超像素的关系,例如,遮挡。他们还需要使用近似的方法来学习和MAP推理。此外,他们的方法依赖于图像检索去获得合理的初始化。相比之下,我们在这里提出了一个深的连续的CRF模型,我们可以直接解决对数似然优化,而无需任何近似,因为配分函数可以用解析的方法进行计算。预测一幅新图像的深度是非常有效的,因为封闭形式的解决方案存在。此外,我们的模型没有任何几何先验和任何额外的信息。
另一方面,以往的方法[ 5,7,8,15,16 ]全部使用手工制作的特点在他们的工作中,例如,纹理,GIST,SIFT,PHOG,object bank等,相反,我们学习CNN,构建CRF的一元和成对的势能。通过联合利用CNN和连续的CRF,对于室内和室外场景的深度估计,我们的方法优于国家最先进的方法。也许最相关的工作是[ 1 ],这是我们的最新工作。它们训练两个CNN,从单幅图像中预测深度图。然而,我们的方法和他们的有很大差异。它们通过用卷积从一幅输入图像直接回归深度图,把CNN作为一个黑盒子。相反,我们使用CRF明确相邻超像素的关系,并在一个统一的CNN框架下学习势能。[ 1 ]中方法的一个潜在的缺点是,它倾向于学习带有位置偏向的深度,这倾向于适应特定的布局。这部分解释了为什么他们必须收集大量的标记数据,以覆盖所有可能的布局来训练网络(他们使用深度传感器收集额外的训练图像),在[ 1 ]中这些数据是数以百万计的。相反,我们的方法有平移不变性,在一元势能中我们不编码超像素的位置,以及可以在标准数据集训练,无需使用额外的训练数据,而获得有竞争性的性能。此外,[ 1 ]中预测的深度图是原始输入图像1 / 4的分辨率,丢失了一些边界区域,而我们的方法没有这个局限性。
在[ 17 ]的最新工作,Tompson等人提出了一个混合结构,联合训练一个深CNN和MRF用于人体姿态估计。他们首先分别训练一元项和空间模型,然后联合学习它们作为一个微调步骤。在整个模型的细化过程中,他们简单的删除似然函数中的一个配分函数,得到一个松散的近似。相比之下,我们的模型进行连续的变量预测。我们可以直接解决对数似然优化,而不使用近似的方法,由于配分函数是可积的,可以解析计算。此外,在预测过程中,MAP推理具有闭式的解。
在这一节,我们提出了详细的深度估计的深卷积神经模型。除非另有说明,我们用粗体大写字母和小写字母分别表示矩阵和列向量。
图1:深度估计的深度卷积神经场模型的说明。输入图像首先被分割成超像素。在一元部分,对于一个超像素P,把其质心作为图像块的中心,然后放入由5个卷积和4全连接层组成的CNN(详见图2)。在二元部分,对一个相邻超像素对(p,q),我们考虑相似的K中类型,把它们放入一个全连接层。一元部分和二元部分的输出送入CRF结构的损失层,最小化负对数似然函数。预测一幅新图像X的深度是最大化条件概率,具有封闭形式的解(详见3.3节)。
这里的目标是推断一般场景中单幅图像的每个像素的深度。继[ 7,15,16 ]的工作之后,我们假设一幅图像是由小的同质区域(超像素)组成,考虑到图模型是由结点组成,超像素可以表示图中的结点。我们的框架是灵活的,可以在超像素或像素上工作。每个超像素通过其质心的深度刻画。设X是一幅图像,是一个连续深度值的矢量,对应于图像X中的所有n个超像素。类似于传统的CRF模型,我们用数据的条件概率分布模型,如下面的密度函数:
其中E是势能函数,Z是配分函数,被定义为:
这里,因为Y是连续的,式(A.1)中的积分在某些情况下可以用解析的方法计算,我们将在3.3节展示。这不同于需要用近似方法的离散情况。为了预测一幅新图像的深度,我们需要解决最大后验概率(MAP)的推理问题:
我们制定能量函数作为在结点(超像素)N的一元势能U和在图像X边缘的成对势能V的典型组合:
一元项U的目的在于回归单个超像素的深度值。成对项V鼓励有相似外观的邻近超像素采取相似的深度。我们的目标是在一个统一的CNN框架中,共同学习U和V。
图2:图1中一元部分的详细网络结构。
在图1中,我们展示了一个深度估计的深卷积神经网络模型的草图。我们可以看到,整个网络由一元部分,成对部分和CRF损失层组成。对于一个输入图像,过分割成N个超像素,我们考虑图像块的中心围绕每个超像素的质心。一元部分将所有图像块作为输入,把它们放到每一个CNN,输出一个包括n个超像素回归深度值的n维向量。一元部分的网络由5个卷积和4全连接层组成,如图2所示。请注意,CNN的参数被所有的超像素共享。成对部分把所有邻近超像素对的相似向量(每个包括k个组件)作为输入,把它们放在全连接层(参数被不同的超像素对共享),然后输出包含一维相似性的向量,对于每一个邻近的超像素双。从一元和成对部分输出的CRF损耗层作为输入,最小化负对数似然函数。相比于[ 1 ]中的直接回归方法,我们的模型有两个潜在的优点:1)实现平移不变性,因为我们构建一元势能不考虑超像素的坐标(在3.2节显示);2)成对势能由邻近超像素的关系组成。
在下文中,我们详细描述了公式(4)中能量函数的势函数。
一元势能 一元势能由CNN的输出结合最小二乘损失构成:
其中,是超像素P的回归深度,由CNN参数参数化。
一元部分的网络结构如图2所示。图2中的CNN模型主要是基于krizhevsky[ 18 ]等带有修正的著名的网络体系结构。它由5个卷积层和4个完全连接层组成。输入图像首先被分割成超像素,然后,对于每个超像素,我们考虑图像块的中心为其质心。每个图像块的大小为224224像素,然后送入卷积神经网络。卷积和全连接层被不同超像素的图像块共享。ReLU作为五个卷积层和前两个全连接层的激活函数。对于第三个全连接层,我们使用逻辑斯特函数()作为激活函数。最后一个全连接层没有激活函数,在整个模型中起重要作用。输出是单个超像素的一个一维的实值深度。
成对势能 我们从相似观察值的K个类型构造成对势能,它们中的每一个执行平滑利用邻近超像素的一致性信息:
这里,是二元部分网络框架的输出(见图1),从邻近超像素(p,q)。这里我们用一个全连接层:
是第k个相似矩阵,它的元素是(是对称的);是网络参数。从等式(A.4),我们可以看到我们没有用任何激活函数。然而,由于我们的框架是通用的,更复杂的网络可以无缝地结合成对的部分。在3.3节,我们可以得到关于带有的梯度计算的一般形式(见式(A.14))。为了保证(方程(A.3))是可积的,我们需要[ 10 ]。
我们考虑成对相似性的3种类型,通过颜色差异,颜色直方图差异和局部二进制模式(LBP)[19]的纹理差距来衡量,卷积形式为:,k=1,2,3,其中,是超像素p,q的观察值,从颜色,颜色直方图和LBP计算得到;是向量的范数,是常数。
由等式(5),(6)定义的一元和二元势能,我们可以得到势能函数如下:
为了便于表达,我们引入了以下符号:
I是的特征矩阵;R是由组成的矩阵;D是对角矩阵,其中。
扩展等式(A.2),我们有:
在公式(A.5)的势能函数中,由于y的二次项和正定的A,我们可以用解析的方法计算配分函数的积分(方程(A.3))为:
从等式(A.1),(A.5),(A.11),我们可以把概率分布函数写为(见详细的补充):
其中;|A|是矩阵A的行列式,是矩阵A的逆。负对数似然函数写为:
在学习过程中,我们最小化训练数据的负的条件似然函数。加入正规化项,,我们得到最后的优化:
,表示第i个训练图像和它对应的深度图;N是训练图像的数量;和是权重衰减参数。我们使用基于反向传播的随机梯度下降(SGD)解决方程(A.10)的优化问题,为了学习整个网络的所有参数。我们为了求解该问题,设置边界约束。在下面,我们计算的偏导数,网络参数为(中的一个元素)和(中的一个元素)利用链式法则(参考补充细节):
指矩阵的迹;J是一个nn的矩阵,其元素为:
是指示函数,当p=q时,为1,否则为0。从式(A.13),我们可以看到,我们的框架是通用的,更复杂的网络对于成对部分可以无缝地整合。在我们的例子中,根据式(A.4)中定义的,我们有。
深度预测 预测一幅新图像的深度是解决方程(3)中的后验推理,这里存在闭式解(详见补充):
如果我们抛弃二元项,即,则式(18)退化为,这是一个传统的回归模型(在实验中,我们将这种方法的结果作为一个基准)。
我们基于高效的CNN工具箱实现了网络的训练:VLFeat MatConvNet1 [ 20 ]。训练在一个标准的桌面做,带有NVIDIA GTX 780 GPU和 6GB内存。每个SGD迭代过程中,约700个超像素图像块需要处理。6GB的GPU可能无法在同一时间处理所有图像块。因此我们把一幅图像的超像素图像块分成两部分,就可以成功的处理。当训练整个网络的时候,处理一幅大约有700个超像素的图像大约需要10s(包括正向和反向)。
在实施过程中,我们使用从[ 21 ] ImageNet中训练的CNN模型,初始化图2中一元部分的前6层。首先,我们不通过固定前6层进行反向传播和训练网络的其余部分(我们称这个过程为预训练),有以下设置:动量被设置为0.9,权重衰减参数设置为0.0005。在预训练过程中,学习速率初始化为0.0001,每20期减少40%。然后我们执行60期报告预训练结果(学习速率下降两倍)。预训练相当有效,在Make3D数据集中花费大约1小时去训练,推断一幅新图像的深度不超过0.1s。然后我们训练整个网络具有相同的动量和权重衰减。在图2中前两个全连接层,我们把比率设为0.5。在Make3D数据集中,训练整个网络大约需要16.5小时,在NYU v2 数据集大约需要33个小时。预测一幅新图像的深度需要1.1s。
表2:在NYU v2数据集中基线的比较。我们的整个网络的方法的训练性能最好。
表3:Make3D数据集中的基线比较。我们的整个网络的方法的训练性能最好。
我们评估了两个常用的可在线的数据集:NYU v2 Kinect数据集 [22] 和Make3D数据集 [15]。在以前的工作中常用的几种措施,用于定量评价:
l 平均相对误差(rel):
l 均方根误差(rms):
l 平均log10误差(log10):
l 带有阈值thr的精度:
其中和分别为像素p的ground-truth和预测的深度,T是所有评价图像的像素的总数量。
我们使用SLIC [ 23 ]把图像分割成一组非重叠的超像素。对于每个超像素,我们认为图像中矩形框的中心是超像素的质心,包括其背景环境的很大一部分。更具体地说,在NYU v2数据集中,我们使用了一个168168像素大小的盒子,在Make3D数据集中使用了120120像素的。对于[1,7,15],在训练前,我们将深度转为对数尺度。至于基线比较,我们考虑以下设置:
l SVR:我们使用图2中CNN的前6层训练支持向量回归;
l SVR(平滑):在预测时,通过求解方程(18)的推理问题,对训练的SVR添加一个平滑项。由于调整多个成对的参数是不容易的,我们只使用颜色差作为成对的势能,并通过在验证数据集上手动细化,选择参数;
l 只有一元:我们用最小二乘回归层更换图1中的CRF损失层(通过设置成对输出,p,q=1,…,n),退化到用SGD方法训练的深回归模型。
NYU v2数据集包括1449幅室内场景的RGBD图像,其中795幅用于训练,654幅用于测试(我们使用标准的训练/测试把数据集拆分)。跟随[16],在训练前,我们调整图像为561427像素。
对我们的模型进行了详细的分析,我们首先和三个基线方法比较,报告的结果如2所示。从表格中得出的几个结论:1)当训练只有一元项,更深层次的网络有利于更好的性能,这被我们的只有一元项的模型优于SVR模型这样的事实证明;2)对SVR添加平滑项,或只有一元项的模型有助于提高预测精度;3)我们的方法达到最佳性能,通过在一个统一的深CNN框架联合学习一元和二元的参数。此外,微调整个网络性能进一步提高。这些很好地证明了我们模型的有效性。
在表1中,我们把我们的模型与几个流行的最先进的方法比较。可以观察到,我们的方法优于经典的方法,例如Make3d [15],DepthTransfer [5]。最值得注意的是,我们的研究结果显著优于[ 8 ],[ 8 ]共同利用深度估计和语义标签。与最近的工作Eigen等人的 [ 1 ]相比,我们的方法通常是在标准杆上进行的。就均方根误差(rms)而言,我们方法的结果更好。请注意,为了克服过拟合,他们[ 1 ]必须收集数以百万计的带有附加标签的图像训练他们的模型。一个可能的原因是,他们的方法捕捉到绝对像素的位置信息,他们可能需要一个非常大的训练集覆盖所有可能的像素布局。相比之下,我们只使用没有任何额外数据的标准训练集(795),但我们获得相媲美,甚至更好的性能。图3说明了我们的方法和Eigen et al. [1]相比的定性评价。(我们从作者网站上下载[ 1 ]的预测。)。与[ 1 ]的预测相比,在尖锐的转变、调整局部细节的情况下,我们的方法视觉效果更好。
图3:NYUD2数据集中实例的定性比较(最好在屏幕上查看)。在尖锐的转变、调整局部细节的情况下,我们的方法视觉效果更好。
表1:在NYU v2数据集中比较结果, Eigen etal.[1]的结果是通过使用额外的训练数据(总计数百万的)得到的,我们的方法使用了标准的训练数据。
Make3D数据集包含描绘室外场景的534幅图像。 如[15,16]中指出,这些数据集是有限制的:深度最大值为81m,远处的物体都映射到81米处。作为补救,[ 16 ]中使用两个标准预测误差:(C1)误差只在ground-truth深度小于70米的区域计算;(C2)误差在整个图像计算。我们遵循这个协议来报告评价结果。
同样,我们在表3首先呈现与基准的比较,从中可以得出和在NYU v2数据集中类似的结论。然后,在表4中,我们展示了和几个最先进方法相比的详细结果。可以观察到,我们含有整个网络方法的训练在整体性能上位居第一,远远优于所比较的方法。请注意,[ 16 ] 中报告的C2误差有一个特设的后处理步骤,训练分类器标记天空像素,设置对应的区域最大化深度。相反,我们不采用任何这些启发式方法改进我们的结果,但我们就相对误差而言取得了更好的结果。定性评价的一些例子如图4所示。它表明,我们的模型只有一元项的时候,相当于带有模糊边界的粗糙预测。通过加入平滑项,我们的模型产生了更好的可视化,接近ground-truth。
表4:Make3D数据集中结果的比较。我们的方法性能最好。请注意,连续和离散CRF[ 16 ]的C2误差有一个特别的处理步骤(训练分类器时标记天空像素和设置相应区域的最大深度)。
图4:Make3D数据集中深度预测的例子(最好在屏幕上查看)。一元模型给出粗糙的预测、模糊的边界和片段。相比之下,二元模型的平滑性更好。
我们提出了一种对单幅图像进行深度估计的深卷积神经网络模型。所提出的方法结合了深CNN的优点和在统一CNN框架下的连续CRF。我们表明,我们方法中的对数似然优化,可以直接用反向传播解决,而没有任何近似。由于闭式解的存在,通过求解MAP推理来预测一幅新图像的深度更有效。鉴于我们方法的通用学习框架,它也可以应用于其他视觉应用,例如,图像去噪。实验结果表明,在室内和室外的场景数据集,该方法优于最先进的方法。
A. 深卷积神经场
在本附录中,我们对提出的深卷积场模型展示了一些技术详情。
是一个连续深度值的矢量,对应于图像X中的所有n个超像素。类似于传统的CRF模型,我们用数据的条件概率分布模型,如下面的密度函数:
其中E是势能函数,Z是配分函数,分别被定义为:
其中,
其中z是回归深度,为其参数(即z是z()的缩写),是二元参数,是第k个相似矩阵(踏实对称的),K是二元项的个数。为了保证Z(x)(方程(A.3))是可积的,要求。我们的目标是共同学习和。
通过扩展式(A.2),我们得到:
其中:
这里,I是的特征矩阵;D是对角矩阵,。由于,A是正定的(A是对称的,带有正对角项的严格对角占优矩阵)。然后,我们可以根据高斯积分公式计算二元函数:
其中,|A|是矩阵A的行列式,是矩阵A的逆。由等式 (A.1),(A.5),(A.7),我们可以把概率密度函数写为:
根据式(A.8),我们可以重写负对数似然函数为:
在学习中,我们最小化训练数据的负条件对数似然函数。加入正规化项,,我们得到最后的优化:
,表示第i个训练图像和它对应的深度图;N是训练图像的数量;和是权重衰减参数。
对于一元部分,我们计算的偏导数,网络参数为(一元部分中网络参数中的一个元素)。回忆
我们得到:
下一步,对于二元部分,我们计算对的偏导数:
这里我们介绍矩阵J表示为,J中的每个元素是:
是指示函数,当p=q时,为1,否则为0。从式(A.12),(A.13),我们可以看到,我们的框架是通用的,因此更复杂的网络对于二元部分可以无缝地整合。在我们的例子中,根据式(A.4)中定义的,我们有。
根据式(A.12)和(A.13)中定义的J,我们现在可以把对参数的偏导数写为:
深度预测 预测一幅新图像的深度是解决MAP推理。因为方程(A.9)中y的二次型,存在封闭形式的解(详见补充):
在(A.6)中A的定义,A是对称的。然后通过设置的偏导数,并令它等于0(0是一个n1的列向量,其中所有的元素都为0),我们有
现在我们可以写出(A.15)公式的MAP推理结果为:
B. 实验
为了说明超像素的数量怎样影响我们模型的性能,我们添加一个实验去评价均方根(RMS)误差和预处理模型的训练时间,在Make3D数据集中,通过使每幅图像超像素数目不同。图5显示结果,我们可以看到,增加每幅图像超像素的数量,均方根误差进一步减小,但以更多的训练时间为代价。在本文中所有其他的实验,每幅图像使用700个超像素,因此增加超像素的话,我们可以得到更好的结果。
图5:左:均方根(C2 rms)误差与Make3D数据集中变化的超像素的数量。右:训练时间与Make3D数据集中每幅图像的不同超像素的数量。显然,增加每幅图像超像素的数量,我们可以进一步改善结果,但需要更多的训练时间。
参考文献
[1] D. Eigen, C.Puhrsch, and R. Fergus, “Depth map prediction from a single image using amulti-scale deep network,” in Proc. Adv.Neural Inf. Process. Syst., 2014.
[2] V. Hedau, D.Hoiem, and D. A. Forsyth, “Thinking inside the box: Using appearance models andcontext based on room geometry,” in Proc. Eur. Conf. Comp. Vis., 2010.
[3] D. C. Lee, A.Gupta, M. Hebert, and T. Kanade, “Estimating spatial layout of rooms usingvolumetric reasoning about objects and surfaces,” in Proc. Adv. Neural Inf. Process.Syst., 2010.
[4] A. Gupta, A.A. Efros, and M. Hebert, “Blocks world revisited: Image understanding usingqualitative geometry and mechanics,” in Proc. Eur. Conf. Comp. Vis., 2010.
[5] K. Karsch, C.Liu, and S. B. Kang, “Depthtransfer: Depth extraction from video usingnon-parametric sampling,” IEEE Trans. Pattern Anal. Mach. Intell., 2014.
[6] B. C. Russelland A. Torralba, “Building a database of 3d scenes from user annotations,” in Proc. IEEE Conf. Comp. Vis. Patt.Recogn., 2009.
[7] B. Liu, S.Gould, and D. Koller, “Single image depth estimation from predicted semanticlabels,” in Proc. IEEE Conf. Comp. Vis.Patt. Recogn., 2010.
[8] L. Ladick, J.Shi, and M. Pollefeys, “Pulling things out of perspective,” in Proc. IEEE Conf. Comp. Vis. Patt.Recogn., 2014.
[9] J. D.Lafferty, A. McCallum, and F. C. N. Pereira, “Conditional random fields:Probabilistic models for segmenting and labeling sequence data,” in Proc. Int. Conf. Mach. Learn., 2001.
[10] T. Qin,T.-Y. Liu, X.-D. Zhang, D.-S. Wang, and H. Li, “Global ranking using continuousconditional random fields,” in Proc. Adv. Neural Inf. Process. Syst., 2008.
[11] V.Radosavljevic, S. Vucetic, and Z. Obradovic, “Continuous conditional randomfields for regression in remote sensing,” in Proc. Eur. Conf. ArtificialIntell., 2010.
[12] K.Ristovski, V. Radosavljevic, S. Vucetic, and Z. Obradovic, “Continuousconditional random fields for efficient regression in large fully connectedgraphs,” in Proc. National Conf. Artificial Intell., 2013.
[13] A. SharifRazavian, H. Azizpour, J. Sullivan, and S. Carlsson, “CNN featuresoff-the-shelf: An astounding baseline for recognition,” in Workshops IEEE Conf. Comp. Vis.Patt. Recogn., June 2014.
[14] A. Saxena,S. H. Chung, and A. Y. Ng, “Learning depth from single monocular images,” in Proc. Adv. Neural Inf. Process.Syst., 2005.
[15] A. Saxena,M. Sun, and A. Y. Ng, “Make3D: Learning 3d scene structure from a single stillimage,” IEEE Trans. Pattern Anal. Mach. Intell., 2009.
[16] M. Liu, M.Salzmann, and X. He, “Discrete-continuous depth estimation from a singleimage,” in Proc. IEEE Conf. Comp. Vis. Patt. Recogn., 2014.
[17] J. Tompson,A. Jain, Y. LeCun, and C. Bregler, “Joint training of a convolutional networkand a graphical model for human pose estimation,” in Proc. Adv. Neural Inf. Process.Syst., 2014.
[18] A.Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deepconvolutional neural networks,” in Proc. Adv. Neural Inf. Process. Syst., 2012.
[19] T. Ojala, M.Pietikainen, and D. Harwood, “Performance evaluation of texture measures with classificationbased on kullback discrimination of distributions,” in Proc. Int. Conf. PatternRecognition, 1994.
[20] A. Vedaldi,“MatConvNet,” http://www.vlfeat.org/matconvnet/, 2013.
[21] K.Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman, “Return of the devil inthe details: Delving deep into convolutional nets,” in Proc. British Mach. Vision Conf., 2014.
[22] P. K. NathanSilberman, Derek Hoiem and R. Fergus, “Indoor segmentation and supportinference from rgbd images,” in Proc. Eur. Conf. Comp. Vis., 2012.
[23] R. Achanta,A. Shaji, K. Smith, A. Lucchi, P. Fua, and S. S¨usstrunk, “SLIC superpixelscompared to state-of-the-art superpixel methods,” IEEE Trans. Pattern Anal. Mach.Intell., 2012.