3D ShapeNets: A Deep Representation for Volumetric Shapes翻译

3D ShapeNets:体积形状的深度表示

摘要

  在当今的计算机视觉系统中,3D 形状是一个关键但未充分利用的线索,主要是由于缺乏良好的通用形状表示。随着最近廉价 2.5D 深度传感器(例如 Microsoft Kinect)的出现,在循环中拥有强大的 3D 形状表示变得越来越重要。除了类别识别,从基于视图的 2.5D 深度图中恢复完整的 3D 形状也是视觉理解的关键部分。为此,我们建议使用卷积深度信念网络将几何 3D 形状表示为 3D 体素网格上二元变量的概率分布。我们的模型 3D ShapeNets 从原始 CAD 数据中学习复杂的 3D 形状在不同对象类别和任意姿势中的分布,并自动发现分层组成部分表示。它自然支持 2.5D 深度图的联合对象识别和形状补全,并通过视图规划实现主动对象识别。为了训练我们的 3D 深度学习模型,我们构建了 ModelNet——一个大规模的 3D CAD 模型数据集。大量实验表明,我们的 3D 深度表示可以在各种任务中显着提高性能。

1. 介绍

  自从五年前计算机视觉作为一个领域建立以来,3D 几何形状一直被认为是对象识别中最重要的线索之一。尽管有许多关于 3D 表示的理论(例如 [5, 22]),基于 3D 的方法的成功在很大程度上仅限于实例识别(例如,基于模型的关键点匹配最近邻 [24, 31])。对于对象类别识别,3D 形状未用于任何最先进的识别方法(例如 [11, 19]),主要是由于缺乏 3D 几何形状的良好通用表示。此外,最近出现了廉价的 2.5D 深度传感器,例如 Microsoft Kinect、Intel RealSense、Google Project Tango 和 Apple PrimeSense,重新引起了人们对从深度图(例如滑动形状 [30])进行 2.5D 对象识别的兴趣。 )。由于这些传感器的深度非常可靠,因此 3D 形状可以在识别管道中发挥更重要的作用。因此,在现代计算机视觉系统中拥有强大的 3D 形状表示变得越来越重要。

  除了类别识别之外,另一个自然而具有挑战性的识别任务是形状完成。给定一个物体的 2.5D 深度图,它背后可能有哪些 3D 结构?例如,人类不需要看到桌子的腿就知道它们在那里,以及它们在可见表面后面可能是什么样子。同样,即使我们可以从侧面看到一个咖啡杯,但我们知道它的中间是空的,侧面有一个把手。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第1张图片

图 1:3D ShapeNet 的用法。给定对象的深度图,我们将其转换为体积表示并识别观察到的表面、自由空间和遮挡空间。 3D ShapeNets 可以识别对象类别,完成完整的 3D 形状,并在初始识别不确定的情况下预测下一个最佳视图。最后,3D ShapeNets 可以集成新视图以与所有视图共同识别对象。

  在本文中,我们研究了对象类别识别和形状补全的通用形状表示。虽然在形状合成 [7, 17] 和恢复 [27] 方面取得了重大进展,但它们大多仅限于基于零件的装​​配,并且严重依赖于昂贵的零件注释。我们需要一种数据驱动的方式来学习复杂的形状分布,而不是按部件手动编码形状,从跨对象类别和姿势的原始 3D 数据中学习复杂的形状分布,并自动发现分层的组合部件表示。如图 1 所示,这将使我们能够从深度图中推断出完整的 3D 体积,而无需了解对象类别和先验姿势。除了联合幻觉缺失结构和预测类别的能力之外,我们还希望计算潜在的信息增益以识别缺失部分。当来自第一个视图的类别识别不够自信时,这将允许主动识别系统选择最佳的后续视图进行观察。

  为此,我们提出 3D ShapeNets 将几何 3D 形状表示为 3D 体素网格上二元变量的概率分布。我们的模型使用强大的卷积深度信念网络(图 2)以数据驱动的方式学习所有 3D 体素的复杂联合分布。为了训练这个 3D 深度学习模型,我们构建了 ModelNet,这是一个 3D 计算机图形 CAD 模型的大型对象数据集。我们通过从模型中抽取样本来展示我们的模型在捕捉复杂对象形状方面的优势。我们展示了我们的模型可以识别单视图 2.5D 深度图像中的对象并幻觉深度图的缺失部分。大量实验表明,我们的模型还可以很好地推广到来自纽约大学深度数据集 [23] 的真实世界数据,在单视图 2.5D 对象识别方面明显优于现有方法。并且它对于主动对象识别的视图规划中的次佳视图预测是有效的 [25]。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第2张图片

2. 相关工作

  在分析 3D CAD 模型集合方面进行了大量富有洞察力的研究。大多数作品 [12, 7, 17] 使用基于装配的方法来构建基于可变形零件的模型。这些方法仅限于具有微小变化的特定类型的形状,表面对应是此类方法中的关键问题之一。由于我们对具有较大变化的各种对象的形状感兴趣,并且零件注释既乏味又昂贵,因此基于装配的建模可能相当麻烦。对于损坏的扫描输入的表面重建,大多数相关工作[26,3]主要基于平滑插值或外插。这些方法只能解决小的缺失漏洞或缺陷。基于模板的方法 [27] 能够处理大空间损坏,但主要受到可用模板质量的限制,并且通常不提供重建的不同语义解释。

  深度学习模型的强大生成能力使研究人员能够为 2D 形状构建深度生成模型:最值得注意的是 DBN [15] 生成手写数字和 ShapeBM [10] 生成马等。这些模型能够有效地捕获内部-类变化。我们也希望这种形状重建的生成能力,但我们专注于更复杂的 3D 现实世界对象形状。对于 2.5D 深度学习,[29] 和 [13] 构建判别卷积神经网络来对图像和深度图进行建模。虽然他们的算法应用于深度图,但他们使用深度作为额外的 2D 通道,并且他们没有在全 3D 中建模。与 [29] 不同,我们的模型学习体素网格上的形状分布。据我们所知,我们是第一个构建 3D 深度学习模型的工作。为了处理高分辨率体素的维度,受 [21]1 的启发,我们在我们的模型中应用了相同的卷积技术。

  与单个图像中的静态物体识别不同,主动物体识别中的传感器 [6] 可以移动到新的视点以获得更多关于物体的信息。因此,出现了基于当前观察进行视图规划的 Next-Best-View 问题 [25]。大多数以前的活动对象识别工作 [16, 9] 使用 2D 颜色信息构建他们的视图规划策略。然而,这个多视图问题本质上是 3D 的。 Atanasov 等人 [1, 2] 在现实世界的机器人中实现了这个想法,但他们假设每个类只有一个对象,将他们的问题减少到没有类内差异的实例级识别。与 [9] 类似,我们使用互信息来决定 NBV。然而,我们在精确的体素级别考虑这个问题,使我们能够推断 3D 区域中的体素如何有助于减少识别不确定性。

3. 3D ShapeNets

  为了研究 3D 形状表示,我们建议将几何 3D 形状表示为 3D 体素网格上二进制变量的概率分布。每个 3D 网格都表示为一个二元张量:1 表示体素在网格表面内,0 表示体素在网格外(即,它是空白空间)。我们实验中的网格大小为 30 × 30 × 30。

  为了表示 3D 形状的这些二元变量的概率分布,我们设计了一个卷积深度信念网络 (CDBN)。深度信念网络 (DBN) [15] 是一类强大的概率模型,通常用于对二维图像中像素和标签的联合概率分布进行建模。在这里,我们将模型从 2D 像素数据调整为 3D 体素数据,这带来了一些独特的挑战。具有合理分辨率(例如 30 × 30 × 30)的 3D 体素体积将与高分辨率图像(165 × 165)具有相同的尺寸。此类图像上的全连接 DBN 会导致大量参数,使模型难以有效训练。因此,我们建议使用卷积来通过权重共享来减少模型参数。然而,与典型的卷积深度学习模型(例如 [21])不同,我们没有在隐藏层中使用任何形式的池化——虽然池化可能会增强识别的不变性,在我们的例子中,它也会导致更大的不确定性用于形状重建。
我们模型中卷积层的能量 E 可以计算为:
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第3张图片
  其中 vl 表示每个可见单元,hfj 表示特征通道 f 中的每个隐藏单元,Wf 表示卷积滤波器。 “*”符号代表卷积操作。在这个能量定义中,每个可见单元 vl 都与一个独特的偏置项 bl 相关联以促进重建,并且同一卷积通道中的所有隐藏单元 {hf j} 共享相同的偏置项 cf。与 [19] 类似,我们也允许卷积步幅。

  3D 形状表示为 24 × 24 × 24 体素网格,在两个方向上有 3 个额外的填充单元,以减少卷积边界伪影。标签作为标准的 K 个 softmax 变量之一呈现。我们模型的最终架构如图 2(a) 所示。第一层有 48 个过滤器,大小为 6,步长为 2;第二层有 160 个过滤器,大小为 5,步长为 2(即每个过滤器有 48×5×5×5 个参数);第三层有512个大小为4的过滤器;每个卷积滤波器都连接到前一层的所有特征通道;第四层是一个标准的全连接 RBM,有 1200 个隐藏单元;具有 4000 个隐藏单元的第五层也是最后一层将多项标签变量和伯努利特征变量的组合作为输入。顶层形成一个关联内存 DBN,如双向箭头所示,而所有其他层的连接都是自上而下的。

  我们首先以分层方式对模型进行预训练,然后是生成式微调程序。在预训练期间,前四层使用标准对比发散 [14] 进行训练,而顶层使用快速持续对比发散 (FPCD) [32] 进行更仔细的训练。一旦学习了下层,权重就固定了,隐藏的激活作为输入馈入下一层。我们的微调程序类似于唤醒睡眠算法 [15],除了我们保持权重绑定。在唤醒阶段,我们自下而上地传播数据并使用激活来收集积极的学习信号。在睡眠阶段,我们在最顶层维护一个持久链,并自上而下传播数据以收集负学习信号。这种微调过程模仿了模型的识别和生成行为,并且在实践中效果很好。我们在图 2(b) 中可视化了一些学习到的过滤器。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第4张图片

图 3:基于视图的 2.5D 对象识别。 (1) 说明了取自 3D 世界中的物理对象的深度图。 (2) 显示了从椅背捕获的深度图像。切片用于可视化。 (3) 显示了切片的轮廓和不同类型的体素。椅子 Xo 的表面体素为红色,被遮挡的体素 Xu为蓝色。 (4) 显示了以观察到的自由空间和表面为条件的识别和形状完成结果。

4. 2.5D识别与重建

4.1 基于视图采样
  在训练完 CDBN 之后,模型学习体素数据 x 和对象类别标签 y ∈ {1,… ,K} 的联合分布 p(x,y)。尽管该模型是在完整的 3D 形状上训练的,但它能够识别单视图 2.5D 深度图中的对象(例如,来自 RGB-D 传感器)。如图 3 所示,2.5D 深度图首先被转换为体积表示,我们将每个体素分类为自由空间、表面或被遮挡,这取决于它是在可见表面的前面、上面还是后面(即深度值) 来自深度图。自由空间和表面体素被认为是被观察到的,被遮挡的体素被认为是缺失数据。测试数据用 x = (xo,xu) 表示,其中 xo 指的是观察到的自由空间和表面体素,而 xu 指的是未知体素。识别对象类别涉及估计 p(y|xo)。

  我们通过吉布斯采样来近似后验分布 p(y|xo)。取样程序如下。我们首先将 xu 初始化为一个随机值,并自下而上传播数据 x = (xo,xu) 以从 p(y|xo,xu) 中采样标签 y。然后将高电平信号向下传播以采样体素 x。我们将观察到的体素 xo 夹在这个样本 x 上,然后再做一次自下而上的传递。 50 次上下采样迭代应该足以获得形状完成 x 及其对应的标签 y。上述过程对大量粒子并行运行,导致对应于潜在不同类别的各种完成结果。最后的类别标签对应于最常采样的类别。

4.2.  Next-Best-View Prediction
  对于人类和计算机而言,从单一视图进行对象识别有时可能具有挑战性。但是,如果在从第一个视点识别失败时允许观察者从另一个视点观察物体,我们可能能够显着降低识别的不确定性。给定当前视图,我们的模型能够预测下一个视图对于区分对象类别是最佳的。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第5张图片

图 4:下一个最佳视图预测。 [第 1 行,第 1 列]:从单个视图观察到的(红色)和未知(蓝色)体素。 [第 2-4 行,第 1 列]:通过对 (xo,xu) 进行调节生成的三个可能的完成样本。 [第 1 行,第 2-4 列]:三个可能的摄像头位置 Vi,前顶部、左侧、倾斜底部、前部、顶部。 [第 2-4 行,第 2-4 列]:给定可能的形状和相机位置 Vi,预测对象的新可见性模式。

  我们的下一个最佳视图系统的输入是由深度相机从单个视图捕获的未知对象的观察体素 xo,以及表示 3D 中相机旋转和平移的下一个视图候选 {Vi} 的有限列表。算法从列表中选择最有可能降低识别不确定性的下一个视图。请注意,在此视图规划过程中,我们没有观察到任何新数据,因此 p(y|xo= xo) 的置信度没有提高。
  原始识别不确定性 H 由以观察到的 xo 为条件的 y 的熵给出:
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第6张图片
  其中条件概率 p(y|xo= xo) 可以像以前一样通过从 p(y,xu|xo= xo) 采样并边缘化 xu 来近似。

  当相机移动到另一个视图 Vi 时,一些先前未观察到的体素 xu 可能会根据其实际形状而被观察到。不同的视图 Vi 将导致这些未观察到的体素 xu 的不同可见性。有可能看到物体独特部分(例如椅子扶手)的视图可能是更好的下一个视图。然而,由于实际形状部分未知,我们将从我们的模型中产生该区域的幻觉。如图 4 所示,以 xo=xo 为条件,我们可以对许多形状进行采样以生成实际形状的假设,然后渲染每个假设以获得从不同视图观察到的深度图,Vi。通过这种方式,我们可以针对不同样本的不同视图模拟新的深度图,并计算识别不确定性的潜在降低。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第7张图片

图 5:ModelNet 数据集。左:基于每个类别中 3D 模型数量的 ModelNet 数据集的词云可视化。较大的字体大小表示类别中的更多实例。右图:3D 椅子模型示例。

  在数学上,设Xi n=Render(Xu,xo,Vi)\xo表示下一个视图Vi中新观察到的体素(自由空间和表面)。我们有Xi n⊆Xu,它们是未知变量,将在下面的等式中被排除在外。然后通过该条件熵测量Vi的潜在识别不确定性,
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第8张图片
  上述条件熵的计算方法是:首先从p(xu|xo= xo)中采样足够的xu,然后进行3D渲染得到2.5D的深度图,从而从xu得到xi n,然后将每个xi n如前所述计算H(y|xi n= xi n,xo= xo)。
根据信息论,熵H-Hi = I(y;xi n|xo= xo) ≥ 0是xo上所表示的y和xi之间的互信息。这符合我们的直觉,即观察更多的数据总是有可能减少不确定性。有了这个定义,我们的视图规划算法就是简单地选择最大化这种相互信息的视图,
在这里插入图片描述
  我们的视图规划方案自然可以扩展到一系列的视图规划步骤。在确定了第一帧的最佳移动候选对象后,我们将相机物理移动到那里,并从该视图捕捉另一个对象表面。来自所有先前视图的对象表面被合并在一起,作为我们新的观测xo,允许我们再次运行视图规划方案。

5. ModelNet:大规模三维CAD数据集

  训练捕获类内差异的深层3D形状表示需要大量3D形状集合。以前的CAD数据集(例如,[28])在类别的多样性和每个类别的示例数量方面都受到限制。因此,我们构建了大规模三维CAD模型数据集ModelNet。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第9张图片

图6:形状采样。通过对某些类别的3D ShapeNet进行采样而生成的示例形状。

  为了构建ModelNet,我们从3D Warehouse下载了3D CAD模型,并通过Yobi3D搜索引擎索引了261个CAD模型网站。我们从SUN数据库[33]中查询公共对象类别,每个类别包含不少于20个对象实例,删除那些搜索结果太少的对象类别,得到总共660个类别。我们还包括普林斯顿形状基准[28]中的模型。下载后,我们会使用Amazon Mechanical Turk删除错误分类的模型。向Turk展示一系列模型的缩略图,并回答“是”或“否”,以确定类别标签是否与型号匹配。然后,作者手动检查每个3D模型,并从每个CAD模型中删除不相关的对象(例如,地板、缩略图、站在对象旁边的人等),以便每个网格模型只包含一个属于标记类别的对象。我们还丢弃了不真实的模型(过于简化的模型或只包含对象图像的模型)和重复模型。与28相比,我们的新数据集大了22倍,包含了属于660个独特对象类别的151,128个3D CAD模型。图5显示了主要对象类别和数据集统计信息的示例。

6. 实验

  我们从ModelNet中选择了40个常见的对象类别,每个类别有100个独特的CAD模型。然后,我们通过沿重力方向每30度旋转一次每个模型(即每个模型12个姿势)来增加数据,从而得到任意姿势的模型。在配备一颗英特尔至强E52690 CPU和一颗NVIDIA K40c GPU的台式机上,每台台式机上的预培训和微调都需要大约两天时间。图6显示了从我们训练的模型中采样的一些形状。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第10张图片
6.1. 三维形状分类与检索
  深度学习作为一种特征提取技术得到了广泛的应用。这里,我们还感兴趣的是,与其他最先进的3D网格功能相比,从3D ShapeNet学到的功能有多好。我们通过用类别标签替换顶层来区别地微调3D ShapeNets,并使用第5层作为特征。为了进行比较,我们选择了光场描述符8和球谐描述符18,它们在所有描述符[28]中表现最好。

  我们进行了3D分类和检索实验来评估我们的特征。在48,000个CAD模型(经旋转放大)中,38,400个用于训练,9,600个用于测试。我们还报告了在40个类别数据的10个类别子集上的较小规模的结果。对于分类,我们训练一个线性支持向量机,利用上述特征对网格进行分类,并用平均分类准确率来评估分类性能。

  对于检索,我们使用L2距离来度量每对测试样本之间的形状相似度。给定来自测试集的查询,根据相似性测量返回剩余测试数据的排序列表。我们使用两个度量来评估检索算法:(1)所有测试查询的查准率-召回率曲线下的平均面积(AUC);(2)平均查准率(MAP),其中AP被定义为每次返回一个正样本的平均查准率。

  我们总结了表1和图7中的结果。由于基线网格特征(LFD和SPH)都是旋转不变的,从我们所取得的性能来看,我们相信3D ShapeNets一定在特征学习过程中学习到了这种不变性。尽管与基线描述符相比,3D ShapeNet使用的分辨率要低得多,但3D ShapeNet的性能远远超过它们。这表明我们的3D深度学习模型能够自动从3D数据中学习到更好的特征。

6.2. 基于视图的2.5D识别
  为了评估3D ShapeNets用于基于2.5D深度的对象识别任务,我们在纽约大学RGB-D数据集上建立了一个使用Kinect深度图的实验[23]。我们从与纽约大学数据集重叠的ModelNet中选取了10个对象类别。这为我们带来了4899个独特的CAD模型,用于3D ShapeNets训练。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第11张图片

图7:3D网格检索。精确-标准召回级别的召回曲线。

  我们通过从3D边界框裁剪3D点云来创建每个测试示例。分段掩码用于去除边界框中的离群值深度。然后,我们将在CAD模型上训练的模型直接应用于纽约大学的数据集。这绝对不是无关紧要的,因为真实世界深度的统计数据与用于训练的合成CAD模型有很大不同。在图9中,我们可视化了成功的识别和重构。请注意,3DShapeNets甚至能够部分重建“监视器”,尽管反射问题导致扫描效果不佳。为了进一步提高识别性能,我们使用反向传播在纽约大学数据集上有区别地微调了我们的模型。通过简单地将不可见体素指定为0(即,将被遮挡的体素视为自由空间,并且仅将形状表示为3D曲面上的体素)并每30度旋转训练示例,微调在实践中工作得相当好。

  作为一种基线方法,我们在低分辨率体素空间中使用k近邻匹配。测试深度图被转换为体素表示,并与每个训练样本进行比较。作为更复杂的高分辨率基线,我们使用迭代最近点方法[4]将测试点云与每个3D网格模型进行匹配,并使用前10个匹配来投票选出标签。我们还将我们的结果与应用于RGB-D数据的最新深度学习模型[29]进行了比较。为了训练和测试它们的模型,通过将三维包围盒投影到图像平面来获得二维包围盒,并使用对象分割来提取特征。1390个实例用于训练[29]的算法并执行我们的区分性微调,其余495个实例用于测试所有五种方法。表2总结了识别结果。只使用不带颜色的深度,我们微调的3D ShapeNets比所有其他有或没有颜色的方法都有很大的优势。

6.3. 下一个最佳视图预测
  对于我们的视图规划策略,术语p(xi n|xo=xo)的计算至关重要。当观测xois不明确时,从p(xi n|xo=xo)中提取的样本应该具有跨不同类别的变化。当观察丰富时,样本应该限制在很少的类别内。由于Xi是完成体的表面,我们只能测试形状完成性能p(xu|xo=xo)。在图8中,我们的结果给出了不同类别的合理形状。我们还对训练集中最近的邻居进行了匹配,表明我们的算法不仅仅是记忆形状,而且具有很好的泛化能力。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第12张图片

图8:形状补全。从左到右:从单一视图输入深度图,地面真实形状,形状完成结果(4列),最近邻结果(1列)。

  为了评估我们的视图规划策略,我们使用测试集中的CAD模型来创建深度图的合成渲染。我们通过在第一个视图和选择的第二个视图的集成深度图上运行我们的3D ShapeNets模型来评估准确性。一个好的视点规划策略会带来更好的识别准确率。请注意,下一个最佳视图选择总是与识别算法相结合。我们准备了三种基线方法进行比较:(1)在候选视图中随机选择;(2)选择新可见度最高的视图(黄色体素,用于重建的NBV);(3)选择距离先前视图最远的视图(基于摄像机中心距离)。在我们的实验中,我们生成了8个随机分布在对象球面上的候选视图,指向对象中心附近的区域,并从测试集中随机选择了200个测试用例(每个类别20个)。表3报告了具有相同识别3D ShapeNet的不同视图规划策略的识别准确率。我们观察到,我们的基于熵的方法比所有其他策略都要好。
3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第13张图片

图9:在纽约大学数据集上识别和重建的成功案例[23]。在每个示例中,我们都显示了RGB颜色裁剪、分割的深度图以及从两个视点重建的形状。

3D ShapeNets: A Deep Representation for Volumetric Shapes翻译_第14张图片

表2:纽约大学数据集上基于视图的2.5D识别的准确性[23]。前五行是仅使用深度信息的算法。最后两行是也使用颜色信息的算法。与其他方法相比,我们的3D ShapeNets作为产生式模型表现得相当好。经过区分性微调后,我们的方法获得了最好的性能,在10%以上的幅度很大程度上达到了最好的效果。

在这里插入图片描述

表3:基于两个视图的识别准确性的不同次下一个最佳视图选择的比较。根据算法的选择,我们得到下一个视图的实际深度图,并使用3D ShapeNets使用两个视图来识别对象,以计算精度。

7. 结论

  为了研究物体的三维形状表示,我们提出了一种卷积深度信任网络,将几何三维形状表示为三维体素网格上二元变量的概率分布。我们的模型可以从单视图的2.5D深度图(例如,流行的RGB-D传感器)联合识别和重建对象。为了训练这种三维深度学习模型,我们构建了一个大规模的三维CAD模型数据集ModelNet。我们的模型在各种识别任务上的表现明显优于现有的方法,它也是一种很有前途的次佳视图规划方法。所有的源代码和数据集都可以在我们的项目网站上找到。

参考文献

[1] N. Atanasov, B. Sankaran, J. Le Ny, T. Koletschka, G. J.Pappas, and K. Daniilidis. Hypothesis testing framework for active object detection. In ICRA, 2013. 3
[2] N. Atanasov, B. Sankaran, J. L. Ny, G. J. Pappas, and K. Daniilidis. Nonmyopic view planning for active object detection. arXiv preprint arXiv:1309.5401, 2013. 3
[3] M. Attene. A lightweight approach to repairing digitized polygon meshes. The Visual Computer, 2010. 2
[4] P . J. Besl and N. D. McKay. Method for registration of 3-d shapes. In PAMI, 1992. 7
[5] I. Biederman. Recognition-by-components: a theory of hu- man image understanding. Psychological review, 1987. 1
[6] F. G. Callari and F. P . Ferrie. Active object recognition: Looking for differences. IJCV, 2001. 3
[7] S. Chaudhuri, E. Kalogerakis, L. Guibas, and V . Koltun. Probabilistic reasoning for assembly-based 3d modeling. In ACM Transactions on Graphics (TOG), 2011. 2
[8] D.-Y . Chen, X.-P . Tian, Y .-T. Shen, and M. Ouhyoung. On visual similarity based 3d model retrieval. In Computer graphics forum, 2003. 6
[9] J. Denzler and C. M. Brown. Information theoretic sensor data selection for active object recognition and state estimation. PAMI, 2002. 3
[10] S. M. A. Eslami, N. Heess, and J. Winn. The shape boltzmann machine: a strong model of object shape. In CVPR,2012. 3
[11] P . F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. PAMI, 2010. 1
[12] T. Funkhouser, M. Kazhdan, P . Shilane, P . Min, W. Kiefer, A. Tal, S. Rusinkiewicz, and D. Dobkin. Modeling by example. In ACM Transactions on Graphics (TOG), 2004. 2
[13] S. Gupta, R. Girshick, P . Arbeláez, and J. Malik. Learning rich features from rgb-d images for object detection and segmentation. In ECCV. 2014. 3
[14] G. E. Hinton. Training products of experts by minimizing contrastive divergence. Neural computation, 2002. 4
[15] G. E. Hinton, S. Osindero, and Y .-W. Teh. A fast learning algorithm for deep belief nets. Neural computation, 2006. 3, 4
[16] Z. Jia, Y .-J. Chang, and T. Chen. Active view selection for object and pose recognition. In ICCV Workshops, 2009. 3
[17] E. Kalogerakis, S. Chaudhuri, D. Koller, and V . Koltun. A probabilistic model for component-based shape synthesis. ACM Transactions on Graphics (TOG), 2012. 2
[18] M. Kazhdan, T. Funkhouser, and S. Rusinkiewicz. Rotation invariant spherical harmonic representation of 3d shape de- scriptors. In SGP, 2003. 6
[19] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet clas-sification with deep convolutional neural networks. In NIPS, 2012. 1, 4
[20] H. Lee, C. Ekanadham, and A. Y . Ng. Sparse deep belief net model for visual area v2. In NIPS, 2007. 4
[21] H. Lee, R. Grosse, R. Ranganath, and A. Y . Ng. Unsupervised learning of hierarchical representations with convolutional deep belief networks. Communications of the ACM, 2011. 3
[22] J. L. Mundy. Object recognition in the geometric era: A retrospective. In Toward category-level object recognition. 2006. 1
[23] P . K. Nathan Silberman, Derek Hoiem and R. Fergus. Indoor segmentation and support inference from rgbd images. In ECCV, 2012. 2, 7, 8
[24] F. Rothganger, S. Lazebnik, C. Schmid, and J. Ponce. 3d object modeling and recognition using local affine-invariant image descriptors and multi-view spatial constraints. IJCV, 2006. 1
[25] W. Scott, G. Roth, and J.-F. Rivest. View planning for automated 3d object reconstruction inspection. ACM Computing Surveys, 2003. 2, 3
[26] S. Shalom, A. Shamir, H. Zhang, and D. Cohen-Or. Cone carving for surface reconstruction. In ACM Transactions on Graphics (TOG), 2010. 2
[27] C.-H. Shen, H. Fu, K. Chen, and S.-M. Hu. Structure recovery by part assembly. ACM Transactions on Graphics (TOG), 2012. 2, 3
[28] P . Shilane, P . Min, M. Kazhdan, and T. Funkhouser. The princeton shape benchmark. In Shape Modeling Applications, 2004. 6
[29] R. Socher, B. Huval, B. Bhat, C. D. Manning, and A. Y . Ng. Convolutional-recursive deep learning for 3d object classification. In NIPS. 2012. 3, 7, 8
[30] S. Song and J. Xiao. Sliding Shapes for 3D object detection in RGB-D images. In ECCV, 2014. 1
[31] J. Tang, S. Miller, A. Singh, and P . Abbeel. A textured object recognition pipeline for color and depth image data. InICRA, 2012. 1
[32] T. Tieleman and G. Hinton. Using fast weights to improve persistent contrastive divergence. In ICML, 2009. 4
[33] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba. SUN database: Large-scale scene recognition from abbey to zoo. In CVPR, 2010. 6

你可能感兴趣的:(自动驾驶,深度学习,人工智能,计算机视觉,神经网络)