应用隐类霍夫森林:Latent-Class Hough Forests for 3D Object Detection and Pose Estimation(笔记)——2014

应用隐类霍夫森林进行3D目标检测和姿态估计(笔记)——2014

Latent-Class Hough Forests for 3D Object Detection and Pose Estimation

摘要

  1. 文章提出隐类霍夫森林框架,在高杂波和遮挡环境中进行3D目标检测和姿态估计。
  2. 将LINEMOD法引入一个尺度不变的patch描述符中,并使用一个新的基于模板的分割函数将其集成到回归森林中。
  3. 在训练中,我们的方法仅对正样本进行训练,而不是显式地收集有代表性的负样本,并将叶节点上的类分布作为隐变量。
  4. 在推理过程中,我们迭代地更新这些分布,提供了对背景杂波和前景遮挡的准确估计,从而提高了检测率。
  5. 此外,作为副产品,隐类分布可以提供精确的遮挡感知分割掩码,即使在多实例场景中也是如此。
  6. 我们还收集了一个新的更具挑战性的数据集,用于包含大量2D和3D杂波以及前景遮挡的多实例检测。应用隐类霍夫森林:Latent-Class Hough Forests for 3D Object Detection and Pose Estimation(笔记)——2014_第1张图片

引言

  1. 精确定位和姿态估计面临挑战:由相机的自由移动以及目标的部分遮挡,所引起严重的2D和3D杂波、大范围、姿态改变。
  2. 通过将多个局部区域的投票聚类成相互一致的假设来消除检测歧义(一致投票聚类,消除歧义),提升对抗前景遮挡的稳健性。
  3. 此外,通过一种辨识学习模型,将前景区域和背景杂波分开,还降低了误判率。

3D特征、点对特征、全局模板这些从模型提取的特征与场景进行匹配的方法,只考虑部分遮挡和单图单实例假设,也不知道背景分布。提出隐类霍夫森林法,在叶节点中保持类分布,训练中将类分布看作隐变量进行迭代更新,并给出精确的投票结果。

  1. 主要贡献:
    (1)提出了一种新的基于patch的三维目标检测和姿态估计方法——隐类霍夫森林;它在训练阶段执行单类学习,并在测试时迭代地推断潜在的类分布。
    (2)我们采用最先进的三维整体模板特性LINEMOD【14】作为尺度不变的patch描述符,并通过一个新的基于模板的分割函数将其集成到随机森林框架中。
    (3)在推理阶段,我们联合估计目标的三维位置和姿态以及像素级的可视map,可作为遮挡感知的图形-背景分割,对结果进行细化。
    (4)提出了新的公共数据集,用于多实例3D目标检测和姿态估计,由远近距2D和3D杂波以及前景遮挡组成。

相关工作

  1. 对于目标探测与配准技术,可分为2类:最近邻法和基于学习的方法。
    (1) 最近邻法:局部法(包括:局部2D纹理特征、3D几何特征、转换空间信息形成一致目标假设),如特征匹配,特征点匹配对前景遮挡更鲁棒;全局法,如模板匹配(将目标全局描述符与场景匹配)。
    (2) 基于学习的方法:局部法和全局法。基于学习的方法将样本量化在一起,可以更好地推广到平移,局部形状和视点的微小变化。其效率主要依赖,背景训练数据对真实世界的描述效果。
  2. 单类分类是基于学习的方法的一个分支,它只关注于从正样本中学习。学习特征空间中目标类周围的闭合决策边界【19】有详解 。

提出方法

  1. 训练中仅使用合成渲染的3D模型。采用当时最先进的基于patch的探测器,Hough forest [10],对于patch表示,我们使用了当时最先进的3D模板描述符LINEMOD[14]。然而并不奏效,原因:
    (i)负训练数据的缺失意味着我们无法利用霍夫森林的分类项,从而丧失了过滤背景杂波导致的错误结果的能力。
    (ii)不清楚如何将基于模板的特性集成到random forest框架中;主要的问题是合成训练图像在背景中有零空间,而测试patch则没有。因此,做一个简单的整体patch比较,或者二维/双像素测试(如【29,8,33】中所述)可能导致test patches在分裂函数中 taking错误的路径。
    (iii)LINEMOD【14】的当前形式不是尺度不变描述符;导致,比如我们是否应该为多个尺度训练检测器,以及在训练和测试阶段我们应该如何精确地采样这些尺度。

训练

  1. 隐类霍夫森林由随机二进制决策树组成,并以常规随机森林框架训练。
  2. 每棵树由训练数据的随机子集构成。
  3. 树中每个中间节点都有:分裂方程和优化信息增益的衡量标准。
  4. 每一棵树,由一组patch进行训练,在这里插入图片描述 ,C是像素中心坐标,D是patch深度图,T是patch模板,θi是目标姿态,在这里插入图片描述 ,Oim是每个形态m对应的校准参考patch。
  5. 选择一组patchs作为S,分裂方程hi就是对S中的Pi、Pj进行相似性ε的评估,在门限τi内进入左边SL,其他划归右边SR应用隐类霍夫森林:Latent-Class Hough Forests for 3D Object Detection and Pose Estimation(笔记)——2014_第2张图片
  6. 构建叶节点。训练数据按上面的方法,递归分裂,直到树的最大深度,或者到达节点的样本数降到某一门限,当满足这个条件时,叶节点由到达它的patchs形成。叶节点存储选票为目标的中心位置(θx,θyθz)和姿态(θya、θpi、θro)。

推理

  1. 我们想要估计随机事件的概率E(θ),即目标物体在6自由度下的场景中存在θ=(θx,θy,θz,θya,θpi,θro)。概率E(θ)可通过计算每一个patch概率的P(E(θ)|P) 聚合而成。对于整个森林我们将每棵树的概率平均: 应用隐类霍夫森林:Latent-Class Hough Forests for 3D Object Detection and Pose Estimation(笔记)——2014_第3张图片
  2. 求解上式第一个因子p(E (θ)|pfg = 1,P)的过程中,提出3阶段定位技术: 一是,将所有投票汇总到2D投票空间,如,p(E ((θx,θy))|P),在此空间中应用非极大抑制法定位假设2D位置; 二是,在假设姿态的bounding box中,进一步处理patchs中的投票,定位模型位置; 三是,应用patchs在旋转空间中找到相应模型,给出估计变换。
  3. 在解第二个因子的过程中,提出co-training概念,更新隐类分布。
    应用隐类霍夫森林:Latent-Class Hough Forests for 3D Object Detection and Pose Estimation(笔记)——2014_第4张图片
  4. 至此,解算得到姿态概率。随后就是实验及其结果了。

你可能感兴趣的:(计算机视觉,目标识别,姿态估计)