姿态估计:Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects(笔记)——2012

高杂乱场景下实现基于模型的无纹理3D目标训练、监测和姿态估计(笔记)——2012

** Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects**

摘要

文章提出了一个使用Kinect体感相机(RGBD sensors),实现对3D目标自动建模、检测和跟踪的构架。基于LINEMOD法(其目标检测部分主要运用基于模板的LINEMOD方法,通过改进,提升13%检测正确率),利用RGBD信息,完成多视角模板匹配,提供姿态粗估计,具有可在线实时学习3D模型能力,可处理大量杂波和中度遮挡场景,能同时检测多目标。

引言

  1. 视觉应用,增加深度信息提升稳定性
  2. 基于LINEMOD法,利用深度和色彩信息,完成多视角模板匹配,提供姿态粗估计
  3. 原始的LINEMOD法有3点不足:(待优化)
    (1) 在线学习模板难以控制且视点覆盖不均
    (2) 只能输出姿态概略估计
    (3) 存在误报
  4. 主要贡献:
    (1) 提出了易使用、可靠、快速实时架构
    (2) 提出了由15个配准的1100+多帧视频序列组成的15种不同的对象的数据集

相关工作

  1. 机图像Camera Images 基于图像的目标检测分为:
    (1) 基于学习的方法:对如人脸、汽车等特定类目标概括较好,但限制在特定类、大数据集、训练时间
    新特征BOB (bag of boundaries):在训练集图像中的给定点处,是图像轮廓的边界直方图。泛化能力好,但实时性准确性不佳
    (2) 基于模板的方法:无需大量模板和训练时间 以上方法不是易受背景杂波影响就是实时性差

  2. 范围图像Range Images
    (1) ICP是其中一个标准方法,但需要初始估计,不合适目标监测,适合姿态优化
    (2) 3D特征+ICP优化的方法,包括:旋转图像、点对、点对直方图法等,计算昂贵、杂乱场景效果差

  3. RGBD图像 与文章方法相似的[22],目标检测使用改进的霍夫变换

  4. LINEMOD模板,是以稠密采样的图像梯度和深度图法线构建模板,可对待检测对象的可能外观进行采样 利用3D模型建立模板

  5. 文中以CAD 3D models来自动构建一组模板,与在线学习法相比,其主要优势:

    (1) 在线学习需要人工操作员或机器人与其环境的物理交互,因此耗时费力
    (2) 通常需要受过良好教育的用户和仔细的手动交互,来收集覆盖整个姿势范围的对象的较好采样训练集
    (3) 在线法通常遵循贪婪方法,并且无法保证在效率和稳健性之间的权衡方面产生最佳结果。

  6. 视点采样 ——必须平衡对象的覆盖范围的可靠性与模板数量效率,通过对正二十面体的每个三角面替换分割为4个正三角形,并多次迭代,最终停在上半球162个点。

  7. 正二十面体(左) 剪影(右)姿态估计:Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects(笔记)——2012_第1张图片姿态估计:Model Based Training, Detection and Pose Estimation of Texture-Less 3D Objects(笔记)——2012_第2张图片

  8. 减少冗余特征 LINEMOD模板产自2个特征的稠密计算:色彩梯度与表面法线。其中,每一个图像位置上的色彩梯度取三个通道(RGB)上的最大值,只保留目标剪影轮廓处的色彩梯度特征。

    (1) 色彩梯度。对每个采样姿态,先通过3D目标投影到该姿态计算其剪影,然后与原图相减得到剪影轮廓,再计算轮廓的色彩梯度并根据大小分类,得到量表,分级筛选。
    (2) 2从目标剪影内部选择表面法线特征,首先根据在所考虑的姿势下生成的深度图(法线计算自深度图,深度图计算自3D模型而非Kinect),为8个离散化方向中的每一个创建掩模,然后计算每一个法线到掩模轮廓的加权距离,值越大表示其被多数同向法线包围,要保留,门限设置为渲染对象覆盖区域与要保留特征数之比的平方根。

  9. 后处理检测——从最高相似性模板开始,对比彩色图像与目标颜色,取测试通过后最佳模板组,然后进行最终深度测试得到模板,估计粗姿态。

  10. 依色彩移除粗离群值(颜色测试)——计算在目标投影上具有期望颜色的像素个数,若总数不足70%,拒绝错误

  11. 快速姿态估计和依深度移除离群值(深度测试)——通过ICP算法(Iterative Closest Point algorithm)对准3D模型表面与深度图像,根据初始模型投影所涵盖的深度值估算初始平移。
    (1) 首先,从目标投影的深度图中上采样3D点,用基于体素的ICP法加速对应点匹配,且仅使用内点参与计算,提升稳定性
    (2) 3次检测通过后,进行1次更慢却更好的ICP,认为所有深度图上的点都在目标投影上(或接近投影),通过对比内点个数与3D模型的平均距离找到最佳检测
    (3) 最后的ICP后再接1次最终的深度测试,计算具有期望深度的像素个数,若总数不足70%,拒绝错误
    实验

  12. 实验过程首先对目标进行3D重构(左图),然后添加近距离和远距离2D和3D杂波到场景中,并获得评估序列,其包含1100个真实图片试点,构成(中图)的姿态空间,(右图)为正确识别的1张测试图片。
    结论

  13. 贡献1:以色彩梯度和表面法线自动减少特征冗余,自动学习3D模型的模板,此外,在保证探测速度和稳定性的同时,提供了特征空间的采样方案

  14. 贡献2:提供了新靓高效的后处理方法,表明姿态估计和色彩信息可验证特测假设,并提升13%探测正确率

  15. 贡献3:提供新的数据集,新在:
    一是对每一个照片和序列提供3D模型和真实姿态;
    二是每一个序列均匀的覆盖了姿态空间;
    三是每张照片包含了远近距离的2D和3D杂波。

总结

首先基于CAD三维模型产生各姿态下的匹配模板,其中各个姿态由正二十面体的上半部裂变进行特征空间采样,然后以彩色梯度和表面法线特征优化减少冗余特征,加速模板计算,至此模板产生完毕。
然后,对新视角照片运用LINEMOD法进行模板匹配,匹配到多个高相似性的分的模板,然后进行后处理检测,依据色彩和深度测试,移除偏离值,得到最终结果。

你可能感兴趣的:(计算机视觉,姿态估计,目标识别)