论文解读《Zero-Shot Category-Level Object Pose Estimation》类别级6D位姿估计

论文:《Zero-Shot Category-Level Object Pose Estimation》

该文整体感觉不难,处理流程比较新颖,可以重点参考。

Code:https://github.com/applied-ai-lab/zero-shot-pose (48 star)

摘要:

  • 解决问题:

    • 实例级姿态估计的问题。 => **零样本(也就是预测未见过的物体(没有该实例的数据标记和CAD模型),类别级)**预测来自对象类别的两个实例之间的姿势偏移,而不需要任何姿势注释。

      **为什么人类可以识别出之前没有见过的物体的类别?**直观地说,我们认为人类利用对对象部分的理解,即跨类别的概括,来对应相关的对象。在这个过程之后,可以使用基本的几何图元来理解对象之间的空间关系。人类通常也有粗略的深度估计,可以从多个角度检查物体。

      本文就是以这个为出发点(创新点1),使用这些直觉来构建一个解决方案,以估计给定类别的两个实例之间的姿态偏移。

    • 现有的类别级方法通过训练每个类别的单独模型,或通过为每个类别使用不同的模板(例如CAD模型),来预测图像中对象相对于所提供的CAD模型的类别和姿势。 => 本文方法:不需要任何姿态标记的数据或CAD模型来估计类别的姿态,并处理不可见类别的姿态估计。

  • 提出了一种基于自监督视觉变换器(ViT)的语义对应零样本、类别级姿势估计方法;(实现零样本预测的关键是**能够以零样本方式在对象类别内的成对图像之间形成语义关键点对应 (创新点2)**)

    重新设计了最近的CO3D数据集,以呈现一个可控且真实的测试设置。

  • 效果:在设计的CO3D基准(更加现实)上进行严格的实验,证明了当前的一些基准方法经常完全失效时,而本文的方法有助于零样本姿势对齐。

任务形式化:(论文第三章)

6D物体姿态估计需要估计物体相对于某个参考系的偏移(平移和旋转),通常只给出物体的图像。该参考框架可以隐式定义(例如,在监督学习中,标签都是相对于某个“规范”框架定义的)或显式定义(如,使用参考图像)。无论哪种情况,姿态估计从根本上来说都是一个相对的问题。

在本文考虑的零样本、自监督设置中,参照系不能由标签隐式定义:因为本文没有任何对象的标签姿势。因此,本文的姿态估计问题是对齐,即计算给定类别的两个实例(参考和目标对象)之间的姿态偏移(平移和旋转)

  • 输入:参考图像I_R、目标图像的一系列视图I_Ti(如正面视图、背面视图、多个侧面视图等,就像人需要从多个角度观察一样)、所有图像的深度图D_i;

  • **任务:**建立模型M,使能够输出每个目标图像相对于参考图像的偏移(平移和旋转);

网络架构:

论文解读《Zero-Shot Category-Level Object Pose Estimation》类别级6D位姿估计_第1张图片

  • 首先利用从视觉转换器(ViT[16])中提取的特征,在大规模数据[7]上以自监督的方式进行训练,提取所有图像的空间特征描述符,构建一组循环距离图将参考图像与目标序列中的所有图像进行比较,建立同一类别的两个对象实例(参考对象和所有目标对象)之间的Top K语义对应关系(先前的工作已经证明,自监督ViT对可以转移到新实例和类别的对象部分有理解[4,44]); (论文4.1节)

  • 然后,使用语义对应的加权在一系列目标对象序列选择一个最佳视图 来进行姿态偏移的粗略估计; (论文4.2节)

  • 在获得语义对应关系并选择最佳视图后,使用深度图为对应语义位置的每个对象创建稀疏点云; (论文4.3节)

  • 最后,我们使用稳健的最小二乘估计[43]将这些点云与刚体变换对齐,以给出最终姿态估计。 (论文4.3节)

你可能感兴趣的:(6D位姿估计,人工智能,计算机视觉)