2021 ICCV: Common Objects in 3D阅读笔记

《Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction》主要包括一个有标注的视频数据集和NerFormer。

  • 摘要翻译:

传统的学习3D对象类别的方法主要是在合成数据集上进行训练和评估,因为无法获得真实的3D标注的以类别为中心的数据。我们的主要目标是通过收集与现有合成数据规模相似的真实数据,促进该领域的进展。因此,这项工作的主要贡献是一个大型数据集,称为3D中的普通对象,其中有对象类别的真实多视图图像,用相机姿态和地面真实3D点云标注。该数据集包含了从50个MS-COCO类别中捕获对象的近19,000个视频的总计150万帧,因此,它在类别和对象的数量上明显大于其他选择。

我们利用这个新的数据集对几种新视图合成和以类别为中心的3D重建方法进行了首次大规模的“野外”评估。最后,我们贡献了NerFormer——一种新颖的神经渲染方法,它利用强大的Transformer来重构给定少量视图的对象。

  • 涉及NerFormer的Introduction翻译:

我们还提出了一个新的NerFormer模型,在给定少量输入源视图的情况下,它学习在我们的数据集中重建对象类别。 NerFormer基于机器学习和3D计算机视觉的两大主要方式:Transformers和神经隐式渲染。 具体来说,给定一组沿绘制射线的3D点,从已知图像中采样特征并叠加到一个张量中。 后者实际上是一组采样特征的射线深度有序序列,允许使用顺序到顺序的Transformer进行处理。 因此,通过交替的特点池化attention层和光线attention层,NerFormer学会从源视图中联合地聚合特征,并在它们上面进行光线追踪。 重要的是,NerFormer优于迄今为止利用最常见形状表示的总共14个基线。 因此,我们的论文进行了学习3D对象类别在野外的( in the wild),第一个真正大规模的评估。

Question:in the wild意思是不是不同于合成的对象的,在真实世界中的对象?还有更好的翻译方式吗?

相关知识:

  1. 光线追踪简单来说是通过若干条从摄像机发出的光线,通过步进的方式去和场景中的物体求交,根据交点处的信息和光源信息计算交点处的光照。
  2. attention机制就是一种根据某些规则或者某些额外信息(query)从向量表达集合(values)中抽取特定的向量进行加权组合(attention)的方法。

声明:相关知识中参考了别人的博客 

你可能感兴趣的:(论文阅读笔记,深度学习,机器学习,神经网络)