【论文阅读 12】PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

PoseCNN:一种用于杂乱场景中6D物体姿态估计的卷积神经网络

摘要——刺激已知物体的 6D 姿势对于机器人与现实世界交互很重要。由于对象的多样性以及物体之间的杂乱和遮挡引起的场景的复杂性,这个问题具有挑战性。在这项工作中,我们介绍了PoseCNN,一种用于6D对象姿态估计的新卷积神经网络。PoseCNN通过定位物体在图像中的中心并预测其与相机的距离来估计物体的3D平移。通过回归到四元数表示来估计对象的 3D 旋转。我们还引入了一种新的损失函数,使PoseCNN能够处理对称对象。此外,我们为名为 YCB-Video 数据集的 6D 对象姿态估计贡献了一个大规模的视频数据集。我们的数据集提供了在92个视频中观察到的YCB数据集中21个对象的准确6D姿势,其中133、827帧。我们在 YCBVideo 数据集和 OccludedLINEMOD 数据集进行了广泛的实验,以表明 PoseCNN 对遮挡具有很强的鲁棒性,可以处理对称对象,仅使用彩色图像作为输入提供准确的姿态估计。当使用深度数据进一步细化姿势时,我们的方法在具有挑战性的 OccludedLINEMOD 数据集上实现了最先进的结果。我们的代码和数据可在 https://rse-lab.cs.washington.edu/projects/posecnn/ 获得。

摘要——在机器人与现实世界进行交互时,刺激已知物体的 6D 姿势对其非常重要。然而,由于物体种类的多样性和场景复杂性,例如物体之间的混乱排列和遮挡,这个问题具有挑战性。
本研究介绍了 PoseCNN,这是一种新型卷积神经网络,用于估计物体的6D姿态PoseCNN首先通过定位物体在图像中的中心并预测其与相机的距离来估计物体的3D平移。然后,它通过回归到四元数表示来估计物体的3D旋转。此外,我们引入了一种新的损失函数,使PoseCNN能够处理对称物体。我们还创建了名为 YCB-Video 的大规模视频数据集,其中包含 YCB 数据集中 21 种物体的准确 6D 姿势,共 133,827 帧的92个视频。我们对 YCBVideo 数据集和 OccludedLINEMOD 数据集进行了广泛的实验,结果表明 PoseCNN 对遮挡物体具有很强的鲁棒性,能够处理对称物体,并且仅通过彩色图像输入即可提供准确的姿态估计。当进一步使用深度数据细化姿势时,我们的方法在具有挑战性的 OccludedLINEMOD 数据集上实现了最先进的结果。我们的代码和数据可在 PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes – UW Robotics and State Estimation Lab获取。

你可能感兴趣的:(论文阅读)