论文阅读笔记: (2020.01 cvpr) ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes

paper:

https://arxiv.org/abs/2001.10692icon-default.png?t=M3K6https://arxiv.org/abs/2001.10692官方实现:

GitHub - saic-vul/imvoxelnet: [WACV2022] ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detectionicon-default.png?t=M3K6https://github.com/saic-vul/imvoxelnet在mmdetdction3D里面也有实现:

mmdetection3d/configs/imvotenet at master · open-mmlab/mmdetection3d · GitHubicon-default.png?t=M3K6https://github.com/open-mmlab/mmdetection3d/tree/master/configs/imvotenet

一、创新点、贡献

  • 同时使用图片中的几何、语义和纹理信息: 参考VoteNet, 空间中的K个seed按照内参和外参投影到图片, 拿到所在像素坐标位置的的feature作为纹理信息, 拿到所在框的类别作为语义信息, 拿到和该2D框vote中心的差作为几何信息;
  • co-train: 利用gradient-blending (cvpr 2020: What Makes Training Multi-Modal Classification Networks Hard?)的思路, 同时训练融合/图片和点云,保证2D和3D的feature都能被用到,不被某个modal dominate. 

二、精度

论文阅读笔记: (2020.01 cvpr) ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes_第1张图片

 

三、实现

论文阅读笔记: (2020.01 cvpr) ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes_第2张图片

3.1 Deep Hough Voting(简要回顾 VoteNet)

论文阅读笔记: (2020.01 cvpr) ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes_第3张图片

Point-cloud -> Seeds -> Votes -> Clusters -> 3D-Boxes,典型的bottom up的方法;

上图是VoteNet的示意图;VoteNet首先通过pointnet把点云处理和下采样成Mx(3+C)的点云(也叫做seed) 使得点云有xyz+Feature信息;然后通过MLP把每个点处理成Center_xyz+feature (M个Vote); 再通过聚类,把M个Vote变为K个中心+Feature,K个中心再搞出框和类别;M变K的过程就是Hought Vote, 其本身就是一种“信任”的投票, 被投票的越多, 越可能是物体中心。

3.2 Image Votes from 2D Detection

根据外参和相机内参, 找到seed在图片上的投影位置。 根据相机的feature和检测结果, 给seed增加几何,语义和纹理信息;可贵的是, 作者在文中对于具体信息的选择,可以适用于所有图片检测网络;

Geometric cues: 参考下图, 2D框的中心和相机的光心构成的射线基本上是穿过物体中心的, 因此可以用来把3D hough vote降维到1D射线;同时,用2D框中心的u,v和seed点的深度, 也可求出物体中心的近似位置,减少搜索范围;

论文阅读笔记: (2020.01 cvpr) ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes_第4张图片

Semantic cues: one-hot编码的2D框类别, 如果该seed被投影到了多个框, 则把seed复制一次;如果没有被投影到任何一个2D框中, 则给一个和one-hot等长的全0向量; 

Texture cues: seed投影位置的feature map, 作者直接选取了输入图片投影位置的RGB信息;

3.3 FeatureFusion and Multi-tower Training

,参考代码和Gradient-Blend的论文 

 

四、消融实验

论文阅读笔记: (2020.01 cvpr) ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votes_第5张图片

 

五、重要的参考文献

1. 这篇知乎讲得很好:

ImVoteNet: 用2D图片信息 优化 3D点云物体检测(CVPR2020) - 知乎本文介绍一篇点云物体检测的文章。与当前大部分只从3D点云得出检测结果的算法不同,文章提出的算法,不仅使用3D点云,还使用了对应的2D图片的相关信息(2D物体几何坐标、类别、feature等)。2D与3D结合后,性能得…https://zhuanlan.zhihu.com/p/125754197

2. VoteNet paper (ICCV 2019): 

https://arxiv.org/pdf/1904.09664.pdficon-default.png?t=M3K6https://arxiv.org/pdf/1904.09664.pdf3. Gradient-Blend (CVPR 2020):

https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_What_Makes_Training_Multi-Modal_Classification_Networks_Hard_CVPR_2020_paper.pdficon-default.png?t=M3K6https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_What_Makes_Training_Multi-Modal_Classification_Networks_Hard_CVPR_2020_paper.pdf4. 很好的融合方法, 支持在线换图片检测分支, 赞!

你可能感兴趣的:(感知,计算机视觉,object,detection,3d)