【论文笔记】《Frustum PointNets for 3D Object Detection from RGB-D Data》

【论文笔记】《Frustum PointNets for 3D Object Detection from RGB-D Data》

【论文笔记】读论文期间必要的提炼和笔记还是必要的~用博客的形式记录自己学习的日常,如果你也觉得这篇笔记对你有那么点用处,我会觉得很开心哦(^ - ^)如需转载,请注明出处。

原文链接:[https://arxiv.org/abs/1711.08488]

本文解决的问题:

室内和室外场景中RGB-D数据的三维物体检测。在大规模场景中如何有效定位目标对象。

创新点概括:

1,提出了一种基于RGB-D数据的3D对象检测新框架,称为Frustum PointNets.
2,Frustum PointNet 按照降维原理缩小搜索空间:利用成熟的2D物体探测器。通过图像检测器中的2D bounding box 中获取3D bounding frustum. 在每个3D frustum 的3D 空间中,使用PointNets 的两个变体连续执行的对象实例分割和非模态边框回归。
3,Frustum PointNet 更加3D-centric ,将深度图加到3D point Cloud 中并用3D手段处理,更好的利用三维空间的几何拓扑结构。

【摘要】

背景介绍:室内和室外场景中RGB-D数据的三维物体检测。传统方法侧重于图像(images) 或 3D体素(3D voxels),往往模糊了自然的三维模式和三维数据的不变性,本文直接用RGB-D扫描的结果在原始点云中操作。
目标问题: 在大规模场景中如何有效定位目标对象。
改进结果: 2D + 3D 。成熟的2D对象检测技术,加上,先进的3D深度学习目标对象定位。直接在3D点云中进行操作。
实验情况: 即使是小物体,也可以实现高效率,高召回率。无论在稀疏矩阵或稠密矩阵下,都可以精确预估3D边界框。(事实上,小物体,稀疏矩阵效相对都不太好)

【介绍与总结】

技术背景: 2D图像理解任务取得了很大进步;随着移动端3D传感器的发展,3D数据更容易获取。
现有问题: 如何有效的在三维空间中定位物体对象。
现有解决方法: 将3D点云转换成images 通过投影或者立体网格,然后再运用到卷积网络上。
提出问题假设: 不将3D数据转换为其他形式,而直接在3D点云数据中操作。(PointNets)

【相关工作】

本领域经典内容/先进方法介绍:
3D Object Detection from RGB-D Data:
基于前视图、鸟瞰图、3D的方法。以往基于点坐标和直方图以及简单的完全连接网络来回归3D盒子的位置和姿势,本文的PointNets更加灵活有效。
Deep Learning on Point Clouds:
大多数现有论文提出在特征学习前将点云转化为图像或体积形式。
同方向论文讨论:
PointNets(该文前身) PointNets ++

【解释网络】

【论文笔记】《Frustum PointNets for 3D Object Detection from RGB-D Data》_第1张图片
2D——>锥体——>椎体中的点云实例分割——>3D框的回归
首先利用2D CNN 物体探测器提出的2D区域并对其内容进行分类。然后从2D图中根据相机原有的投影矩阵,提取出预测的3D平截头体。在给定的截锥体中(nc n个点,c个通道xyz,及每个点的强度)通过每个点的二元分类来对对象实例进行分类。基于分割后的对象点云(mc)运用轻量级回归PointNet(T-Net)通过平移对齐点,使它们的之心接近amodal box center 。最后,用盒估计网估计对象的amodal 3D边界框。
【论文笔记】《Frustum PointNets for 3D Object Detection from RGB-D Data》_第2张图片
图4.点云的坐标系。 人工点(黑点)显示为(a)默认摄像机坐标; (b)将截头锥体旋转到中心视图后的平截头坐标(第4.1节); (c)掩饰与原点处物点的质心的坐标(第4.2节); (d)由T-Net预测的物体坐标(第4.3节)
在这里插入图片描述
边界框中心 = 掩膜的中心 + T-Net的残差 + 边界框估计网络的中心残差。

【多任务Losses】

在这里插入图片描述
Lc1-reg 用于T-NET , Lc2-reg 用于框中心的回归预测 , Lh-cls和Lh-reg是航向角预测的损失,而Ls-cls和Ls-reg是box尺寸。
Softmax用于所有分类任务,smooth-l1(huber)损失用于所有 回归 情况。
Corner Loss for Joint Optimization of Box Parameters

首先构造NS*NH个不同size,heading angle的anchor boxes。然后将anchor boxes转换到estimated box center。 我们将anchor box的角指示为Pkij,其中i,j,k分别是size class,heading class(预定义)角点顺序的索引。为了避免heading 预测造成的巨大损失,进一步计算了从fliped ground truth box到各个corner的距离。并二者取最小值。 &ij ground truth 的size/heading 类,其他为0,也是用于选择我们所关心的距离项。

【实验结果】

【论文笔记】《Frustum PointNets for 3D Object Detection from RGB-D Data》_第3张图片
在KITTI 和 SUN RGB-D 3D detection benchmarks ,都取得了显著的成效,并且实时性更高。

【不足】

1,稀疏点云中尺寸预测准确性低(image feature cloud 也许可以解决这个问题)。
2,F-PointNet假设一个frustum中只有一个实例,所以对于一些密集区域的segmentation分割效果不好。
3,受到串行结构的影响,F-PointNet中的3D box estimation 的结果严重依赖于2D detection ,且RGB信息对整个结构影响是至关重要的。然而,当图像受到光照及前后遮挡的影响时,会导致2D detector 出现漏检的情况。(小的被挡住,检测不到。)

【优秀句子-句式总结】

对比句式很重要,且将要阐述的重点放前面做定语从句,但并非全篇都是定语从句,整体来说,句子流畅度很重要。
Abstract:
While previous methods focus on images or 3D voxels, often obscuring natural 3D patterns and invariances of 3D data , we directly operate on raw point clouds by popping up RGB-D scans .
这个句子将传统方法与本文现在对比,句式简洁明了,但语义清晰明确。放在摘要中十分合适。(while previous methods focus on …,we directly …)
Instead of solely relying on …, our method leverages both … and …achieving efficiency …
实验效果中:
Evaluated on KITTI and SUN RGB-D 3D detection benchmarks, our method outperforms the-state-of-the-art by remarkable margins while having real-time capability .
Evaluated on (数据集), our method outperforms the-state-of-the-art by … while …

你可能感兴趣的:(论文笔记,机器学习,cv,深度学习,rgb,神经网络)