论文阅读:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

2020年7月18日 周六 天气晴 【不悲叹过去,不荒废现在,不惧怕未来】


RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

RandLA-Net: 大规模点云的高效语义分割

在这里插入图片描述

论文链接:https://arxiv.org/abs/1911.11236
github代码(tensorflow):https://github.com/QingyongHu/RandLA-Net

这篇论文是今年CVPR2020上的一篇oral,能高效处理大规模点云的语义分割问题。网上有很多人都对这篇论文进行了解读,感觉理解的都比我深刻多了,比如下面这些:
RandLA-Net: 大规模点云高效语义分割(CVPR 2020)
CVPR 2020——RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds(已开源)
[CVPR 2020 Oral] RandLA-Net:大场景三维点云语义分割新框架(已开源)(作者本人对论文的亲自解读,没看过的一定要看一下,干货很多

在这里我就不具体介绍论文的细节了,只说几个看代码时遇到的问题,来和大家一起探讨。

Question

1. 关于端到端

论文里说,RandLA-Net是一个完全端到端的网络架构,能够将整个点云作为输入,而不用拆分、合并等预处理、后处理操作。但是我在阅读代码的时候,发现网络在获取数据的部分,采用的是和KPConv类似的思路:先随机选择一个train文件,在文件中随机选择一批中心点,然后在这些中心点周围用KNN的方法选择K个点,作为一个batch训练所需的点云。我看代码里确实是这样做的,感觉和论文里说的有点出入,不知道是不是我理解的有问题。

2. Semantic 3D 预测结果

对于 Semantic 3D 数据集,代码里先对原始点云进行 grid_size=0.01 的采样,得到点云1,然后对点云1进行 grid_size=0.06 的采样,得到点云2,最后对点云2进行学习。而最后test的时候,网络只把特征传播到点云1,意思就是语义分割的结果只预测到了点云1,并没有预测原始点云的分割结果,所以就对这里产生了一些疑问。S3DIS就没有这个问题,最后预测的是原始点云的语义分割结果。

这大概就是我阅读代码遇到的一些问题,如果大家有自己的理解,也欢迎留言和我交流呀。

你可能感兴趣的:(研究生生活——科研,深度学习,人工智能,计算机视觉)