【计算机视觉】简述对Point Transformer的理解

最近对看完RandLA-Net之后,对其里面LFA模块的Attentive Pool模块比较感兴趣,这一模块,对LocSE提取到的邻域+全局特征进行一下自注意力加权,聚合特征同时并且将点云中比较重要的特征给重点加权出来,其实很多不管是点卷积的文章还是基于点的文章,都是先进行采样之后邻域搜索,然后利用不同的方法聚合特征(一般都会学习邻域点和中心点之间的特征关系),今天看完了Point Transformer这篇文章,感觉很多网络的结构都是类似的,他们都是先聚合特征(使用不同的方法),并且解决点云的无序性和不规则输入等等问题,然后聚合完之后上采样还原特征,完成分割任务。
最近自我注意网络彻底改变了自然语言处理,并在图像分类和物体检测等图像分析任务中取得了令人瞩目的进步,Point Transformer这篇文章为点云设计自我关注层,并使用它们来构建语义场景分割,对象部分分割和对象分类等任务的自我关注网络。
在这里插入图片描述
【计算机视觉】简述对Point Transformer的理解_第1张图片
其中上述等式中的φ,ψ,α逐点特征变化函数,有点类似于映射函数MLP,ρ是归一化函数,类似于softmax,δ是位置编码函数(通过中心点和邻点的相对位置坐标,利用θ函数进行一个学习映射),所以点乘坐标部分就是利用中心点特征和邻域点特征加上位置编码特征进行学习的权重(自注意力权重),点乘右面是邻域的特征加上位置编码特征,后面消融实验证明位置编码特征加上之后,效果更好,下面的结构与上述公式也照应上。
【计算机视觉】简述对Point Transformer的理解_第2张图片
【计算机视觉】简述对Point Transformer的理解_第3张图片
Point Transformer的网络结构的话与其他分割分类的很像,聚合特征,然后上采样还原特征,上图b指的是transition down模块,主要作用主要是先最远点采样(FPS),然后利用KNN搜索紧邻点,之后局部的池化进行输出,输出送入Point Transformer模块,先进行一个线性层,然后进行自注意力加权,之后通过线性层输出,上采样模块主要是通过下采样的点和超集的点进行插值拼接进行还原。对于实验,在这里我只罗列消融实验的,对于其分类实验和分割实验大家看论文即可。
【计算机视觉】简述对Point Transformer的理解_第4张图片
【计算机视觉】简述对Point Transformer的理解_第5张图片
表5的实验结果表明不同邻域搜索的点数对miou的结果会有所不同,但是并不是一味地邻域搜索K值越大,效果越好。对于表6的消融实验主要是是否添加相对位置编码δ,absolute是绝对位置的编码,relative是相对位置的编码,可以看到相对位置的编码miou是最高的,而且对于只加特征相对位置和只加权重相对位置特征编码的效果没有都加上好。表7的实验主要是transition down中是否加入MLP映射和pooling的不同效果,下面的实验是标量注意力和矢量注意力的区别,实验结果说明矢量的效果远远高于标量的效果。
以上是自己对Point Transformer这篇论文的一点理解,如有不对,请多多指正,附上论文地址,大家可以去看看原文和代码。
论文网址:https://openaccess.thecvf.com/content/ICCV2021/papers/Zhao_Point_Transformer_ICCV_2021_paper.pdf

你可能感兴趣的:(计算机视觉,深度学习,transformer)