point transformer解析

point tranformer是一个很经典的网络,文章链接:https://arxiv.org/pdf/2012.09164.pdf
区别于其他的一些点云架构,point transformer最大的创新就是将position embedding加入特征值里面,会提高效果。
在论文里面实现的是将三维或者二维的position坐标使用全连接拉到和特征向量相同的维度上,然后在通过一个公式来进行embedding之间的运算。公式如下:
point transformer解析_第1张图片
把公式从里到外拆解着解释:
ψ(xi):原始的特征信息
ψ(xj):邻居特征信息
δ:坐标信息,在网络中是用全连接将二维或者是三维的坐标信息增加到和feature embedding相同的特征维度
ρ:就是softmax,softmax应该很简单了,其原理就是将某个维度映射到一个概率区间。说的白话点,就是某个维度的经过softmax之后,那个维度的数值加起来等于1。
yi:就是经过point transformer后输出的embedding

自注意力机制的体现:

这里我刚开始就很懵,说是用了selfattention,我咋没见呢?首先看selfattention的过程,下面的图比较形象吧,我大概解释一下selfattention:
V K Q都是同一个特征矩阵
matmul就是点乘,说白了,就

你可能感兴趣的:(教程,transformer,深度学习,pytorch)