字面上也是非常容易理解non local这种操作,就是在提取某处特征时利用其周围点的信息,这个“周围”既可以是时间维度的,也可以是空间维度的。时间维度的话就如这篇文章中的视频分类例子一样,可以更好地利用时序上的信息。
看上面这个图,我们能了解到,其实在这里xi是一个向量,它是维度为通道大小,看那个f,计算相似度,计算的是当前的点与其他点的相似度,由公式(1)看出,输出的一点是该点与其他点的相似度乘以对应其他点的特征加起来所得,其实就是利用相似度当权重,然后加权可得,与全连接很类似,只不过这里对权重进行了规约(即除以C(X)那个操作),其实与我们在NLP中学的注意力机制很像