【光流估计】——gmflow中self attention,cross attention的比较

gmflow, self, cross attention
后面再补一篇gmflow的解读
相关文章:《GMFlow: Learning Optical Flow via Global Matching》基于全局匹配的光流估计算法可视化

1. 前言

gmflow是一种基于全局匹配的光流估计方法,在全局匹配之前,会采用self attention,cross attention进行特征增强。这里实验对比一下self attention,cross attention两个部件。

2. 实验

训练采用realflow数据集,采用train_gmflow.sh原始的训练脚本,只是二者在网络构建时,一个只用self attention,一个只用cross attention,attention采用swin transformer,6个layer 层。验证集采用flying chairs, sintel数据集

  1. self attention版本训练时验证集上的指标

6w step
【光流估计】——gmflow中self attention,cross attention的比较_第1张图片

9w step
【光流估计】——gmflow中self attention,cross attention的比较_第2张图片

  1. cross attention

6w step
【光流估计】——gmflow中self attention,cross attention的比较_第3张图片

9w step
【光流估计】——gmflow中self attention,cross attention的比较_第4张图片

从实验来看,符合预期,cross attention的作用大于 self attention。但是transformer中的cross attention,计算代价太大。如何做替换,或高效。

结论

光流估计从匹配的思路来看,是估计两张图中的对应匹配点的关系,所以两张图的相关关系建模至关重要,对应到实现中时,cross attention > self attention 的作用,所以优化,提高的方向应更关注cross attention

  • 如何高效的做cross attention

你可能感兴趣的:(光流,深度学习,transformer,光流)