双目立体视觉论文阅读(1)STTR

STTR——《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》
双目立体视觉论文阅读(1)STTR_第1张图片
论文链接:
STTR
代码链接:
STTR

本文从Seq2Seq的角度重新审视了深度估计问题,使用位置信息和注意力将cost volume construction替换为密集的像素匹配。表现SOTA!性能优于Bi3D、GwcNet和LEAStereo网络,代码刚刚开源!

一.本文创新点:

1. 放宽了固定视差范围的限制;
2. 识别被遮挡的区域并提供估计的置信度;
3. 在匹配过程中施加了唯一性约束。

二.网络结构分析:

双目立体视觉论文阅读(1)STTR_第2张图片

1. Feature Extractor

使用了沙漏网络结构,编码部分使用残差和金字塔池化,为了实现更高效的全局上下文采集。解码部分使用转置卷积,dense-blocks和最后的卷积输出层。得到的特征图和原图尺寸一样。

2. Transformer

本文使用图2所示的注意力模型,使用的是参考文献[1]中的注意力机制:沿着相同图像的极线对像素做自注意力,沿着左图和右图中对应极线的像素计算交叉注意力。我们在N-1层中交叉计算自注意力和交叉注意力。这样的交替方案基于图像的上下文和位置信息保持了特征描述的更新。在最后的交叉注意力层,我们使用最多的注意力像素来估计粗略的视差图。并且增加了最佳点乘操作,确保符合唯一性约束并且用于减少空间搜索的注意力mask估计。
双目立体视觉论文阅读(1)STTR_第3张图片

2.1 Attention

这里使用multi-attention,通过把特征描述分成了N组增加了特征的描述能力。
Ch=Ce/Nh,
Ch是每个head的特征通道数,Nh是head的数量。每个head中使用线性映射的集合用于计算矩阵Q、K、和V,
双目立体视觉论文阅读(1)STTR_第4张图片

2.2相对位置编码

为了解决弱语义区域的估计,本文提出通过位置编码提供数据相关的空间信息。选择使用像素的相对位置信息而不是绝对位置信息。
值得注意的是,本文中使用的这种方法把计算量从二次降低到了线性。

2.3 粗略视差图和遮挡回归

使用修改后的winner-take-all方法,替代以前使用的所有视差的加权和。

3 语义调整层

双目立体视觉论文阅读(1)STTR_第5张图片
根据交叉极线上的信息,结合原图去使用卷积来进行优化。

4.实验结果

双目立体视觉论文阅读(1)STTR_第6张图片
双目立体视觉论文阅读(1)STTR_第7张图片

[1]. Daniel Scharstein, Heiko Hirschmüller, York Kitajima, Greg Krathwohl, Nera Neˇ si´ c, Xi Wang, and Porter Westling. High-resolution stereo datasets with subpixel-accurate ground truth. In German conference on pattern recognition, pages 31–42. Springer, 2014. 6, 14

你可能感兴趣的:(深度学习,立体匹配,双目)