【双目论文整理 未完】值得一读的双目论文整理

背景

双目研究了有一段时间,实际也碰到了很多问题,读了很多论文,整理一下有特别意义的一些论文,相当于做个思路的整理。很多论文都有一些特别的创新点,但是没有整合起来让我有些遗憾。
接下来没列举的论文并不是说不好,有可能是定位和创新点被别的论文覆盖了。

论文 CREStereo

厉害的先提一提,CREStereo是我目前测过效果最好的双目模型。
其思路是在RAFT-Stereo(脱胎于光流方法RAFT)基础上,加入LoFTR和1D/2D交替搜索。
在我看来它的闪光点有两个,一个是来源于RAFT的ConvGRU迭代,通过不断迭代来逼近最优解。基于迭代的思路确实牛批,你看看现在光流方法几乎全是在RAFT的基础上做的。另一个就是它的1D/2D交替搜索,这样子面对一些校正稍微有点误差的双目图可以减少错误的情况。
顺带提一嘴缺点,对于双目而言准确性和速度无法兼得,唯一的缺点那就是慢。慢的主要原因就是ConvGRU迭代,结构上决定了模型的结构顺序关系比较强,没办法很好的进行并行运算。
截至目前,Middlebury又有个更准的DLNR: Stereo matching network with decouple LSTM and normalization refinement,是CVPR2023,期待一波,目测也是迭代优化的思路

论文BGNET

BGNET是我测试过的实时双目里面鲁棒性比较好的,其思路是借助双边网格,直接从低分辨率的特征上采样出一个较高分辨率的代价矩阵出来,这样子一是计算量少,二是相当于加了一个双边滤波,对于动态环境的适应性更强(此处点名CoEX,速度确实快,但是我测试时相机震动稍微大一点就不太行),并且边缘细节很好。
这个模型的点主要就是双边网格,其特征提取参考了GwcNet,也是个值得一看的文章。

论文SMD-Nets

SMD这篇论文的主要闪光点就是借助了 Mixture Density Networks来解决双目网络的一个很突出的问题:边缘的过渡平滑。
其实如果就刷榜什么的而言这个并不算什么问题,不会对你最后的指标有太大的精度差异,但是就实际应用而言,边缘的视差值过度平滑会导致实际建图时空间中会有多余的散点,这里搬一张论文里的图:【双目论文整理 未完】值得一读的双目论文整理_第1张图片
也有别的方面的论文提及了这个问题。最后输出是卷积的结构,必然导致其接过会有边缘上的问题。
【双目论文整理 未完】值得一读的双目论文整理_第2张图片

这在工程应用中视场景有可能问题很大,虽说有通过空间投影什么的进行滤波的手段,但是对于一些细小的问题会被直接滤没了,并不特别理想。
这篇论文用两个高斯分布拟合视差,最终的效果非常好。其可移植性也比较强。
但是这个结构的小问题是视差范围只能固定下来了,对于我如果想要通过减小视差范围来加加速什么的不太友好。我认为可以有继续研究的空间。

小小总结

  1. 就双目问题本身而言,我认为迭代的思路是唯一能够特别准确的方法。我认为经典的特征提取+代价聚合计算+视差计算+细化的结构,其求得的最优视差只能是原图的最优值,并不是结果的最优值(不太会表述,之后看看能不能说的不那么抽象)。想要得到双目的最漂亮的结果只有迭代的方式,这也是迭代方法效果提升这么明显的原因。
  2. 但是迭代还是太慢了,就实时性而言还是得找一些手段,比如双边网格,groupwise卷积什么的,做一些取舍
  3. 边缘问题可大可小,我认为可以继续深入

你可能感兴趣的:(深度学习,人工智能)