论文阅读笔记——DispSegNet: Leveraging Semantics for End-to-End Learning of Disparity Estimation from Stereo

写在前面:

这篇文章,思路和Segstereo类似,也是利用语义信息,只是通过分割的方式,其中视差估计和语义分割两个任务高度耦合。DispSegNet采用两步细化过程:开始初始化的视差被语义分割网络细化,模型是无监督训练得到,其中立体图像对通过变换计算光度误差。

以下是其结构图:整个过程包括:

 (a) 矫正过的立体图像.

 (b) 提取特征.

 (c)把对应特征串联在一起构成成本容积.

 (d)用3D卷积从成本容积得到初始视差. 

(e) 初始视差融合分割嵌入(segment embedding)进行改进. 这里PSP (Pyramid scene parsing)结合更多上下文信息完成语义分割任务. 

(f) 输出估计的视差和语义分割.

文章的大致内容如下:

 

你可能感兴趣的:(深度学习,双目,立体匹配)