PWC-Net论文

论文地址
PWC-Net根据简单并且完备的原则设计:金字塔过程,warping,和cost volume。
网络的大致结构:

Cast in a learnable feature pyramid, PWC-Net uses the current optical flow estimate to warp the CNN features of the second image. It then uses the warped features and features of the first image to construct a cost volume, which is processed by a CNN to estimate the optical flow.

性能优于FlowNet2

PWC-Net is 17 times smaller in size and easier to train than the recent FlowNet2 model. Moreover, it outperforms all published optical flow methods on the MPI Sintel final pass and KITTI 2015 benchmarks, running at about 35 fps on Sintel resolution (1024×436) images.
PWC-Net论文_第1张图片

Introduction and Previous Work

参考原论文,有时间再整理。

Approach

PWC-Net论文_第2张图片

传统方法图示 原文连接
PWC-Net论文_第3张图片

图3总结了网络的主要结构,并与传统的方法进行了比较(左:传统方法,右:PWC-Net)。首先,由于原始图像随阴影和光照的变化而变化,我们将固定的图像金字塔替换为可学习的特征金字塔。其次,我们将传统方法中的warping操作作为网络中的一层来估计大运动。第三,由于cost volume比原始图像更能区分光流,我们的网络有一个层来构建cost volume,然后由CNN层处理以估计光流,warping和cost volume层没有可学习的参数,因此减小了模型尺寸。最后,传统方法的一种常见做法是使用背景信息(如中值滤波和双边滤波)对光流进行后处理。因此,PWC-Net使用一个context网络来扩展背景信息优化光流。与energy最小化相比,warping、cost volume和CNN层在计算上更轻。
Feature pyramid extractor
两张图片输入,生成l层的特征金字塔(使用卷积下采样为1/2),第0层为输入,l-1层下采样生成l层。特征通道数为16, 32, 64, 96, 128, and 196。
Warping layer
在第l层,我们warp第二张图片的特征到第一张图片的位置,通过使用l+1层的光流上采样2倍。
我们使用双线性插值来实现扭曲操作,并根据[24,25]计算输入CNN特征和反向传播流的梯度。
对于非平移运动,扭曲可以补偿一些几何失真,并将图像块置于正确的比例。

At the l th level, we warp features of the second image toward the first image using the ×2 upsampled flow from the l+1 th level:
PWC-Net论文_第4张图片
[24] E. Ilg, N. Mayer, T. Saikia, M. Keuper, A. Dosovitskiy, and T. Brox. FlowNet 2.0: Evolution of optical flow estimation with deep networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017. 1, 3, 4, 5, 7, 8
[25] M. Jaderberg, K. Simonyan, A. Zisserman, et al. Spatial transformer networks. In Advances in Neural Information Processing Systems (NIPS), 2015. 4

Cost volume layer
接下来,我们使用这些特征构建一个cost volume,该cost volume存储了在下一帧将像素与其对应像素关联的匹配成本。
我们定义匹配cost如公式2所示:
对于一个L层的金字塔,我们只需要计算d像素范围内的cost volume。
最顶层一个像素的位移相当于全分辨率图像2^L-1像素的移动,因此我们可以将d设置的较小。cost volume维度如下。

PWC-Net论文_第5张图片

Optical flow estimator
是一个多层的CNN,输入是cost volume,第一张图片的特征,和上采样的光流,输出是第l层的光流。

It is a multi-layer CNN. Its input are the cost volume, features of the first image, and upsampled optical flow and its output is the flow wl at the lth level.

每个卷积层上的特征通道数分别为128、128、96、64和32,在所有金字塔层上保持不变。不同层的卷积有各自的参数而不是共享参数。重复该估计过程,直到达到所需层数,第0层。
DenseNet连接可增强estimator architecture。每个卷积层的输入是前一层的输出和输入。DenseNet比传统的层有更多的直接连接,并导致图像分类的显著改进。我们将此想法用于稠密流预测。
稠密光流和稀疏光流:

The estimator architecture can be enhanced with DenseNet connections [22]. The inputs to every convolutional layer are the output of and the input to its previous layer. DenseNet has more direct connections than traditional layers and leads to significant improvement in image classification. We test this idea for dense flow prediction.
【22】G. Huang, Z. Liu, K. Q. Weinberger, and L. van der Maaten. Densely connected convolutional networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017. 3, 4

Context network
用第二层和最后一层估计的光流和特征,输出一个精细的光流。
7个卷积层,空洞卷积,卷积核大小为3×3,扩张系数不同。
从下到上,扩张系数分别为1, 2, 4, 8, 16, 1, and 1.

Traditional flow methods often use contextual information to post-process the flow. Thus we employ a sub-network, called the context network, to effectively enlarge the receptive field size of each output unit at the desired pyramid level. It takes the estimated flow and features of the second last layer from the optical flow estimator and outputs a refined flow.
PWC-Net论文_第6张图片

Training loss
PWC-Net论文_第7张图片
PWC-Net论文_第8张图片

你可能感兴趣的:(【论文】光流,深度学习,神经网络)