论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision

2018 CVPR :Dual CNN

本篇文章是2018 CVPR的一篇文章,主要是提出了一种结构来解决多种low-level的视觉问题,主要是参考了超分的一些知识SRCNN、VDSR等等。

论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第1张图片
//查了一下作者简历,在大连理工大学读完计算机博士学位之后就直接特聘教授去了南京理工大学,28岁正教授,tql//

Dual CNN :Dual Convolutional Neural Networks 双卷积神经网络
这篇文章主要是提出了一种通用的双卷积神经网络来解决low-level的视觉问题。诸如超分、边缘保持滤波、去雨、去雾这些问题,通常涉及到估计目标信号的结构和细节两部分。Dual CNN主要包括两个并行分支,以端到端的方式来恢复结构和细节。然后将恢复得到的结构和细节根据特定的应用的形成模型来生成目标信号。

low-level通常包括低频结构和高频细节的估计,简单神经网络对于更深层次网络性能不好。引入残差学习来解决更深层次的网络性能增益,利用深度网络来估计残差,但是ResNet无法纠正低频错误。
Dual CNN使用一个浅层的子网络来估计低频结构,以及一个深层子网络来估计高频细节,将结构和细节进行组合。

存在问题:
对于图像的去雨,主要是去除一些不需要的成分,现有的方法主要有基于简单模型、基于残差学习模型、基于递归模型。
简单网络不能恢复细化细节,残差网络不能纠正结构错误。

创新之处:

1、提出了一种双卷积神经网络的结构,包括Net-S、Net-D两个并行的分支分别解决低频结构和高频细节的复原。
2、这种Dual CNN的网络结构可以用到多种low-level视觉问题的解决。

网络结构:

论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第2张图片

整体网络较为简单,主要就是两个并行的神经网络(为什么是并行不是串行,后续有对比实验),加上一个结合具体问题的构建模块。

网络参数借鉴了超分网络SRCNN和VDSR:
结构估计子网络Net-S: 3Conv + ReLU 。每一层的滤波尺寸分别为9x9,1x1和5x5,深度分别为64,32,1.
细节估计子网络Net-D: 20Conv + ReLU。每一层的滤波尺寸为3x3,深度为64.
训练参数:batch_size = 64,learning_rate = 0.0001

去雨具体工作:

1、DualCNN模型的正则化

使用单独的损失函数分别对这两个分支进行正则化。
论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第3张图片

网络的损失函数:
在这里插入图片描述
其中,函数φ(·)和(·)是已知的,取决于每个任务的领域知识。

Dual CNN 整体损失函数
在这里插入图片描述

使用SGD随机梯度下降方法最小化损失函数训练网络:

论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第4张图片
其中,在这里插入图片描述
2、实验:

数据集:ID-CGAN数据集,包含1000000个数据对
损失函数权重分别设置为1,0.01,0.

结果:
论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第5张图片

3、对比实验:

(1)网络结构影响
串行级联结构:
论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第6张图片
论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第7张图片

(2)损失函数影响

更改损失函数权重来判断加入Ls、Ld的影响
论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第8张图片

(3)分支结构影响

对于去雨工作,将两个分支分别替换为SRCNN、VDSR以及替换为SDCNN-S、SDCNN-D(?没太看懂)
论文阅读:Learning Dual Convolutional Neural Networks for Low-Level Vision_第9张图片
SRCNN与VDSR组合,优于与SDCNN-D组合。
因为输入图像的主要结构与输出图像相似。“net-S”中使用更深的模型会在学习阶段引入错误。

分页符

你可能感兴趣的:(文献阅读,图像处理)