Deep Image Prior文章解析

         昨天(11月30)出了名叫“DeepImage Prior” 的这篇文章,文章在图像转换任务上处理效果很好,而且提出了一个很惊人的思想,认为模型可以不通过对于数据集上进行学习和预训练就能实现图像转换任务:例如去噪,超分,Inpainting等任务,只需要调节一些超参数例如网络训练次数和学习率等。

         文章的主要内容如下:

         深度卷积神经网络能够很好处理图像生成,和修复任务,其主要的优势在于模型对于大量的数据样本集进行训练,使得模型能够学习到这些数据的先验信息,从而在对于图像处理的时候表现优异。但是文章发现,实际中生成网络能够在模型学习之前就能有效掌握大量low-level的图像统计学信息。证明的实验是,利用一个随机初始化的神经网络就可以作为一个“人工先验”,可以直接应用在图像去噪,超分辨,图像修复等任务中。

         目前在图像复原,图像生成任务中表现优异的卷积神经网络都是使用大量的数据集进行训练,以往通常的解释是,网络能够学到数据的先验信息。但是这种学习能力不能单一解释深度网络的有效性。例如,[1]作者研究中发现,在真实数据集中训练好的分类模型也会出现过拟合的现象,给出随机的label输出(这段论据我没有看的很懂,我认为这是正常的,可能是我没有阅读过这篇文章,后续会看一看仔细剖析一下)。

         本篇文章认为,图像的统计学信息是被卷积的图像产生的而不是被网络学习得到的。

         为了证实这一点,作者使用没有被训练的卷积生成网络来处理上述中图像转换任务。

         作者发现这种构想是更加卓越的方法,因为网络没有对于数据进行过训练;由于网络权重是随机的,所以唯一的先验信息是来自网络结构本身。这种思路在之前是没有被提出过的。

         对于图像修复任务,文章主要的方法是:

1.使用随机参数初始化深度卷积网络F;

2.之后利用GAN思想,将一组固定的随机向量编码z作为网络的输入;

3.网络的目标是将输入的编码z进行不断的分布学习,得到一张图片X,从而对于网络的参数进行训练,来实现图像修复任务;

4.模型选择的损失函数主要是生成图像和真实图像之间的MSE,第二项为正则化项:

5.模型使用网络结构是GAN网络中使用的自编解码网络结构,网络参数个数大约是2百万个;

文章在实验过程中发现,使用MSE损失,模型对于纯0/1噪声以及完成图像将像素点随机打乱后的图像进行收敛很难,而完整图像叠加噪声以及完整图像不加噪声的数据能够更容易收敛,如下图所示:


通过这样的研究意味着,限定模型的训练迭代次数之后,可以将图像任务优先完成,而随机噪声等就会在未收敛时被去除,从而达到去噪的任务。

通过这样的思想,作者发现在生成模型训练很久之后,模型F可以生成和X一致分布的图像X~;而在训练中进行迭代次数限制之后,可以让模型输出修复的图像X^;

这样的实验说明了生成网络有一种能力,能够先学会图像X中没有被破坏的部分,然后再学习被破坏部分的优化。例如,会学习如何复制一张没有噪声的图像,然后再去复制这些噪声点。

这种不需要对于预修复数据集进行训练的方法能够实现模型的转化任务,并且对比与专一的转化模型方法,如去噪的CBM3D,超分辨的SRResNet,LapSRN,图像Inpainting的Globally and locally consistent image completion等方法,这种模型思想更加简单而且通用性强,网络参数也可能会少一些(我个人的看法),尽管模型还没有达到上述模型那么高的处理性能,但是模型也是有不错的处理效果。

下面是实验对比:

1.去噪:


2.超分辨X4


3.Inpainting


 

 

[1]: C. Zhang, S. Bengio, M. Hardt, B.Recht, and O. Vinyals. Understanding deep learning requires rethinkinggeneralization. In Proc. ICLR, 2017. 2

你可能感兴趣的:(Deep Image Prior文章解析)