利用卷积自编码器对图片进行降噪

前言

这周工作太忙，本来想更把 Attention tranlsation 写出来，但一直抽不出时间，等后面有时间再来写。我们这周来看一个简单的自编码器实战代码，关于自编码器的理论介绍我就不详细介绍了，网上一搜一大把。最简单的自编码器就是通过一个 encoder 和 decoder 来对输入进行复现，例如我们将一个图片输入到一个网络中，自编码器的 encoder 对图片进行压缩，得到压缩后的信息，进而 decoder 再将这个信息进行解码从而复现原图。

作图工具：OmniGraffle

自编码器实际上是通过去最小化 target 和 input 的差别来进行优化，即让输出层尽可能地去复现原来的信息。由于自编码器的基础形式比较简单，对于它的一些变体也非常之多，包括 DAE，SDAE，VAE 等等，如果感兴趣的小伙伴可以去网上搜一下其他相关信息。

本篇文章将实现两个 Demo，第一部分即实现一个简单的 input-hidden-output 结的自编码器，第二部分将在第一部分的基础上实现卷积自编码器来对图片进行降噪。

工具说明

TensorFlow1.0
jupyter notebook
数据：MNIST 手写数据集
完整代码地址：NELSONZHAO/zhihu

第一部分

首先我们将实现一个如上图结构的最简单的 AutoEncoder。

加载数据

在这里，我们使用 MNIST 手写数据集来进行实验。首先我们需要导入数据，TensorFlow 已经封装了这个实验数据集，所以我们使用起来也非常简单。

如果想让数据显示灰度图像，使用代码 plt.imshow(img.reshape((28,28)), cmap='Greys_r') 即可。

通过 input_data 就可以加载我们的数据集。如果小伙伴本地已经有了 MNIST 数据集（四个压缩包），可以把这四个压缩包放在目录 MNIST_data 下，这样 TensorFlow 就会直接 Extract 数据，而不用再重新下载。我们可以通过 imshow 来随便查看一个图像。由于我们加载进来的数据已经被处理成一个 784 维度的向量，因此重新显示的时候需要 reshape 一下。

构建模型

我们把数据加载进来以后就可以进行最简单的建模。在这之前，我们首先来获取一下 input 数据的大小，我们加载进来的图片是 28x28 的像素块，TensorFlow 已经帮我们处理成了 784 维度的向量。同时我们还需要指定一下 hidden layer 的大小。

在这里我指定了 64，hidden_units 越小，意味着信息损失的越多，小伙伴们也可以尝试一下其他的大小来看看结果。

AutoEncoder 中包含了 input，hidden 和 output 三层。

在隐层，我们采用了 ReLU 作为激活函数。

至此，一个简单的 AutoEncoder 就构造完成，接下来我们可以启动 TensorFlow 的 graph 来进行训练。

训练结果可视化

经过上面的步骤，我们构造了一个简单的 AutoEncoder，下面我们将对结果进行可视化看一下它的表现。

这里，我挑选了测试数据集中的 5 个样本来进行可视化，同样的，如果想观察灰度图像，指定 cmap 参数为'Greys_r'即可。上面一行为 test 数据集中原始图片，第二行是经过 AutoEncoder 复现以后的图片，可以很明显的看到像素信息的损失。

同样，我们也可以把隐层压缩的数据拿出来可视化，结果如下：

这五张图分别对应了 test 中五张图片的隐层压缩后的图像。

通过上面一个简单的例子，我们了解了 AutoEncoder 的基本工作原理，下面我们将更进一步改进我们的模型，将隐层转换为卷积层来进行图像降噪。

上面过程中省略了一部分代码，完整代码请去我的 GitHub 上查看。

第二部分

在了解了上面 AutoEncoder 工作原理的基础上，我们在这一部分将对 AutoEncoder 加入多个卷积层来进行图片的降噪处理。

同样的我们还是使用 MNIST 数据集来进行实验，关于数据导入的步骤不再赘述，请下载代码查看。在开始之前，我们先通过一张图片来看一下我们的整个模型结构：

作图工具：OmniGraffle

我们通过向模型输入一个带有噪声的图片，在输出端给模型没有噪声的图片，让模型通过卷积自编码器去学习降噪的过程。

输入层

这里的输入层和我们上一部分的输入层已经不同，因为这里我们要使用卷积操作，因此，输入层应该是一个 height x width x depth 的一个图像，一般的图像 depth 是 RGB 格式三层，这里我们的 MNIST 数据集的 depth 只有 1。

Encoder 卷积层

Encoder 卷积层设置了三层卷积加池化层，对图像进行处理。

第一层卷积中，我们使用了 64 个大小为 3 x 3 的滤波器（filter），strides 默认为 1，padding 设置为 same 后我们的 height 和 width 不会被改变，因此经过第一层卷积以后，我们得到的数据从最初的 28 x 28 x 1 变为 28 x 28 x 64。

紧接着对卷积结果进行最大池化操作（max pooling），这里我设置了 size 和 stride 都是 2 x 2，池化操作不改变卷积结果的深度，因此池化以后的大小为 14 x 14 x 64。

对于其他卷积层不再赘述。所有卷积层的激活函数都是用了 ReLU。

经过三层的卷积和池化操作以后，我们得到的 conv3 实际上就相当于上一部分中 AutoEncoder 的隐层，这一层的数据已经被压缩为 4 x 4 x 32 的大小。

至此，我们就完成了 Encoder 端的卷积操作，数据维度从开始的 28 x 28 x 1 变成了 4 x 4 x 32。

Decoder 卷积层

接下来我们就要开始进行 Decoder 端的卷积。在这之前，可能有小伙伴要问了，既然 Encoder 中都已经把图片卷成了 4 x 4 x 32，我们如果继续在 Decoder 进行卷积的话，那岂不是得到的数据 size 越来越小？所以，在 Decoder 端，我们并不是单纯进行卷积操作，而是使用了 Upsample（中文翻译可以为上采样）+ 卷积的组合。

我们知道卷积操作是通过一个滤波器对图片中的每个 patch 进行扫描，进而对 patch 中的像素块加权求和后再进行非线性处理。举个例子，原图中我们的 patch 的大小假如是 3 x 3（说的通俗点就是一张图片中我们取其中一个 3 x 3 大小的像素块出来），接着我们使用 3 x 3 的滤波器对这个 patch 进行处理，那么这个 patch 经过卷积以后就变成了 1 个像素块。在 Deconvolution 中（或者叫 transposed convolution）这一过程是反过来的，1 个像素块会被扩展成 3 x 3 的像素块。

但是 Deconvolution 有一些弊端，它会导致图片中出现 checkerboard patterns，这是因为在 Deconvolution 的过程中，滤波器中会出现很多重叠。为了解决这个问题，有人提出了使用 Upsample 加卷积层来进行解决。

关于 Upsample 有两种常见的方式，一种是 nearest neighbor interpolation，另一种是 bilinear interpolation。

本文也会使用 Upsample 加卷积的方式来进行 Decoder 端的处理。

在 TensorFlow 中也封装了对 Upsample 的操作，我们使用 resize_nearest_neighbor 对 Encoder 卷积的结果 resize，进而再进行卷积处理。经过三次 Upsample 的操作，我们得到了 28 x 28 x 64 的数据大小。最后，我们要将这个结果再进行一次卷积，处理成我们原始图像的大小。

最后一步定义 loss 和 optimizer。

loss 函数我们使用了交叉熵进行计算，优化函数学习率为 0.001。

构造噪声数据

通过上面的步骤我们就构造完了整个卷积自编码器模型。由于我们想通过这个模型对图片进行降噪，因此在训练之前我们还需要在原始数据的基础上构造一下我们的噪声数据。

我们通过上面一个简单的例子来看一下如何加入噪声，我们获取一张图片的数据 img（大小为 784），在它的基础上加入噪声因子乘以随机数的结果，就会改变图片上的像素。接着，由于 MNIST 数据的每个像素数据都被处理成了 0-1 之间的数，所以我们通过 numpy.clip 对加入噪声的图片进行 clip 操作，保证每个像素数据还是在 0-1 之间。