Aesthetic-Driven Image Enhancement by Adversarial Learning

本文讲解的是通过GAN网络的方式来进行图像的艺术驱动方式的增强。
本文的增强方式和其他的增强有很大区别,其实就是改变像素的颜色。用这么深的网络就为了学几个参数。


网络整体结构

整个网络分生成(G)和判别(D)网络,判别网络很好理解,像一般的GAN一样,将真图和假图一起输入,用的是RESNET网络,最后输出一个分数,判别图像质量的优劣。
这里生成网络就和一般的不一样,其中a步骤和一般的网络一样,用低质量图输入,输出fxf的特征map,有2048个通道。
然后b步骤,要根据c步骤来具体实施,如按c中的1,所谓Piecewise Color Enhancer,就是将原图转化到LAB图像空间,也是三通道,增强的方式就是将每个通道的像素,逐像素改变一下值,改变的方式是,如下:


L通道

上式是改变L通道的方式,就是根据每个像素原来的值得大小m,落在某一范围内,然后用对应的式子改变他,这里有四个未知数,a,b,p,q,
在其他两个通道转换的方式如下:
A,B通道

这里的未知数是alpha和beta,那么一共有6个未知数,如果求到了他们6个值就用他们改变每个通道的值,然后再拼起来成一张图。
而a,b两个步骤就是用来求这6个数的,a输出的是2048个channel,到b时,通过一个卷积层变成fxf的大小,(6+1层)特征,6是前面6个未知数,还有1是表示这6个数是最优解的概率。但是现在有fxf组的未知数的值,这里就用top k池化算法,挑选出概率值最高的k组作为候选项,然后再用这个概率值做加权平均,得到最后的一组值,然后用这组值来求优化的图像。这就是Piecewise Color Enhancer方式的生成模型。

然后第2种Deep Filtering-based Enhancer,说是为了避免1方法的局限,这里优化的方式是使用一些现成的滤波器对图像处理,因为使用了多个滤波器,这里求得是这几个滤波器滤波后加权的权值。如果有N个滤波器,b步骤就要有N+1个通道。
第三种是Image Cropping Operator,就是求图像的一个最后剪裁方式,那么有[x,y,w,h]四个参数,一共5个通道。

损失函数:

训练生成模型时的损失函数由以下构成:

对抗损失

沿用WGAN的提出的损失函数,D的输出不经过sigmod,不加log,直接求输出的最小值,具体看wgan原文
正则项1

也是感知损失,就是将图输入VGG,去其中的一个特征层,计算两张图的差别,就是要求不要改的太过分,内容还是要一样的,
正则项2

就是要求优化后的图像不能比原图还差。

训练判别模型:


判别模型损失

用的也是wgan的损失函数。

以上是个人阅读论文笔记,如有错误,希望大家批评指正,谢谢
参考:参考博客

你可能感兴趣的:(Aesthetic-Driven Image Enhancement by Adversarial Learning)