EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记

  1. Introduction
    一种高效无监督的生成对抗网络,称为EnlightenGAN,可以在没有低/正常光图像对的情况下进行训练
  2. Difficulties
    1)同步捕获损坏和地面实况图像相同的视觉场景是非常困难甚至不切实际的(例如,光线和普通光照图像对在同一时间)
    2)从干净的图像中合成损坏的图像有时会有帮助,但这种合成的结果通常不够逼真,当训练后的模型应用于真实的低光图像时,会产生各种伪影
    3)特别对于低光增强问题,在低光图像中可能没有唯一的或定义良好的高光真实图像。例如,任何从黎明到黄昏拍摄的照片都可以被看作是在同一场景拍摄的午夜照片的高亮版本。
    考虑到上述问题,我们的首要目标是增强低光照片与空间变化的光照条件和过度/不足的曝光伪影,而配对的训练数据是不可用的。
  3. Contribution
    1)EnlightenGAN是第一个成功地将非配对训练引入低光图像增强的作品。这种训练策略消除了对成对训练数据的依赖,使我们能够使用来自不同领域的更大种类的图像进行训练。它还避免了以前的工作[15,5,16]隐式依赖的任何特定数据生成协议或成像设备的过度拟合,从而显著改进了现实世界的泛化。
    2)EnlightenGAN通过引入下列两个操作,获得了显著的性能。(i)一个处理输入图像中空间变化光照条件的全局-局部鉴别器结构;(ii)自正则化思想,通过自特征保留损失和自正则注意机制来实现。自正则化对于我们的模型的成功是至关重要的,因为在不配对的情况下,没有强有力的外部监督形式可用。
    3)通过综合实验,将EnlightenGAN与几种先进的方法进行了比较。测量结果包括视觉质量、无参考图像质量评估和人的主观调查。所有的结果都一致认可EnlightenGAN的优越性。此外,与现有的配对训练增强方法相比,EnlightenGAN被证明特别容易和灵活地用于增强不同领域的真实低光图像。
  4. Architecture
    EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第1张图片
  5. Method
    A. Global-Local Discriminators
    为了自适应地增强局部区域,在提高全局光照的同时,我们提出了一种新的全局-局部鉴别器结构,该结构使用PatchGAN进行真假鉴别。除了图像级全局鉴别器,我们还添加了一个局部鉴别器,通过从输出和真实的正常光照图像中随机裁剪局部小块,并学习区分它们是真实的(与真实图像)还是虚假的(与增强的输出)。这种全局-局部结构保证了增强图像的所有局部区域看起来都像真实的自然光,这对于避免局部过曝或低曝至关重要,我们的实验稍后将揭示这一点。
    此外,对于全局判别器,我们利用最近提出的相对判别器结构[35]估计真实数据比虚假数据更真实的概率,并指导生成器合成比真实图像更真实的伪图像。相对论判别器的标准函数是:EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第2张图片
    其中C表示判别器网络, x r x_r xr x f x_f xf分别表示真实数据和虚假数据的分布, σ \sigma σ表示sigmoid激活函数。我们稍微修改了相对论判别器,用最小二乘GAN(LSGAN)损失代替了sigmoid函数最后全局判别器D和生成器G的损失函数为:EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第3张图片
    对于局部判别器,我们每次从输出图像和真实图像中随机裁剪5个patch。这里我们采用原LSGAN作为对抗性损失,如下:EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第4张图片
    B. Self Feature Preserving Loss
    在我们的非配对设置中,我们建议改为限制输入的低光与其增强的正常光输出之间的VGG特征距离。这是基于我们的经验观察,当我们操纵输入像素强度范围时,VGG模型的分类结果不是很敏感,这与最近另一项研究[38]的结果一致。我们称其为自特征保留损失,是为了强调其自正则化的实用性使图像内容特征在增强前后保持不变。这与(成对的)图像恢复中感知缺失的典型用法不同,也是由我们的非成对设置激发的。具体地说,自特征保留损失 L S F P L_{SFP} LSFP定义为:
    EnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第5张图片
    I L I^L IL表示输入的低光图像, G ( I L ) G(I^L) G(IL)表示生成器的增强输出。 ϕ i , j \phi_{i,j} ϕi,j表示在ImageNet上预先训练的VGG-16模型中提取的特征图, i i i表会第 i i i个最大池化, j j j表示第 i i i个最大池化之后的第 j j j个卷积层。 W i , j W_{i,j} Wi,j, H i , j H_{i,j} Hi,j是提取的特征图的尺寸大小。默认情况下,我们选择 i i i= 5 , j j j= 1 。
    对于我们的局部判别器,从输入和输出图像中裁剪出的局部小块也通过类似定义的自特征保留损失 L S F P L o c a l L^{Local}_{SFP} LSFPLocal进行正则化。此外,我们在VGG特征映射后添加了一个实例归一化层,然后再将其加入到 L S F P L_{SFP} LSFP L S F P L o c a l L^{Local}_{SFP} LSFPLocal中,以稳定训练。因此,训练EnlightenGAN的总体损失函数为:
    在这里插入图片描述
    C. U-Net Generator Guided with Self-Regularized Attention
    提出了一个易于使用的注意机制的U-Net生成器。直观地说,在空间变化光照条件下的低光图像中,我们总是希望对暗区域的增强大于对亮区域的增强,这样输出的图像既不会过度曝光也不会低曝。我们将输入RGB图像的光照通道 I I I标准化为[0,1],然后使用1 - I I I(元素差异)作为我们的自正则注意图。然后,我们调整注意图的大小以适应每个特征图,并将其与所有中间特征图以及输出图像相乘。我们强调,我们的注意力图也是一种自我规范的形式,而不是在监督下学习。尽管其简单,注意力引导显示始终如一地改善视觉质量。
    我们的注意力引导的U-Net生成器是由8个卷积块实现的。每个块由两个3*3个卷积层组成,然后是LeakyReLu和一个batch normalization层[42]。在上采样阶段,我们将标准反卷积层替换为一个双线性上采样层和一个卷积层,以减轻棋盘图的伪影
  6. EXPERIMENTS
    A. Dataset and Implementation Details
    因为EnlightenGAN具有独特的能力,可以用不配对的低光、常光图像进行训练,所以我们能够收集到更大尺度的unpair训练集,涵盖了不同的图像质量和内容。我们从[43,5]和[15,25]中发布的几个数据集中收集了914张低光1016张普通光图像,而不需要保存任何一对。手动检查选择,去除中等亮度图像所有这些照片都被转换成PNG格式,并调整到600*400像素。对于测试图像,我们选择了之前作品中使用的标准图像(NPE [19], LIME [21], MEF [44], DICM [45], VV,等)。
      EnlightenGAN先从头开始训练100次迭代,学习率为1e-4,然后再训练100次迭代,学习率线性衰减为0。我们使用Adam优化器,批大小设置为32。由于单路径GAN的轻量级设计,无需使用循环一致性,因此训练时间比基于循环的方法短得多。整个培训过程需要3个小时的Nvidia 1080Ti gpu。
    B. Ablation Study
    C.Comparison with State-of-the-Arts
    C.1 Visual Quality Comparison

    C.2 Human Subjective EvaluationEnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第6张图片
    C.3 No-Referenced Image Quality AssessmentEnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第7张图片
    C.4 Adaptation on Real-World ImagesEnlightenGAN: Deep Light Enhancement without Paired Supervision--论文阅读笔记_第8张图片
    C.5 PreProcessing for Improving Classification
    图像增强作为改善后续高级视觉任务的预处理,近年来受到越来越多的关注[28,49,50],并进行了一些基准测试工作[47,51,52]。我们研究了光增强对极暗(ExDark)数据集[53]的影响,该数据集是专门为低光图像识别而构建的。光增强后的分类结果可以作为语义信息保存的间接措施,如[28,47]所示。
      ExDark数据集由7363张低光图像组成,其中训练集图像3000张,验证集图像1800张,测试集图像2563张,注释为12个对象类。我们只使用它的测试集,使用我们的预处理EnlightenGAN作为预处理步骤,然后通过另一个在mageNet预训练的ResNet-50分类器。既不进行领域适应,也不进行联合培训。高级任务性能作为增强结果的固定语义感知度量。
      在低光测试集中,使用EnlightenGAN作为预处理,提高了分类精度,从22.02% (top-1)和39.46% (top-5)提高到23.94% (top-1)和40.92% (top-5)。这提供了一个侧面的证据,除了产生视觉上令人愉快的结果以外,EnlightenGAN还保留了语义细节。我们还用LIME和AHE进行了实验。LIME将准确率提高到23.32% (top-1)和40.60% (top-5),而AHE提高到23.04% (top-1)和40.37% (top-5)。
  7. Conclusion
    本文提出了一种新颖、灵活的无监督框架来解决低光增强问题。所提出的EnlightenGAN在没有配对训练数据的情况下,能够很好地进行操作和推广。在各种低光数据集上的实验结果表明,我们的方法在主观和客观指标下都优于多种最先进的方法。此外,我们证明EnlightenGAN可以很容易地适应真实的低噪声微光图像,并产生视觉上令人愉快的增强图像。我们未来的工作将探索如何在一个统一的模型中控制和调整基于用户输入的光增强级别。由于光增强的复杂性,我们也希望将算法与传感器的创新相结合。

你可能感兴趣的:(论文阅读,算法,计算机视觉,人工智能,深度学习)