Learned Perceptual Image Enhancement笔记

摘要与引言

图像增强模型的学习过程涉及到如L1/L2等损失函数的优化,虽然这些损失函数对优化来说是友好的(optimization-friendly),但使用这些损失函数通常难以产生对人类感知有吸引力的(perceptually compelling)结果,甚至导致感知失真(perceptual distortion)的缺陷。本文提出在损失函数中加入一项学习得到的无参考的图像质量度量标准(learned no-reference image quality metric),由此显著提升图像增强算子的效果。这项度量标准通过用CNN(convolutional neural network,卷积神经网络)在一个人类标注审美评分的大型数据集上训练得来。本文提出的损失函数同时对模型输出的预测值与ground truth真实值的距离图像质量作出约束。

贡献

本文有两个主要贡献:

  1. 预测图像美学评分的NIMA模型
  2. 将NIMA模型加入到图像增强任务的损失函数中,作为损失函数的一个附加项,通过这个附加的感知性损失来使图像增强算法得到更符合人类审美的结果。

图1为AVA数据集中的图像经过NIMA模型后得到的美学评分预测结果,括号中的为ground truth。
Learned Perceptual Image Enhancement笔记_第1张图片
图2为本文提出的图像增强网络训练框架。(x, xr)分别是输入图像与基准图像。enhancement CNN是产生增强图像的网络,用perceptual loss作为损失函数来训练该网络的权重W。本文提出的损失函数包括一个数据保真项f(.) 和一个图像质量评估项q(.)
Learned Perceptual Image Enhancement笔记_第2张图片

感知性损失(perceptual loss)

本文提出的损失函数可用下式表达:
在这里插入图片描述
其中f(.) 的输入为基准图像xr 与模型输出的增强图像Cw(x)f(.) 可以是L1/L2 loss,用以测量基准图像与预测图像间的距离,作为一个数据保真项。
γ的值大于0,用以控制感知项对损失函数的影响能力。
感知项q(Cw(x)) = 10 - NIMA(Cw(x));其中NIMA(x) 是图像x的美学评分,10分为最高分。可见若NIMA(Cw(x))的值越小,则q(Cw(x))的值会越大,由此为损失函数增加了美学上的约束。

NIMA: Neural Image Assessment

本节介绍NIMA网络结构
本文使用VGG16、Inception-v2、MobileNet作为NIMA的基准网络。
如图三所示,基准CNN网络中的最后一层被替换成平均池化层与其后续的10个神经元的FC层。
基准CNN网络的权重使用在ImageNet上的预训练权重,随机初始化最后的FC层权重,NIMA网络的权重在AVA数据集上训练而来
Learned Perceptual Image Enhancement笔记_第3张图片

训练NIMA

训练NIMA模型的目的是获得给定图像的质量评分分布。图4为ground truth分布与NIMA预测分布的对比
Learned Perceptual Image Enhancement笔记_第4张图片
使用基于EMD的损失函数来训练NIMA模型。其公式如下:Learned Perceptual Image Enhancement笔记_第5张图片

参考文献

Talebi H, Milanfar P. Learned perceptual image enhancement[C]//2018 IEEE International Conference on Computational Photography (ICCP). IEEE, 2018: 1-13.


待解决的疑问

  1. 基准网络中的FC层全部替换成卷积层?这个理解是否正确?若是,如何替换?
    Learned Perceptual Image Enhancement笔记_第6张图片
    Learned Perceptual Image Enhancement笔记_第7张图片
  2. 每个AVA数据集中的图像对应一个集合的评分p?为何不是一个图像对应一个评分?
    Learned Perceptual Image Enhancement笔记_第8张图片
  3. Earth Mover’s Distance学习
  4. Context aggregation network学习

你可能感兴趣的:(论文笔记)