一 为什么读这篇
这篇其实之前在做美感打分时已经读过,基本属于做美感打分的必读文章之一,这次重读把笔记补上。
二 截止阅读时这篇论文的引用次数
2019.1.19 24次。可能还是方向相对更加细分,引用次数和各种经典分类网络是没法比的。
三 相关背景介绍
一作Hossein是个伊朗的小哥,phd在美帝读的,研究方向是图像增强,现在在G家当软件工程师。二作Peyman既是一作的博士老板,也是G家的同事,同时还是伊朗人(这点看来全世界都一样。。)现在是G家的首席科学家,之前主导过Google Glass这款产品,研究方向主要是图像超分辨率。从作者背景似乎也能看出点端倪,图像美感和图像超分辨率有千丝万缕的关系。另外本文没中什么大会。
四 关键词
NIMA
Image Assessment
aesthetics
五 论文的主要贡献
1 提出一种图像美感打分方法
2 预测打分的分布而不是预测打分的均值
六 详细解读
1 介绍
绝大多数美感打分方法仅仅是预测数据集的平均分,而本文方法则是预测分数的分布。此外本文提出的架构明显比其他方法简单,而且效果还不错。本文的网络不仅可以用来对美感打分,而且可以用来辅助增强图像。方法属于『无参考』质量评估。
技术质量评估主要是低阶的(如噪声,模糊度,压缩),美学质量评估量化了情感和美感相关的语义级别的特征。通常分为全参考和无参考两种。
1.1 相关工作
这里基本梳理了下当前的各种方法, 有基于回归loss的,有基于排序loss的,但这些方法几乎都没有说明预测分与真实分的相关性。
1.2 本文贡献
因为本文的目的是预测与人类打分更高的相关性,因此没采用高分/低分的分类方法,也没采用回归平均分的方法,而是将分数的分布作为直方图来预测。同时因为平方EMD(earth mover's distance)在有序分类上有很好的表现,因此将其作为损失。通过本文方法还可以顺带预测分数的标准差。最后还可以对图像进行增强。
1.3 美感视觉分析的大规模数据集(AVA)
25万张图,美感分数由业余摄影师给出。每张图平均有200个人打分。分数范围从1到10。
平均分在5.5分左右。平均标准差在1.4。越靠近中间的分数分歧越小,越靠近两边的分数分歧越大。
1.4 Tampere数据集(TID2013)
属于全参考这种。以柯达提供的25张图作为参考,每张图有5个级别,24种类型(噪声,模糊,颜色扰动。。)共120个扰动,最后得到3000张图。分数范围从0-9。
1.5 LIVE数据集
由移动设备获取的1162张图。分数范围缩放到[1, 10]。
不像AVA数据集,每张图都有分数分布,TID2013和LIVE只提供平均分和标准差。
2 本文方法
本文方法基于图像分类架构,试过VGG16,Inception-v2(Rethinking那篇,不是BN),MobileNet。
baseline网络用ImageNet预训练权重。训练时图像首先被缩放到256x256,然后随机裁剪224x224。值得注意的是,本文也试过不缩放直接随机裁剪的训练方法,不过结果不行。还有个数据增强方法是水平翻转crop。
Ground truth分布表示为,其中,表示第i个分数桶,N表示总共有多少个分数桶。在AVA中,N=10,,。因为,所以表示第一个桶的概率。
给出分数分布p,则分数均值为,标准差为
2.1 损失函数
softmax cross-entropy损失可以表示为。然而,对于有顺序的分类任务,交叉熵损失缺少类间关系的描述。也有争议提到有顺序的分类可以通过回归的方法来做,不过有文章指出,用分类的方法效果优于回归。
对于图像质量打分,类的顺序是固定的()。两个类之间的r-norm距离定义为。
EMD定义为用最小的代价从一个分布往另一个分move the mass。其公式如下:
其中是的累积分布函数。如图8所示,预测的质量概率被喂给softmax函数以确保。设置为2来惩罚CDFs之间的欧氏距离,同时也有利于进行梯度下降的优化。
插入一段Keras实现的EMD
def earth_movers_distance(y_true, y_pred):
cdf_true = K.cumsum(y_true, axis=-1)
cdf_pred = K.cumsum(y_pred, axis=-1)
emd = K.sqrt(K.mean(K.square(cdf_true - cdf_pred), axis=-1))
return K.mean(emd)
3 实验结果
分别在3个数据集上基于美感质量和技术质量训练两个独立的模型。20%的测试集。momentum为0.9,基础网络最后一层的dropout设置为0.75。基础网络和最后全连接层的的学习率分别设置为和。观察到基础网络用更低的学习率更易于优化,此外每经过10个epoch,全部学习率就以0.95的因子进行指数衰减。
3.1 效果比较
准确率,相关性和EMD值是评估指标。从表1也可以看出,作者比较的很多方法都是基于二分类的,没有那么多指标可以用来比较。此外Inception效果好于VGG好于MobieNet也是和预期相符的。
不过表2 TID2013的结果就有些尴尬了,3个模型里VGG16是效果最好的,也只是接近当前SOTA的方法,而不是最好的方法。
3.2 交叉数据集评估
这里想都不用想,肯定数据越多越好,所以自然AVA数据效果优于TID2013和LIVE。
3.3 照片排序
评估的时候按类别分别排序,而不是全部统一排序。图10说明除了图像本身的内容外,其他如色调,对比度和照片组成物也是美学质量的重要因素。图11说明除了图像语义,框架和调色板也是关键因素。
3.4 图像增强
以最大化NIMA得分作为先验,可以增加似然度,它是增强感知质量的似然度。通常通过在各种摄影条件下的大量实验来选择增强算子的参数,例如图像去噪和对比度增强,需要耗费大量的人力物力。本文提出的模型用来增强的更多细节可见作者发表的另一篇文章『Learned perceptual image enhancement』NIMA模型可以指导多层拉普拉斯滤波器找到其参数在美学上接近最佳的设置。
3.5 计算代价
4 总结
本文方法有效的预测了质量分的分布,而不仅仅是平均分,这样可以得到更准确的质量预测。
七 读后感
第二次读本文时感觉很水,介绍其他工作,甚至经典网络的结构都花了一些篇幅。全文核心思想就是将预测一个值改为预测分布,同时loss从交叉熵换成EMD,感觉没有什么特别创新的地方,这可能也是偏应用文章的特点。作为论文来讲可能水了点,有不少凑字的地方,不过核心方法倒是实用,想法比较有新意,简单且有效。所以感觉这篇论文写成一篇博客可能更合适。(不过话说回来,能发论文干嘛不发论文。。)
八 补充
本文作者的另一篇论文讲怎么做图像美感增强的 Learned Perceptual Image Enhancement