NIMA --Neural Image Assessment

唠点闲嗑:
首先,为什么会读这篇论文呢?是因为我最近在看一部分东西的时候,涉及到了AVA数据集,于是就搜索了下它的背景,然后找到了这篇论文Neural Image Assessment

背景
“这张图片美吗?”不同的人可能给出的答案是不同的,因为人们对于图像美丑的评判标准是不一样的,那么,如何让计算机来辨别一副图像的美呢,或者说应该制定个怎样的标准来让计算机判断一张图像的美?

图像质量与美学的量化问题一直是图像处理与计算机视觉领域中一个值得探讨的问题。从技术的角度来说,图像质量评估(Image Quality Assessment)主要与像素降级(degradation)相关,比如噪声、模糊、压缩失真等。而图像在美学层面的评估,则需要根据图片的语义等特征来判断。

通常情况下,图像的质量评估一般分为两种:

  • 有参照(Full-Reference,FR):PSNR(峰值信噪比)、SSIM(标准-结构相似度)等图像质量评分系统
  • 无参照(No-Reference,NR):需要依靠模型来进行评估
    但无论是哪种方式,都是为了得到的评分结果接近人类评分。

传统的基于深度卷积神经网络的图像质量评价方法中,一般都是先用一套经典图像数据库(如ImageNet等)训练系统,初始化权重,然后利用人工分类后的不同质量图像进行微调,进一步训练系统。这种方法大多会把图像分为两类:质量好的和质量不好的,使得应用具有局限性。

NIMA
NIMA基于最新的深度物体识别(object detection)神经网络,能够从直接观感(技术角度)和吸引程度(美学角度)预测人类对图像的评估意见的分布。文中提出的神经网络的打分具有与人类主观打分很相近的优点,因此可以用于图像质量评估工作。

在训练数据集中,每张图像都与人类直方图相连接,但是传统的美感评分系统还是只能将图像质量分为好或者不好两种。NIMA算法没有采用这种分类方法,也没有使用回归平均分的方法,而是对任意图像都生成评分直方图–即对图像进行1-10分的打分,并直接比较同一主题的图像。这种设计跟人类评分系统产生的直方图在形式上吻合,且评估效果更接近人类评估的结果。

论文贡献
论文的主要目的是通过CNN预测图像质量得分的分布,将分数的分布作为直方图来预测。同时根据人类对图像的评价概率分布,计算出EMD(earth mover’s distance,搬土距离)-based loss,进行反向传播。之所以这样做的原因是,EMD在有序分类上有很好的表现,因此将其作为损失。不用回归而用分类是因为根据相关文献指出,基于分类的做法的效果更好些,而这个分类也不是纯粹的相互独立地分类,因为类与类之间也有比较关系,而EMD-based loss可以做到这点。

数据集

AVA dataset
这是一个美学质量评估的数据库,大约有255000张图像。每张图像都有大概200人参与1-10的打分,以及语义级别的label。60多个类别的语义标签以及与图像质量相关的摄影风格标签分类。分值越高,代表图像质量越好。
在AVA上训练模型,得到预测的整体平均值在(5.5)周围偏差很小,平均偏差在1.4左右,越靠近中间的分数分歧越小,越靠近两边的分数分歧越大。
NIMA --Neural Image Assessment_第1张图片
NIMA --Neural Image Assessment_第2张图片
Tampere(TID2013)数据集
它是为评估全参考感性图像质量而策划的,包含3000张图像,以柯达提供的25张图作为参考,每张图有5个类别,24种类型(噪声、模糊、颜色扰动),共120个扰动,打分是从0-9
主要是提供一些失真的图像,比如压缩、噪声、模糊、和color artifact之类的失真
观察者在两个失真图之间选择更好的图像。每个实验中,每个失真的图像被用于9个随机的成对比较,所选图像获得一个点,而其他图像获得零点。实验结果时,将点的总和用作与图像相关联的质量得分(这导致得分范围从0到9)。为了获得总体平均分,进行了总共985个实验

LIVE IN the Wild Image Quality Challenge Database
包含1162张由移动设备捕获的照片,每张照片的平均从175个不同的主题来打分,分数范围是1-10.不像AVA数据集,每张图都有分数分布,TID2013和LIVE只提供平均分和标准差

主要内容
论文基于图像分类架构,采用VGG16,Inception-v2,MobileNet进行评估任务。在训练中,输入图像被缩放为256 * 256,然后随机提取大小为224 * 224的裁剪区域

框架中使用了改进的基线图像分类器网络,最后一层分类器网络被一个全连接层所取代,输出10个质量等级的分数。基线网络权重通过对ImageNet数据集的训练初始化,添加的完全连接权重随机初始化。
NIMA --Neural Image Assessment_第3张图片

人们对一张图片的评分作为经验概率质量函数:
在这里插入图片描述
i指的是第i类score bucket,N是score buckets的数量,落入N类不同得分的概率和为1

图像平均得分:
在这里插入图片描述
得分标准差:
在这里插入图片描述
损失函数
NIMA --Neural Image Assessment_第4张图片
总结
准备率、相关性和EMD值是评估指标,Inception效果>VGG>MobileNet
评估时按类别分别排序,而非统一排序
除了图像本身的内容外,其他如色调,对比度和照片组成物也是美学质量的重要因素
除图像语义,框架和调色板也是关键因素
NIMA模型可以指导拉普拉斯滤波器找到其参数在美学上接近最佳的设置
将预测一个值改为预测分布,loss从交叉熵换为EMD

最终一张图片的综合评价是由分数概率分布的均值与标准差来决定的,均值代表了这张图片的质量分数,标准差代表了非常规程度

本文有效的预测了质量分的分布,而不仅仅是平均分,这样可以得到更准确的质量预测。

主要参考:
https://blog.csdn.net/weixin_34167043/article/details/87221514
https://blog.csdn.net/HaixWang/article/details/84028134
https://blog.csdn.net/qq_22194315/article/details/82713283

你可能感兴趣的:(Deep,learning)