NIMA模型

原理

  • 分类器输出各个分数的概率值,与GT的打分计算loss
  • loss采用EMDloss
  • 这样意味着不是简单的二分类,也不是对得分进行回归,而是让模型去生成对输入图片的得分的分布,并且假设是高斯分布,这样就可以得到均值和方差,用均值作为输入图片美观度的得分
  • 好处在于,这个分布模拟了许多人为这张图片打分后,打分的分布情况,这样得到的均值仿佛在统计意义上更加贴合人类的偏好,相比其他的方法也的确得到了更高的精度

模型结构

各种baseline CNN + FC + softmax
FC的输出维度由数据集打分的范围决定,例如1-10分则为10个分类

重点理解

文章的重点主要在于采用了这个EMD函数,之前没见过,需要理解一下
NIMA模型_第1张图片
CDF是累计分布概率函数,所以能够体现出有序类别中的类间关系,[21]中已经证明对于这种从1-10打分的分类问题来说,EMD loss比CE loss的效果更好。


[21] L. Hou, C.-P. Yu, and D. Samaras, “Squared earth mover’s distancebased
loss for training deep neural networks,” arXiv preprint
arXiv:1611.05916, 2016. 2, 6

你可能感兴趣的:(CV学习笔记,深度学习,人工智能,python,计算机视觉)