This paper discusses the principles and methods of modern algorithms for automatically assessing the perceived quality of visual signals.
By Alan Conrad Bovik, Fellow IEEE
Proceedings of the IEEE | Vol. 101, No. 9, September 2013
主要讲了静态图片和视频流的广泛应用和发展,以及由此产生的对于自动并且准确的视觉信号质量评估的需求和重要性。这里作者认为可以通过质量评估的算法来提高图片质量,比如 perceptually optimize 图像或者视频的质量,或者调整视频传输的速率,或者网络资源重新分配,或者后处理等。
上图是将IQA问题同经典的视觉通信系统做了一个类比,自然图像信号就是发射器,中间的传感器和数字通信设备就是信道,而我们的视觉中枢就是接收器。
自然图像的统计特性,记做NSS。
自然图像有很多有意思的统计学上的regularity,比如:自然图像具有统计意义上的自相似性(self-similarity),具有fractal power law或者叫reciprocal power law,也就是倒数法则,所谓倒数法则是指自然图像振幅谱中,振幅和频率呈现反比例函数的关系,也就是倒数关系。Amplitude spectra of natural images D.J.Tolhurst et al 一文中将amplitude和spatial frequency做了双对数图,得到了这些点的斜率为-1,证明了这一点。通俗来讲,就是自然图像中含有较多的低频分量,也可以说是自然图像常常是缓变的。以及,自然图像的主成分很想边缘滤波器,边缘滤波器是图像处理中常用的,同时也是用来模拟视觉中枢的神经系统响应的模型。
一个常用的NSS模型是GSM模型,Gaussian scale mixture,指的是自然图像把最低的空间频率去掉以后符合GSM概率分布,另外,对自然的视频来说,把前后两帧相减以后的结果的小波系数或者bandpass response也遵循GSM模型。
这里的接受者模型就是人的主观视觉的接收器也就是人的视觉系统,作者提到:Indeed, the collective local neural ‘impulse response’’ closely approximates a local difference-of-Gaussian (DoG) low-pass filter。也就是说,冲击响应是一个类似DoG的低通滤波器。
Cortical processing of visual signals may also be viewed as an evolutionary response to the naturally multiple-scale, multiple-orientation statistical properties of the visual world.
在对于图像质量的视觉感知中,有所谓的masking principle,这种visual masking存在于一个信号减弱或者消除了另一个信号的可见性,典型的就是相似的频率,方向,运动,颜色等,以及其他一些特征。一个典型的luminance的masking就是Weber-Fechner law,大意就是人们对亮度变化的感知能力和局部的变化率成正比,也就是说亮度大的部分的变化要是想被看出来的话,需要更大的变化程度。另一个是AGC相关,AGC(adaptive gain control)是一个divisive normalization的过程,如下图:
下面还讲了对于temporal cortical processing的一些机制,此略。
常见的图像的畸变有以下几种,比如:jpeg压缩导致的block和ringing现象,noise,也就是噪声的影响,以及blur,即图像的模糊,这些都会降低图像质量,在直方图中可以看出自然图像和畸变后的图像具有明显的差别:
畸变图像可以经验地用generalized Gaussian distribution(GGD),广义高斯分布来表征:
可以看到,gamma等于1的时候就是常见的拉普拉斯分布。对于没有畸变的图像,Gamma约等于2,sigma约为1。
除此之外,由于畸变的信号会造成unnatural spatial dependencies,这种空间依赖性可以用一个归一化了的像素点的值和它的8邻域的点值相乘的乘积来测量。这个乘积结果的分布可以用AGGD模型,也就是asymmetric GGD,非对称的广义高斯模型来表征,AGGD如下:
以上这些模型参数在我们估计图像质量的过程中可以使用。
图像质量评估可以分为三种:FR,RR,NR,即full reference, reduced reference, no reference。首先介绍的是FR,也就是有参考图的IQA问题。通常的指标是MSE,PSNR,mse但是并不能很好的表征对图像的主观感知的评价,但是计算上较为方便。可以表征perceptual的图像质量评估模型中最成功的是SSIM,可以用NSS模型表征。而且在GSM模型下,SSIM和另一种叫做VIF(visual information fidelity)的模型得到的指标很相近。其他的还有VSNR模型。
SSIM可以作为FR IQA的一个benchmark,有一个idea叫做perceptual optimization,即直接用SSIM来对图像质量进行优化。
在实际中的质量监控应用中通常很难找到reference image或者video signal,如果完全没有reference,那么就是NR,如果可以找到reference,但是如果要想得到所有需要评价的位置的reference的开销较大,那么可以用RR的方法,传送一小部分reference information也是很好的选择。
RR的IQA问题中,most prominent general-purpose RR IQA 算法是基于NSS模型的。‘‘quality-aware image’’ RR IQA method 对小波系数使用了GGD模型,并把NSS-based quality aware features嵌入到图像中。 类似地,‘‘divisive normalization’’ RR IQA model 也是基于小波系数使用 GSM model 。
NF 的 IQA 也叫 blind IQA 。这方面工作较多,NR 的 IQA 很多使用各种形式的机器学习方法,比如trainning和clustering等。NR IQA Blind/Referenceless Image Spatial QUality Evaluator (BRISQUE) index。利用前面提到的NSS模型,里面的系数,gamma,sigma,以及point-product model,得到的不对称的广义高斯分布的参数,在各个方向上(两个直线方向,两个对角线方向),最后可以提取到36个特征,用SVR之类的机器学习方法对MOS(mean opinion score)做回归,可以得到结果。 Currently, BRISQUE delivers the highest level of predictive IQA performance among general purpose NR IQA models on the LIVE database of distorted images [82], [138], while also offering computational efficiency.
然而实际上这种程度的质量预测的performance可以不用通过训练人对于畸变图像的human opinion来得到, ‘‘completely
blind’’ natural image quality evaluator (NIQE) model 将这些畸变图像中提出的特征和高质量图片 representative (and sufficiently large) corpus of high-quality images 进行对比,也可以得到近乎和BRISQUE方法同样的水平。NIQE是一个真正的描述图像的naturalness的measure。
可以将color quality列入模型的考虑范围。另外Assessing the quality of stereoscopic (3-D) images is also a topic of pressing interest. Last, an exciting direction of inquiry is the interaction between visual quality and visual task.
2018年04月11日11:12:21