摘要:Zhou Wang等人提出了著名的图像客观质量评价方法:结构相似度(SSIM),其理论基础是人眼视觉系统能高度自适应地提取场景中的结构信息,大量实验证明SSIM的评价性能多优于PSNR(或MSE)。然而,由于视觉掩盖效应的影响,且SSIM规避了HVS底层视觉特性,直接导致SSIM的评价常与主观评价不符。在深入研究SSIM算法的基础上,根据人眼视觉的掩盖效应之特性,提出图像中不同区域的失真程度引导的权值设计方案:基于梯度加权的SSIM图像质量评价方法(GWSSIM)。实验结果表明,GWSSIM的图像质量评价准确性高于PSNR和SSIM,尤其适用于医学图像。
关键词:结构相似(ssIM);梯度加权;视觉掩盖效应
1 引言
数字图像处理技术的迅速发展为人类带来了巨大的社会经济效益,对自然科学甚至人类社会的发展具有深远的意义” 。数字图像处理技术已经渗透到各个领域。随着现代大型医疗成像技术的飞速发展,新的成像方法不断涌现。CT、磁共振成像(MRI)、放射性核素成像、超声成像、数字减影血管造影(DSA)、正电子发射断层成像(PET)、单光子发射计算机断层成像(SPECT)和数字x线成像等多种先进的影像技术逐步成熟并成功地用于临床,使得能以图像的形式得到有关人体健康的信息。医学图像以其直观准确的特点已成为医学诊断和治疗中的关键环节之一,而且也在治疗计划的设计、外科手术的评价、放射治疗的评价和康复器械的研制等方面发挥巨大作用。作为医学诊断的依据,医学图像的质量是至关重要的,高质量的医学图像将减少诊断的假阳性与假阴性。
图像质量是指人们对图像视觉感受的评价,也是指图像提供给观察者的信息度。因而医学图像质量的评价变成一个广泛而基本的问题。对于医学图像处理系统而言,其信息的主体是图像,衡量这个系统的主要指标就是图像质量。新的医学图像处理方法层出不穷,比如在医学图像压缩技术中,评价压缩算法的优劣以及算法的选取,需要在压缩率、图像质量、执行效率等多种性能指标间权衡;在医学图像的伪影校正消除、去噪、优质重建等医学图像增强系统中,主要考虑使图像的视觉显示质量有所改善;在图像处理过程前后,总会引起图像质量的一些变化,如何评价一幅经过处理的医学图像质量,如何评价某个医学图像处理算法的优劣等是人们关心的问题。客观图像质量评价就是对图像处理技术前后图像质量变化的一种度量,医学图像质量客观评价现在还没有统一的完善的方法。因此医学图像质量评介的研究是医学图像信息工程的重要技术之一。
医学影像成像过程中包括患者、成像设备、系统操作者、成像算法以及传输存储等,每个步骤都会影响数字医学图像的质量。对于医学图像质量的评价,很多研究者已经在医疗成像仪器和操作层面进行了研究,而对于经过医学图像处理技术处理后的图像质量如何进行客观评价较少论述,目前主要采用峰值信噪比(PSNR)或主观感受来进行医学图像质量的客观评价 。本文主要研究经过医学图像处理技术处理后的医学图像质量评价,为医学图像处理技术提供参考。从基本方法上说,医学图像质量评价和普通图像评价是相同的,可以分为主观评价方法和客观评价方法两大类。
医学图像的普通主观评价没有专门的标准,通常是参考普通图像的主观评价标准,就是让观察者(医生)根据一些事先规定的评价尺度或自己的经验,对待测医学图像按视觉效果进行质量判断,并给出质量分数。主观评价方法充分考虑了观察者(医生)对图像的理解效果,符合应用的实际情况。医学图像是为临床诊断服务的,所以主观评价方法是较合理的医学图像质量评价方法。但是这种方法需要组织观察者(医生)多次重复实验,耗时长、成本高。同时,主观评价方法易受到观察者知识背景、观测目的和环境等影响,稳定性和可移植性差,且难以用数学模型表达,因此无法广泛推广应用。
医学图像的客观质量评价方法依据数学模型给出的量化指标衡量医学图像质量,弥补了主观评价方法的不足,具有成本低、易于实现等特点,已经成为医学图像质量评价研究的重点,并被广泛应用到医学图像信息工程领域。目前最常用的客观质量评价方法是均方误差(Mean Square Error,MSE)和峰值信噪比<氏ak Sighted Noise Ratio,PSNR),它们都是基于统计特性的客观图像质量评价方法,具有计算简单、物理意义清晰等优点。但是它们仅仅是对像素点之间绝对误差的纯数学统计,把图像中所有像素点同样对待,没有考虑到像素点间的相关性和人眼视觉系统的感知特性,评价结果不能真实反映图像的视觉感知质量 。随着人们对人类视觉系统的进一步认识,许多研究者通过模拟HVS的生理特征提出改进的客观评价模型,这些模型集中在如何提高模型输出与主观评价结果的相关性。
但是,HVS是一个极为复杂的系统,还无法建立精确、统一的模型,并且对HVS组成结构的模拟通常会导致算法复杂、运算量大。这些算法的评价性能与被广泛采用的PSNR和MSE等简单误差标准相比并没有显著的优势 。医学图像的成像原理和组织本身的特性差异,使图像的形成常受到诸如噪音、场偏移效应、局部体效应和组织运动等的影响,最终使得医学图像与普通图像相比起来不可避免地具有模糊和不均匀性等特点。并且医学图像质量是以符合医学诊断这个高要求为根本准则,医学图像本身所具有的复杂性以及多样性,使得医学图像质量评价至今仍没有获得圆满解决。因此,发展更加符合人眼视觉系统(Human Visual System,HVS)特性的医学图像质量评价方法,对于监控和调整医学图像质量、检验和优化医学图像处理算法意义重大。
目前,最受关注的图像质量评价方法是Zhou Wang等人提出的结构相似度(Structural Simil~ity,ssIM) ,认为人类视觉系统高度适应自然视觉系统,而人眼视觉系统能高度自适应地提取场景中的结构信息。相关实验结果表明,该算法比PSNR指标更符合人类的视觉特性,而且算法简单,已经应用到医学图像处理中。
2 基于图像结构相似度(ssIM)的质量评价
Zhou Wang等人利用图像像素间的相关特性,提出了图像结构信息相似度的概念,认为HVS的主要功能是从视野中提取图像结构信息,并提出了一种新的图像质量客观评价方法:图像结构相似度(ssIM)。通过感知图像结构信息的改变来考虑图像的失真,它比较两幅图像的相似度,而不是差值,获得图像的相似结构映像,从而得到客观预测质量分,因此用对结构信息的度量作为图像感知质量的近似,如果结构相似则可认为前后图像质量变化不大。
3 结构相似度的缺陷
自然图像信号是高度结构化的,相邻像素之间往往存在很强的相关性,这些相关性提供了关于物体结构描述的重要信息。一种理想的图像评价算法应该度量图像结梅信息的失真程度,因为这些结构特征所包含的信息量最大,并且人类视觉系统最为关注。根据文献的论述,结构相似度与过去基于误差的质量评价方法相比,是一种全新的质量评价思想。
SSIM从高层视觉出发理解图像质量,避免了底层视觉建模的复杂性,也避免了底层HVS模型计算复杂性等,SSIM以一种简洁的方式较好地评价了图像质量。但是,SSIM并没有完全解决客观评价与主观评价不完全相符的问题,首先,SSIM的简单线性建模很难描述高层视觉对图像结构信息的复杂处理;其次,对于HVS底层视觉特性的忽视,导致ssnvHg4f~多时候与主观评价不同。经过实验分析,发现SSIM对于交叉失真类型、失真程度严重的图像时准确率仍然较低,对模糊图像的客观评价问题也一直没有得到较好的解决。分析SSIM算法,由于结构比较因子x(x,y)的值范围是卜1,1],因此SSIM会造成结果为负值的不合理情况。
从式(1)的协方差公式可以看出:白噪声失真图像在噪点处其(x。一 )(y 一 多为负值,也就导致了SSIM对此类图像评分整体过低,而对于高斯模糊类图像刚好相反,由于高斯模糊失真图像协方差值较高,导致了SSIM对此类图像评分整体过高,造成SSIM评价方法与图像失真类型有较高的相关性。
图像不同区域、不同内容的失真对人眼主观感受的影响是不一样的。人眼对于图像边缘纹理区域的关注度要大于平坦区域,同时图像边缘纹理区域反馈了图像的大部分信息,因此模糊相对于噪声对于图像的影响更大。SSIM没有考虑这些基本的HVS特性,在评价高斯模糊、白噪声等失真图像时结果不符合主观感受。
通过对人眼视觉现象的观察,结合视觉生理、心理学的研究成果,人们发现了各种视觉掩盖效应。当一个原本可感知的激励,由于另一个可感知的激励的存在变得不容易被感知,这种激励之间的相互作用的现象就是掩盖效应。两个信号具有相似或者相同的空间频率、方向和位置的时候产生对比度掩盖效应,不容易发现失真,或者是熵掩盖效应,即一个失真信号容易在图像平滑区域被察觉,而在高频成分丰富的区域可以被覆盖。由于视觉掩盖效应的存在,在图像中有些失真对图像总体质量不会造成影响,而另一部分会被强化而使图像质量严重退化。比如,噪声对图像平坦区域的影响要大于图像边缘纹理区域,而模糊对于边缘纹理区域的影响明显大于平坦区域。所以,在图像质量评价研究工作中,应对视觉掩盖效应进行重点关注。在图像质量评价中应当利用人眼的视觉掩盖效应,对不同情况进行不同处理,从而得到更趋近于主观感觉的评价结果。针对SSIM的缺点,许多研究者提出不同的改进方法。
文献利用图像梯度信息来替换SSIM中的评价因子,一定程度上规避了图像失真类型对评价结果的影响。文献提出加权结构相似度的策略,对图像不同区域赋予不同权重,获得了一定效果。本文通过对SSIM三个评价因子分解实验,认为亮度比较因子l(x, )能够反映韦伯(Weber)定律,同时能够在亮度变化值超过可见性阈值时定量地反映其变化。SS1M中采用的对比度比较因子为均方根对比度,相较于其他对比度,能更好地预测复合光栅图像与随机噪声模板图像的主观对比度n 。SSIM 中最重要的因子是结构比较因子,是整个SSIM的核心思想,但是结构比较因子难以完整准确地建模人眼的视觉特性,尤其是对于各种视觉掩盖效应不能体现。基于此,提出了基于梯度加权结构相似的医学图像质量评价方法(GWSSIM)。
4 基于梯度加权结构相似的医学图像质量评价方法
4.1 权值的确定
Ran提出了符合人的视觉特性的图像三构件模型u 1,即图像由边缘、纹理和平坦区域三部分构成,其中,边缘起决定性的作用,纹理次之,平坦区域只起陪衬作用。梯度信息能较好地反应图像的边缘纹理信息,图像边缘处梯度较大,平坦区域的梯度较小。因此本文将梯度大小作为权值判断条件之一,梯度大则权值大。
对于图像的每一像素点M,梯度方向是在M点处变化率最大的方向,其模也正好是这个最大变化率的数值。设g ,Y)表示梯度的大小。显然,g x, 是一个标量函数,且总为正值。g ,j,)不为零时,对应像素点与其邻域有灰度变化,存在边缘纹理;g ( , 越大,该像素点的边缘纹理越清晰,图像对比度越好。参考图像梯度小于 的图像区域可以认为是平坦区域,噪声的影响大于模糊,而梯度大于 的图像区域可以认为是边缘纹理区域,噪声的影响小于模糊,根据参考图像和待测图像的梯度差判断定义权值函数。
虽然人的视野非常宽,但是注意力集中的范围却很小,只有被中心凹所感知的小区域为人的注意力集中地带。因此,为了准确观察周围的环境,眼睛需要不停地运动。在评价图像质量时,将一个大的图像分成1 1×1 1像素大小的重叠或不重叠的小图像,然后分别进行结构相似度的计算。基于此,为方便计算,对图像权值的计算也直接利用这种图像的分割。利用每个小图像的梯度大小均值计算小图像的权值,最后计算出整个待测图像的质量值。
4.2 结构相似图像质量评价方法的改进
为符合人类对图像质量的感官评价,认为图像质量客观评价模型应和主观评价一样满足边界性,即:0 SSIM(x,Y) 1,当且仅当X=y时,SSIM(x,y)=1。
4.3 基于梯度加权结构相似的评价模型
由于SSIM受失真类型较大,为了去相关性,采用文献的思想,利用梯度信息替代SSIM中的结构比较因子。在本文中,采用Sobel算子对图像进行梯度的计算,求出参考图像 和待测图像y的每一像素的梯度大小,利用得到的图像梯度大,j、信息,计算出权值矩阵。
5 实验结果及分析
文献认为客观评测值与主观测量值之间存在着非线性关系,为了能更准确反映算法的性能,需要对客观评测的数据进行非线性回归拟合。本文采用文献中的五参数Logis—tic函数进行回归拟合。按照VQEG对模型的检验标准 “,本文选用四个常用客观参量作为评估这些方法的客观指标:非线性补偿后的模型预测质量值和DMOS间的线性相关系数(Correlation Coeficient,CC)、均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和离散率(Outlier Ratio,OR)。相关系数(cc)表示的是客观评分在非线性回归条件下对主观评分的估计值和主观评分(DM0s)的线性相关性,它衡量了客观评价方法的估计精度,CC值越高,说明客观评价方法与DMOS的相关性越好。MAE和RMSE表示客观评分在非线性回归条件下对主观评分的估计值和主观评分DMOS之间的误差,值越小说明该客观评价方法越好。离散率(0R)是表示客观评分对主观评分的估计值和主观评分的一致性的参量,值越小表示客观评价方法越好。为验证本文算法,进行了大量实验,比较了本文算法对PSNR、MSSIM的性能,同时也对文献和文献做了实现比较。MSSIM的评价结果是使用Zhou Wang提供的Matlab程序 得到的。
5.1 LIVE图像质量评价数据库的实验结果比较
由于没有较权威的医学图像库用于测试图像质量客观评价方法,不失一般性,本文仿真实验采用了美国TEXAS大学图像视频工程实验室提供的LIVE图像质量评价数据库第二艘 。该库给出了所有失真图像的“主观差异评分”DM0s(Dif_ference Mean Opinion Scores),描述的是主观评分MOS(MeanOpinion Scores)和满分100分的差值,因此DMOS越大表示图像质量越差,DMOS越小表示图像质量越好,且DM0S的取值范围为f0,lOO]。
去掉未失真的图像,对失真的图像库779幅图像的实验结果,给出了评价这五种方法优劣的客观指标,列出了五种客观评价方法(PsNR、MSSIM、文献、文献和本文算法)相对于主观评分的散点图。可以看出,PSNR的预测质量值与DMOS相关性最差,本文提出的算法是最为突出的,除了OR外,各项指标都明显优于其他算法。
5.2 TID2008图像质量评价数据库的实验结果比较
为进一步验证本文算法的性能,评估算法的普适性,在新的图库上进行了图像的仿真质量评价实验。TID2008c 是欧洲科研机构最近推出的—个用于全参考图像质量评价的图库。文献认为LIVE2图库失真类型单一,无法满足充分评估图像质量评价方法的性能。特别是LIVE2过高评价了VIF的性能,忽视了CSF和对比度掩蔽的效果 针对上述问题,TD2008提供了多达17种失真类型的图像,这些失真图像能有效反映HVS的各方面特性,并充分模拟图像处理中出现的各种失真情况,更接近医学图像的情况。
TID2008的失真图像由25幅原始参考图像经历17种失真产生,每种失真的强度又有4个等级,共形成1 700幅失真图像。通过主观测试,TID2008提供了所有失真图像的主观分MOS,作为衡量客观评价方法的标准。对TID2008失真的1 700幅图像的实验结果,给出了评价这五种方法优劣的客观指标,图3列出了五种客观评价方法(PSNR、MSSIM、文献、文献和本文算法)相对于主观评分的散点图。可以看出,PSNR的预测质量值与DMOS相关性最差,文献的预测质量值与DMOS的相关性不如LIVE图像库,本文提出的算法是最为突出的,除了OR#b,各项指标都明显优于其他算法。
6 在医学图像上的应用
为更好地检验MSSIM和本文的改进算法在医学图像上的应用,使用医学图像做了进一步的仿真实验。来自于哈佛大学的The Whole Brain Atlas图像库 ,图幅大小为256像素~256像素。经过仿真模糊(高斯模糊和运动模糊)和加噪(高斯噪声和乘性噪声)等失真处理。分别对失真图像利用峰值信噪比(PSNR)、结构相似度(MssIM)和本文算法进行客观评价。从评价结果可以看出MSSIM和本文算法比PSNR更符合人眼视党感受。MSSIM的评价结果是使用Zhou Wang提供的Matlab程序 得到的。
7 结论
本文深入研究了SSIM算法,并对其在医学图像上的应用做了初步探讨。由于视觉掩盖效应的存在,图像不同区域、不同内容的失真对人眼主观感受的影响是不一样的,有些失真对图像总体质量不会造成影响,而另一部分会被强化而使图像质量严重退化。SSIM的简单线性建模很难描述高层视觉对图像结构信息的复杂处理,对于HVS底层视觉特性的忽视,导致SSIM评价很多时候与主观评价不同。因此SSIM算法在{乎价模糊失真图像或交叉失真类图像时准确性较差,由于医学图像的特点,SSIM应用到医学图像上的质量评价效果也不够好。本文提出的基于梯度加权结构相似的图像质量评价方法(GwssnvU,充分考虑了边缘和纹理的决定性作用,并考虑视觉掩盖效应的影响。利用图像梯度信息建模图像结构,充分利用梯度信息,减低了评价模型与失真类型的相关性。实验结果表明,本文算法GWSSIM 准确性明显高于PSNR和SSIM,对于交叉失真的评价基本符合人眼主观感受。目前,人眼视觉特性仍没有被充分理解,特别是人眼视觉心理特性还难以用简单的解析式进行定量描述,因此,图像质量评价还有待深入研究。会继续利用最新的数学工具研究更好的符合HVS特性的图像质量评价方法,并且对图像质量评价方法在医学图像上的应用做进一步的研究。