光谱特征选择---非信息变量剔除UVE

        作为光谱分析的经典算法之一,非信息变量剔除(Uninformative Variables Elimination, UVE)自1996年提出后一直被广泛应用于光谱分析领域,至今相关的研究论文都在使用或者对比UVE算法,因此有必要对UVE的原理、使用及绘图进行分享,作者的原文题目为 Elimination of Uninformative Variables for Multivariate Calibration,可在学术网站上下载查阅。

        1. UVE算法的原理

        UVE算法的核心是利用噪声的无关变量变量信息统计去选择光谱自身的特征变量,其中一个很重要的点是噪声的利用或者加入,此处不得不提一下:噪声的存在不一定都是坏的方面,它的存在深刻影响我们的正常生活,例如基因的表达过程、信息加密、国防建设等重要领域都需要噪声的存在。UVE在添加噪声后,根据光谱变量+噪声组成的自变量矩阵对目标矩阵的回归系数的统计分布进行变量判断,其中回归系数的统计分布以均值和标准差的比值表示,通过确定上下限并提出对应范围内的变量,最终确定特征变量,其流程图如下所示:

光谱特征选择---非信息变量剔除UVE_第1张图片

        2. 代码验证

        目前网页有很多UVE代码的版本,或者mcuvepls的代码,基本上都是错的,此处简要介绍一下错误的原因:UVE的核心是添加噪声进行建模统计,如果没有添加或者生成噪声,那就是简单的LOOCV过程,或者MCPLS,希望大家在购买或者下载时注意。此处我们以公开数据集Corn数据进行分析,首先为噪声生成:

光谱特征选择---非信息变量剔除UVE_第2张图片

        图1 组合光谱(左侧为光谱,右侧为噪声)

        对组合光谱进行LOOCV-PLS建模,并统计各变量回归系数的标准值,对应分布如图2所示,其中可通过上下限确定光谱特征变量(红色):

光谱特征选择---非信息变量剔除UVE_第3张图片

图2 各变量回归系数统计分布

        对应于实际的光谱数据,所选特征变量的分布为,基于此随机数所选的特征变量并不是很完美,原因是左侧端点的变量也被选入,但其在实际分析过程中不符合化学计量学认知,可能需要重新进行噪声生成:

光谱特征选择---非信息变量剔除UVE_第4张图片

图3 所选特征变量分布

        基于上述特征变量所建PLS模型的预测结果为:

光谱特征选择---非信息变量剔除UVE_第5张图片

光谱特征选择---非信息变量剔除UVE_第6张图片

图4 特征变量PLS模型

        由图4可知,UVE方法能够提高PLS模型精度(原始数据:0.9715,0.9686),所选变量能够包含主要光谱特征区域,这也能够说明该方法目前仍被广泛使用。

        最后,我们简要的介绍了UVE的原理,分析过程和主要事项,自己完整的实现了UVE-PLS的编程,欢迎大家交流。

光谱特征选择---非信息变量剔除UVE_第7张图片

你可能感兴趣的:(数据处理,近红外光谱,特征表示,算法)