第一章---近红外光谱概述2(近红外光谱分析难点及解决思路)

       2.1 近红外光谱数据难点

        概述1中简单介绍了近红外光谱分析的原理和实测数据的复杂、多元、重叠等特性,这些特性导致所得光谱数据无法直接建立关联分析模型。以农业检测为例,某样品所测光谱数据如图1所示,(图片来源:严衍禄等.近红外光谱分析的原理、技术及应用,涉及到纯样分析,暂时无法获取数据),图1(1)中1和3所示为同一样品在不同扫描时间的光谱,1和2为不同样品在同一时间的扫描光谱,图1(2)中5表示实测谷物的近红外光谱,其主要组成成分包含水分、脂肪、蛋白质和淀粉等,1-4分别表示上述组分的光谱(单峰或多峰),通过分析5和1-4之间关键峰值位置及其吸光度大小发现,实测光谱重叠了物质所含主要分析成分,直接反映了实测光谱数据的复杂性和重叠性。图1(3)实测多个谷物样本的光谱数据,其主要成分含量差异较大(一倍以上),但是光谱数据的表观特征差异性不明显。此外,对比图1(2)和(3)发现,相比于纯组分分析,实测数据含有明显的背景信息,其信号强度远大于吸光度强度,即光谱信息在总信息中属于弱信息(信号强度弱特点)。

第一章---近红外光谱概述2(近红外光谱分析难点及解决思路)_第1张图片

         2.2 近红外光谱分析难点

        根据2.1表述及图1所示,实测光谱数据表征多组分的重叠光谱数据,按照数据组成以及分析目的,目前近红外光谱分析有两种模式:绝对分析和相对分析。其中,绝对分析表示直接利用光谱与待测量之间现成的、特定的数学关系模型分析不同分析对象的待测光谱;相对分析表示分别按照各自的分析条件,自己建立光谱与待测量之间的数学模型,其所建模型只能用于自身观测光谱分析。简单讲就是全局模型与局部模型的概念,也可以是全谱区与局部谱区的关系。

        考虑到相对分析模型的局限性(样本量、数据分析、建模工作量等),一般都采用绝对分析进行近红外光谱分析。在绝对分析中,如何运用确定的关系模型实现变动光谱的稳健性分析是目前近红外光谱分析的难点,也是限制分析模型性能的主要因素。

        前期有学者讨论过利用近红外光谱分析模型的多元性提高光谱的包容性,其分析思路如下:

假设待测量浓度c和波长吸光度A的多元关系方程可表示为:

c = k_0+k_1A_1+k_2A_2+\cdots +k_nA_n

当光谱变动时,其某一点波长吸光度 A_i 发生变化,通过对其系数 k_i 进行置零处理建立容变方程,即光谱波动不影响分析结果,以此说明所见方程具有“包容”性能。仔细分析发现,这个想法存在一定的缺陷,首先无法确认变动波长点是否为对应组分的倍频或合拼振动波长,其次对于官能团对应特征波长点进行置零处理导致模型解释性降低,另外置零处理改变了其他波长点系数的权重,进而放大了无关/冗余变量的作用,最终降低了分析模型的分析性能。

        2.3 近红外光谱分析的技术思路

        按照上述思路,近红外光谱分析的基本技术思路是:建立与应用容变性的关系模型以解决光谱变动对分析结果的影响。其中容变性模型是指关系模型的关系可靠性与模型分析范围的容变性,即前面所述的关系信息和范围信息。由图2可知,相比于常规光谱分析,近红外光谱分析过程在建立关系模型的同时,也需要采集与处理模型范围信息,并根据分析结果进行反向优化模型结构和模型参数等实现模型优化。

第一章---近红外光谱概述2(近红外光谱分析难点及解决思路)_第2张图片

图2 常规光谱分析与近红外光谱分析的技术思路对比         

        根据近红外光谱分析的技术思路可知,其基本的信息流程处理环节主要有:多元信息采集,多元数据关键特征提取及多元数据建模。根据不同环节在模型性能中的作用,主要由以下几种技术分析方法:

        (1)数据采集

        样本数据采集是近红外建模分析的第一步,其对决定模型关系信息和范围信息起决定性作用。实际信息采集过程通常包括三个环节:代表性样本选择、光谱信息测量和参比值测量。因此突破模型限制的方法可从以下几个方面进行介绍:

        A. 选择代表性样品

        选择具有一定范围的样品类型信息,其中样品的化学范围信息构成参比值的结构范围,浓度成分范围和物理空间范围分别构成样品的浓度范围和空间范围。简单说就是选择样品时需要同时考虑深度和纵度,其中深度表示参比值的大小范围,纵度则表示相同浓度下不同产地或产区样品的数目。

        B. 测定光谱数据

        前期讲过,建模数据集中通常包含确定信息和不确定信息,其中确定信息是模型关联中对应于参比值的光谱特征,其可靠程度决定了模型的准确度和精确度。确定信息测量一般需要考虑仪器校正、预热、样品摆放、光纤是否损坏、灯源(特指卤钨灯)是否有效等等,而不确定信息一般是指光谱数据集中各样品光谱测定所用的仪器参数、进样参数与环境参数等可能变动的信息,这些不确定信息的变动范围决定了模型应对样品光谱测量时的应变能力,即决定了模型的稳健性。

         C. 测定参比值

        所有光谱定量分析模型的基础是建立光谱变量和参比值之间的关系模型,但是近红外属于间接测量,其参比值量通过标准物样品的真值获得,而实际分析过程中则通常是采用标准方法测定建模样品中的样品参比值,不同实验人员的操作规范性、实验环境以及仪器的校正使用都对分析结果产生随机误差和系统误差,导致获取的参比值通常含有误差。

        (2)数据处理与关联分析

        实验获取的近红外光谱数据在建模之前需要进行预处理,目的是提高数据质量;然后进行特征工程以压缩信息规模,进而提高信息表征能力,最后基于特征变量和参比值矩阵建模分析模型。

        A. 数据预处理

        数据预处理包括很多方面,譬如异常样本剔除、光谱背景校正、去噪、样本范围确定以及样品参比值正态分布检验(有必要的话)。首先需要考虑异常样本剔除问题,通常来说,对于光谱吸光度或参比值偏大或偏小的一般属于异常样本,如果两者同时偏大或偏小,则有可能是异常样本,也有可能是范围边缘样本,此时需要谨慎对待;然后对剔除异常样本的数据进行光谱预处理,主要有SNV、MSC、平滑、小波变换、基线校正等,下一步根据文献确定分析变量的范围,最终确定建模样本。

        B. 数据特征工程

        预处理后的光谱数据维度较高,无法直接i进行建模分析,需要进行变量的特征工程处理确定特征变量。特征工程泛指从数据中提取出想要的特征变量,现有的方法主要有主成分分析(PCA)、偏最小二乘(PLS)、子区间(或间隔区间)PLS、组合区间、稀疏表示、前向后向剪切等不同方法,针对不同的对象可采用合适的方法,其中PCA是目前应用范围较广的分析方法之一,但是其解释性较弱,现在也有应用卷积神经网络和循环神经网络做近红外光谱分析的,结果通常比较漂亮,但是很难用数学去表达其处理过程。

        (3)建模与模型应用

        按照图2所示,近红外模型的最后一步是建模分析及应用,其中建模过程是指建立特征和参比值矩阵的关联模型,分为线性和非线性方法,对于基于仪器的模型而言,所有的工作都集合在一起,整个过程全部都按照设定程序执行;对于模型应用,通常需要确定分析样品光谱是否在分析范围之内。

        至此,写完第一章内容,近红外光谱概述,在本章中未详细介绍近红外的物理原理,我们在后面几张中会有详细介绍,后续会结合自己的实践检验跟大家分析对近红外分析的理解,欢迎共同交流。

        熟悉近红外光谱数据处理、建模、优化等编程工作,同时擅长近红外中英文论文修改工作,有需要的小伙伴可私信联系。

你可能感兴趣的:(近红外光谱,数据处理,数据获取,近红外光谱,无损检测,数据处理)