主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究...

4a4f5f4c1e4095905166a6178ea0dc56.gif

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第1张图片

dfde9deecbb1523b0bdf9fc70e68bc51.png

摘  要:目的 结合性状指标和内在质量指标对穿心莲进行质量等级评价,建立等级评价模型,为穿心莲及其他中药材等级标准的制定提供参考。方法  采收不同批次的穿心莲药材样品,测量和描述穿心莲药材的性状,采用数量分类学的方法对其评价指标进行编码,以HPLC法测定药材的4个二萜内酯类成分的含量,将编码后的性状指标和4个内酯的总量及醇溶性浸出物含量做相关性分析,初步筛选出13个评价指标,应用主成分聚类分析法对这13个指标进行分析,划分等级;并以偏最小二乘-判别分析(PLS-DA)对所划分的等级进行判别分析;最后,通过偏最小二乘回归分析(PLS)建立穿心莲药材等级的预测模型。结果 根据主成分聚类分析法可以将穿心莲药材划分为3个等级,PLS-DA分析表明该等级划分合理;PLS回归分析所建立的穿心莲质量等级的预测模型为药材等级(Y)=3.761-0.020×叶含量-0.388×穿心莲内酯含量-1.117×新穿心莲内酯含量-0.274×去氧穿心莲内酯含量-0.287×脱水穿心莲内酯含量-0.302×4个内酯总量-0.104×醇溶性浸出物含量-0.015×茎颜色-0.008 4×叶颜色-0.003×茎基部直径+0.020×分枝数+0.137×茎上部直径+0.011×株高,若Y在0.7~1.3,则预测穿心莲药材为一等品;若Y在1.7~2.3,则为二等品;若Y在2.7~3.3则为合格品。结论  主成分聚类分析法结合PLS回归建立的穿心莲等级快速评价模型评价效果较为理想,可作为穿心莲药材质量等级的快速评价模型,为穿心莲及其他中药材质量等级评价及其等级标准的制定提供新思路。

71b93257cd109992aebd0065b534949f.png

穿心莲药材Andrographis Herba为爵床科植物穿心莲Andrographis paniculata(Burm. f.) Nees的干燥地上部分,主要含有穿心莲内酯、新穿心莲内酯、去氧穿心莲内酯、14-去氧-11,12-二去氢穿心莲内酯(又称脱水穿心莲内酯素)、穿心莲苷(又称穿心莲内酯苷)及新穿心莲内酯苷元等二萜内酯类成分,具有抗菌、消炎、抗病毒、抗肿瘤等药理活性[1-3],主要分布于广西、广东、福建、湖南、四川等地,由于各地的生态环境条件及药材栽培管理、采收加工方式的不同导致市场上穿心莲药材质量的差异较大[4-5]。研究表明,不同来源的穿心莲药材中穿心莲内酯类成分含量变化较大[6-9],《中国药典》2015年版[1]以穿心莲内酯和脱水穿心莲内酯的总量不低于0.8% 作为穿心莲药材质量考察指标;但仅用二者含量控制和评价穿心莲药材及其制剂的质量,难以全面反映其药材质量等级及优劣。目前穿心莲药材尚没有统一的等级标准,难于区分其质量优劣等级。因此,开展穿心莲药材等级标准研究,对穿心莲规范化生产和标准化具有十分重要的意义。但如何评级穿心莲药材的等级,迄今为止,文献并无具体方法的研究报道。传统意义上对穿心莲药材鉴别是以外观质量为依据的“辨状论质”,而现代评价则多以药效成分穿心莲内酯和脱水穿心莲内酯含量为主,如果仅以其中一种方法判断其质量优劣则有失偏颇,只有全面地结合其外观质量性状和内在品质等多个方面的影响因素进行综合评价,才能有效地判定其质量等级。本研究以不同产地的穿心莲药材为研究对象,将传统的外观质量性状和内在活性成分等指标相结合,采用统计学、化学计量学等方法,开展了穿心莲药材的质量等级评价研究,建立了穿心莲药材的质量等级快速评价模型,为穿心莲药材等级评价及等级质量标准的制定提供了新思路,为其他中药材的等级标准制定提供参考。

1  材料与仪器

1.1  样品来源

穿心莲药材采自广东(S1~S25)、广西(S26~S30、S36)、福建(S31~S35)共36批,经广东药科大学中药学院曾令杰教授鉴定为穿心莲Andrographis paniculata (Burm. f.) Nees。

1.2  试剂与仪器

对照品穿心莲内酯(批号L23S6Y3682)、新穿心莲内酯(批号Y27J8S40807)、去氧穿心莲内酯(批号Y26D6S7349)购自上海源叶生物科技有限公司;脱水穿心莲内酯(批号J1020AS)购自大连美伦生物技术有限公司,质量分数均大于98%。乙腈为色谱纯,其他试剂均为分析纯。岛津LC-20AT HPLC色谱仪,Agilent 5 TC-C18(2)色谱柱(250 mm×4.6mm,5 μm),KQ5200DE数控超声波清洗仪(昆山舒美仪器有限公司),BP211D电子天平(德国赛多利斯公司)。

2  方法与结果

2.1  性状指标的测量及编码

根据传统的经验鉴别方法,选取穿心莲药材的叶含量(叶质量占药材总质量的百分比)、分枝数、株高、茎直径(上、中、下3个部位)、茎颜色、叶颜色、质地等作为穿心莲外观性状指标进行量化测定。随机抽取穿心莲样品每批次20株,分离出其叶、茎及杂质,分别称定质量,计算其叶质量占总质量的百分比,作为叶含量;测量其植株的高度,即完整植株茎基部(茎的最下部1 cm处)到顶部(茎的最上部1cm处)的距离,作为株高,精确至0.01cm;采用游标卡尺测量植株茎基部直径(茎的最下部1 cm处)、中部直径(株高的1/2处)、上部直径(茎的最上部1 cm处),精确至0.01 mm;记录完整植株的一级分枝的数目作为分枝数;描述并记录其茎的颜色、叶的颜色、质地等性状。

对上述性状进行数量分类学的性状编码处理[10]:数值性状(株高、茎基部直径、茎中部直径、茎上部直径、分枝数、叶含量)无需编码,直接取其测量值的平均值;二元性状(质地脆与否)按“0”(否)、“1”(是)编码;有序多态性状,按“0、1、2、3…”编码(茎、叶颜色黄色赋值“0”,黄绿“1”,灰绿“2”,绿“3”,墨绿“4”)。

2.2  穿心莲内酯活性成分的含量测定

穿心莲醇溶性浸出物参照《中国药典》2015年版四部通则项下的热浸法,用乙醇作溶剂测定[11]

研究表明穿心莲地上部分的主要药效成分为二萜内酯类化合物,其中以穿心莲内酯、新穿心莲内酯、去氧穿心莲内酯和脱水穿心莲内酯为其主要有效成分。故本实验以这4种二萜内酯为指标采用HPLC测定其含量。色谱条件:流动相为乙腈-水(33∶67)等度洗脱40 min,体积流量为1mL/min,柱温为室温,检测波长为223 nm。参照《中国药典》2015年版穿心莲项下的规定制备供试品溶液和对照品溶液,按上述条件进行方法学考察(线性关系、精密度试验、重复性试验、稳定性试验、加样回收率试验),计算相关系数r、平均加样回收率和RSD,结果表明此方法的线性关系(r>0.999)、回收率、重复性、稳定性和仪器精密度(RSD均小于3%)均较好。按照上述条件测定穿心莲样品中4种内酯的含量。

2.3  数据分析

利用SPSS23.0软件做统计描述和相关性分析;用SIMCA-P 14.0软件进行主成分分析(PCA)、系统聚类分析(HCA)、偏最小二乘判别分析(PLS-DA)和偏最小二乘回归分析(PLS)等数据处理分析。不同批次的穿心莲样品的质地均一致,因此,“质地”这个指标不作为分级参考指标。各批次穿心莲药材的性状指标和内在质量指标的结果见表1。

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第2张图片

2.3.1  穿心莲外观性状指标和内在质量指标的相关性分析  利用SPSS 23.0软件对包括外观性状和内在指标在内的14个指标进行统计描述和相关性分析,结果见表2、3。由表2可知分枝数、茎中部直径的RSD为9.44%、10.82%较小,说明各批次间差异较小。由表3可知茎中部直径除与茎上部直径相关外,与其他指标无明显相关,故茎中部直径不适合作为划分穿心莲等级的指标;分枝数虽然RSD小,但与其他外观性状(如茎基部直径)和内在指标(穿心莲内酯含量、新穿心莲内酯含量)相关性较高,因此,保留其作为评价指标。其他指标之间均存在着较为明显的相关性,根据传统鉴别经验及现代研究,其他指标均可作为评价穿心莲质量等级的重要指标,应保留。

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第3张图片主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第4张图片

2.3.2  基于PCA和PLS-DA模式的穿心莲药材等级划分  PCA和系统聚类分析是2种常用的非监督模式的分析方法,PCA分析利用降维的思想,在最大程度保留原始信息的基础上,把多个指标数据转化为少数几个新的综合变量来描述原数据特征[12]。而聚类分析(HCA)是一种常用的凝聚聚类分析方法,其思想是先将样本各自看成一类,然后规定样本之间的距离和类与类之间的距离,最开始时样本间的距离与类间距离是等价的,选择距离小的聚成一个新类,重新计算新类与其他类之间的距离,再将距离小的2个合并成一类,如此反复,直到所有样本都成为一类[13]。PCA有利于反映原始数据的整体情况,但是无法进行分类,当组间差异较小,而组内差异较大时无法得出正确的结论[14],所以利用PCA进行降维处理得到精简的具有代表性的新指标,再根据各样本在各主成分的得分情况进行系统HCA,可以得到较好的分类结果。PLS-DA为有监督分类方法,是基于PLS回归的一种判别分析方法,主要反映X变量与因变量之间的线性关系,这一方法人为加入了分组变量,有利于强化组间差异,能对不同等级进行判别[15]

本实验将筛选得到的13个指标进行标准化处理后利用simca-p14.0进行PCA,提取指标数据的主要信息,得到的PCA得分图、载荷因子图见图1,特征值及方差贡献率见表4,然后利用提取的主成分采用Ward聚类法进行HCA,得到穿心莲药材的分类结果,见图2。为验证分类结果的正确性,将对各样本进行有监督的PLS-DA,并对模型进行200次的置换检验实验,结果见图3。

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第5张图片

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第6张图片

由表4可知,前4个主成分PC1、PC2、PC3、PC4的特征值大于1,其累积贡献率为77.56%,可以较好地表征原始信息。从PCA载荷图(图1-b)可以看出4个内酯总量、醇溶性浸出物、脱水穿心莲内酯含量、株高这4个指标在第1主成分上载荷较大,新穿心莲内酯含量、穿心莲内酯含量、茎基部直径、分枝数在第2主成分上载荷较大,可以看出第1主成分主要体现的是穿心莲药材的4个内酯总量及与其相关性较高的内在化学指标和性状指标指标,第2主成分主要体现的是新穿心莲内酯含量、穿心莲内酯含量及其他的一些外在指标。从PCA得分图(图1-a)看,穿心莲样本有聚类的趋势,大致分为3类,但组1中3个样本较为分散,组2中S29、S30分类不明显;结合HCA结果可知,穿心莲样品分为3类:I类:S34~36;II类:S1、S3~6、S8、S9、S12、S16、S20、S22、S24、S26、S29、S30;III类:S2、S7、S10、S11、S13~15、S17~19、S21、S23、S25、S27、S28、S31~33。从PLS-DA结果图(图3-a)可以看出,穿心莲样本可以明显的分为3类,其结果与主成分聚类结果一致,说明该分类比较合理,由模型验证(图3-b)可以看出,位于左边的R2Y均低于最右侧的R2Y,且R2的回归线截距为0.0862(<0.3),Q2Y(模拟)均低于右侧真实模型Q2Y值,且Q2的回归线截距为负,说明该模型预测能力较好,没有出现过拟合现象。

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第7张图片

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第8张图片

2.3.3  穿心莲药材等级分类预测模型的建立  将36批穿心莲药材的13个评价指标作为自变量(X),不同等级分类作因变量(Y),并将其预设值定义如下:1为一等品,2为二等品,3为合格品,进行PLS回归分析,若输出值在0.7~1.3,则穿心莲样品判别为一等品,若输出值在1.7~2.3,则穿心莲样品判别为二等品,若输出值在2.7~3.3,则判别为合格品。采用软件simca-p 14.0建立PLS回归模型,由表5可知,提取第1个PLS成分对等级分类的交叉有效性是0.721,第2个成分的是−0.026 9,一般认为交叉有效性大于0.097 5时引入的新成分对模型的预测效果才有明显改善作用,但本研究中引入第2个主成分时R2X为0.211,R2Y为0.043 7,表示增加一个主成分,对X的解释能力增加21.1%,对Y的解释能力增加4.37%,为了更好地分析结果,本研究拟提取2个主成分进行分析,其R2X(cum)为0.504说明该模型对变量X的解释能力为50.4%,R2Y(cum)为0.835,说明提取的主成分能解释83.5%的因变量的变异,Q2(cum)为0.714(大于0.5)表示该预测模型较为理想。建立穿心莲等级分类与13个自变量的偏最小二乘回归模型:Y=3.761-0.020 X1-0.388 X2-1.117 X3-0.274 X4-0.287 X5-0.302 X6-0.104 X7-0.015 X8-0.0084 X9-0.003 X10+0.020 X11+0.137 X12+0.011 X13(X1X13依次为叶含量、穿心莲内酯含量、新穿心莲内酯含量、去氧穿心莲内酯含量、脱水穿心莲内酯含量、4个内酯总含量、醇溶性浸出物、茎颜色、叶颜色、茎基部直径、分枝数、茎上部直径、株高)。

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第9张图片

为考察建立的回归模型的预测精确度,将原始数据代入上述回归方程计算预测值,并与实际观测值绘制散点图(图4)进行比较,可以看出实测值与预测值的样本点基本分布在对角线上,说明模型拟合效果较好,可用来预测穿心莲药材的等级。为分析各自变量对等级分类因变量Y的影响作用大小,绘制变量投影重要性指标(VIP)得分图(图5)来。从图5可以看出,VIP的顺序为新穿心莲内酯的含量>醇溶性浸出物含量>4个内酯总量>叶含量>穿心莲内酯含量>株高>分枝数>脱水穿心莲内酯含量>去氧穿心莲内酯含量>茎上部直径>茎颜色>叶颜色>茎基部直径,其中前5个自变量的VIP值大于1,说明这5个指标对预测穿心莲等级分类能起到最重要的作用;株高、分枝数这2个指标的VIP值大于0.8,表明这2个指标在预测等级分类中起较为重要的作用。

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第10张图片

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第11张图片

3  讨论

本研究探讨了穿心莲药材性状指标与内在化学品质的相关性,通过主成分聚类分析初步将穿心莲药材分为3个等级,通过PLS建立了穿心莲药材等级分类的预测模型:药材等级Y=3.761-0.020×叶含量-0.388×穿心莲内酯含量-1.117×新穿心莲内酯含量-0.274×去氧穿心莲内酯含量-0.287×脱水穿心莲内酯含量-0.302×4个内酯总量-0.104×醇溶性浸出物含量-0.015×茎颜色-0.008 4×叶颜色-0.003×茎基部直径+0.020×分枝数+0.137×茎上部直径+0.011×株高,若Y在0.7~1.3,则预测穿心莲药材为一等品,若Y在1.7~2.3,则预测为二等品,若Y在2.7~3.3则预测为合格品。本研究表明穿心莲药材等级与新穿心莲内酯含量、醇溶性浸出物含量、4个内酯总量、叶含量、穿心莲内酯含量显著相关,与株高和分枝数相关,其中新穿心莲内酯含量、醇溶性浸出物含量、4个内酯总量、叶含量、穿心莲内酯含量这5个指标含量越高;分枝数较少、株高较小穿心莲药材的等级越优。

本研究首次将PCA与HCA相结合应用于穿心莲药材质量等级的划分研究之中,将PLS应用于穿心莲等级分类的预测,同时评价了性状指标与内在化学品质以及确定了各指标的权重,筛选出了对等级评价具有较大影响的指标,建立了穿心莲等级的快速评价模型,为穿心莲药材的优质优价提供了有利的理论基础。这种分析模型可为其他药材的等级评价的研究提供参考。此外,在今后研究中,还可同时结合药材指纹图谱及药效进行谱效评价,建立更加全面、完善的穿心莲药材等级标准。

参考文献(略) 

来  源:崔丹丹,曾令杰,黄嘉玲,冯晓云,张晓元,冯  凯. 基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究 [J]. 中草药, 2019, 50(13):3200-3206.

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第12张图片

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第13张图片

主成分回归之后预测_基于主成分聚类和PLS回归分析的穿心莲质量等级评价研究..._第14张图片

你可能感兴趣的:(主成分回归之后预测)