SIMCA-P使用

SIMCA-P使用

演示使用的SIMCA-P版本是14.1.0

1. 导入csv文件

数据集介绍

  • 这里演示会使用到两个数据集,数据集下载地址:网址
  • 一个数据集是FOODS.csv,该数据集是对16个国家对20种食物的消耗情况,部分数据如下(这不是一个分类问题,因此只能做PCA分析,不能做PLS-DA分析):

SIMCA-P使用_第1张图片

  • 另一个数据集是iris.csv,该数据集就是著名的鸢尾花数据集,鸢尾花有三个亚属,分别是山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica)。该数据集一共包含4个特征变量,1个类别变量。共有150个样本,iris是鸢尾植物,这里存储了其萼片和花瓣的长宽,共4个属性。部分数据如下(因为可以分为不同类别,所以既可以进行PCA分析,也可以进行PLS-DA分析):

SIMCA-P使用_第2张图片

导入步骤:这一以导入FOODS.csv数据集为例

  • (1)选择创建新项目

SIMCA-P使用_第3张图片

  • (2)选择需要分析的csv文件

SIMCA-P使用_第4张图片

SIMCA-P使用_第5张图片

  • (3)需要保证每一行是一个样本,每一列是一个特征,如果不是的话,可以通过如下按钮进行转置:

SIMCA-P使用_第6张图片

  • (4)对不符合要求的数据进行处理,如存在缺失值,数据格式不正确(这一步一般是直接在csv文件里处理,保证导入的数据符合要求)

SIMCA-P使用_第7张图片

上面缺失的三个值,可以存在多种填充方式,这里直接填0。另外注意这里可以选择主键,第二主键,如下图:

SIMCA-P使用_第8张图片

一般来说主键就像人的身份证号一样,是唯一的,因此我们的csv文件中第一列应该设为从1开始的自然数。第二主键可以不设置,但是建议设置,对于分类问题来说第二主键一定要设置,一般分类变量被设置为第二主键(对于iris.csv数据集一定要将Species那一列设置第二主键)。

  • (4)保存为.usp文件,点击下图中的Finish即可保存,选择保存位置即可

SIMCA-P使用_第9张图片

  • (5)保存完毕后会出现如下界面:

SIMCA-P使用_第10张图片

之后就可以进行PCA分析了。

2. 进行PCA分析

PCA简介

  • PCA,全称是Principal Component Analysis,即主成分分析。其主要作用是降维,从而将数据可视化。是一种无监督分析的方式(即不需要类标)。
  • 关于PCA的详细介绍,可以参考:网址
  • 关于代谢组学的介绍,可以关注微信公众号:代谢组小袁,上面的网址就来自这个公众号。

这里使用FOODS.csv数据集为例,演示PCA分析过程,iris.csv也可以进行PCA分析

  • (1)右键选择Edit Model 1,如下图

SIMCA-P使用_第11张图片

  • (2)在弹出的对话框中我们需要进行设置,我们重点关注红色矩形框柱的两项内容即可,即ObservationsScale

SIMCA-P使用_第12张图片

为了让最终显示的图显示各个国家,需要对Observations进行如下设置(弹出的框全部选择OK即可):

SIMCA-P使用_第13张图片

关于Scale,即对数据进行缩放,缩放方式存在多种,如下:

SIMCA-P使用_第14张图片

其中最常用的就是UVPar这两种方式,关于缩放方式的介绍如下(中心化即让数据的均值为0,具体操作可以让每个数据减去该特征的均值):

SIMCA-P使用_第15张图片

  • (3)这里选择UV缩放的方式,分析方式选择PCA-X(理解为PCA即可),然后点击确定即可。
  • (4)拟合模型,点击Autofit进行分析即可,如下图:

SIMCA-P使用_第16张图片

  • (5)分析结果如下,可以看到前三个主成分:

SIMCA-P使用_第17张图片

  • 还可以点击Ovierview看整个数据的概况,如下图

SIMCA-P使用_第18张图片

对于结果的分析

Score Scatter Plot

对于该图,横坐标是第一主成分,能够解释原变量30.4%的信息,纵坐标是第二主成分,能够解释原变量21%的信息。

图中距离比较近的国家,饮食习惯的相似性越高,比如Sweden和Denmark,均位于第一象限的右上方,此图应该对照着Loading Scatter Plot一起查看,对应象限一起看,因为Sweden和Denmark位于Score Scatter Plot的第一象限右上方,所以应该查看Loading Scatter Plot的第一象限右上方,我们发现Fro_Fish和Fro_Veg位于此处,这说明Sweden和Denmark这两个国家对于Fro_Fish和Fro_Veg这两种食物消耗比较高,我们查看原始数据发现正是如此,如下图

SIMCA-P使用_第19张图片

Loading Scatter Plot

上面也说过,我们应该将该图和Score Scatter Plot一起查看,另外单独解释一下该图的含义。

此图显示了哪些变量对分类的影响大,并且展示了变量之间关系。距离比较近的变量之间是正相关的关系,即一个随着另一个的增加而增加,减少而减少,比如图中的Fro_Fish和Crisp_Bread就是这种关系,画出散点图,如下:

SIMCA-P使用_第20张图片

两变量位于原点两侧,并且连线差不多经过原点(即基本位于坐标轴对角线上)的变量之间是反相关的关系,即一个随着另一个的增加而减少,较少而增加,比如图中Garlic和Sweether就是负相关,画出散点图,如下:

SIMCA-P使用_第21张图片

两个变量连接原点,两条线的角度越接近90度,相关性越接近于0,如果为90度,则说明两个变量不相关,比如In_Potato和Apples,如下图:

SIMCA-P使用_第22张图片

最后想说的一点是,Loading Scatter Plot图中越远离坐标原点的点对分类的影响越大。

DmodX

该图反应了每个样本对PCA模型的适应程度,超过红线说明适应的不好

X/Y Overview [M1]

R2代表解释能力(数学上再现训练集的能力),Q2代表预测能力,均是希望越大越好 ,该图反映了每个自变量对总体解释能力和预测能力的影响,两者最好都在0.5以上;选择保留的主成分数不同,该图的值也不同。


选择几个主成分合适?

SIMCA-P使用_第23张图片

上图显示的是综合解释能力和预测能力,而X/Y Overview [M1]这个图显示的是每个变量对解释能力和预测能力的贡献

SIMCA-P使用_第24张图片


Loading Column Plot

SIMCA-P使用_第25张图片

该图反应了哪些变量对于第一主成分的影响较大,或者说第一主成分很好的解释了哪些变量


Summary

  • 对于参数 R 2 X 和 Q 2 X R ^ 2 X 和 Q ^ 2 X R2XQ2X,有几个值得注意的事实, R 2 X R ^ 2 X R2X不高的话 Q 2 X Q ^ 2 X Q2X 也不可能很高;一般认为 Q 2 X Q ^ 2 X Q2X > 0.5,可以认为模型好,若 Q 2 X Q ^ 2 X Q2X > 0.9,则可以认为该模型十分优秀,但这也与实际应用十分相关;另外 R 2 X R ^ 2 X R2X Q 2 X Q ^ 2 X Q2X差异必须足够小,一般差距在0.2~0.3之间。
  • 通过Score Scatter Plot图可以判断强异常值,通过DmodX可以发现中等异常值;在残差中识别异常值(此处指中等异常值)是很重要的,因为他们表示了在特征中缺乏同质性;对于强异常值,在后续的分析中应该剔除,但在以后的研究中应该关注这些强异常值由来的原因以及一些其他细节。
  • 为了提高PCA的精度和可靠性,我们应该拥有更多的特征;为了让PCA提供更多的信息,我们应该拥有更多样本。

3. 进行PLS-DA分析

PLS-DA简介

  • PLS-DA,全称是Partial Least Squares Discrimination Analysis,即偏最小二乘判别分析。是一种有监督分析的方式(即需要类标)。
  • 关于PLS-DA的详细介绍,可以参考:网址

这里使用iris.csv数据集为例,演示PLS-DA分析过程,FOODS.csv不可以进行PLS-DA分析

  • (1)直接从Edit Model 1开始讲起:

SIMCA-P使用_第26张图片

  • (2)拟合模型,点击Autofit进行分析即可;
  • (3)还可以点击Ovierview看整个数据的概况,如下图

SIMCA-P使用_第27张图片

  • (4)还可以点击vip,看哪些变量对分类性能影响最大

SIMCA-P使用_第28张图片

结果如下:

SIMCA-P使用_第29张图片

  • (5)进行Permutations分析,如下图(一般次数设置为200):

SIMCA-P使用_第30张图片

结果如下:

SIMCA-P使用_第31张图片

因为R2 <= 0.3(即截距小于0.3,可以看到截距为-0.0343),Q2 <= 0.05(即截距小于0.05,可以看到截距为-0.0987),右侧越高效果越好,因为右侧的R2和Q2分别代表模型的解释能力和预测能力。

你可能感兴趣的:(软件安装配置及使用,数据分析)