偏最小二乘判别分析

判别分析（DA）是一种根据观察或测量到的若干变量值，来判断研究对象如何分类的常用统计分析方法。

偏最小二乘回归（PlS）与主成分回归相关，但不是寻找响应变量和自变量之间最大方差超平面，而是通过投影分别将预测变量和观测变量投影到一个新空间，来寻找一个线性回归模型。

偏最小二乘判别分析（PLS-DA）是一种用于判别分析的多变量统计分析方法，经常用来处理分类和判别问题。

Question1：什么是PLS-DA？

数据X和Y都会投影到新空间，PLS系列的方法都被称为双线性因子模型（bilinear fator models），当Y是分类数据时称为偏最小二乘判别分析（ PLS-DA）。

与PCA不同，PCA是无监督,PLS是“有监督”模式的偏最小二乘法分析，当样本组间差异大而组内差异小时，无监督分析方法可以很好的区分组间差异。反之样本组间差异不大，无监督的方法就难以区分组间差异。另外如果组间的差异较小，各组的样本量相差较大，样本量大的那组将会主导模型。有监督的分析（PLS-DA）能够很好的解决这些问题。也就是在分析数据时，已知样本的分组关系，这样可以更好的选择区分各组的特征变量，确定样本之间的关系。DA是判别分析，PLS-DA用偏最小二乘回归的方法，在对数据“降维”的同时，建立了回归模型，并对回归结果进行判别分析。

Question2：什么是OPLS-DA？

PLS是偏最小二乘分析，DA是判别分析,再加一个o就是加了一个正交，OPLS-DA就是正交偏最小二乘法判别分析。

——当变量数量远大于样品数量时(行数小于列数), PLS或 PLS-DA模型容易过拟合（泛化能力不强），但是PCA效果也不好。但是加入正交矫正之后数据检出假阳性会降低，会更准确。OPLS是一种多因变量对多自变量的回归建模方法，其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异，使分类信息主要集中在一个主成分中，从而模型变的简单和易于解释，其判别效果和主成分得分图的可视化效果更加明显。

OPLS-DA在代谢组学分析中应用较多，利用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型，同时还可以有效分离样本，预测样品类别。PLS-DA/OPLS-DA建立了代谢物表达量与分组关系之间的模型，更好地获取组间差异信息，还可以对样品的分组进行预测，这是PCA做不到的。

不同分组样品的代谢物检测进行PLS-DA显示组间分类差异大

R实战 | OPLS-DA筛选差异变量(VIP)及其可视化

用于组学数据的多变量分析和特征选择的 PCA、PLS(-DA) 和 OPLS(-DA)

偏最小二乘判别分析

你可能感兴趣的:(偏最小二乘判别分析)