2022-06-03我的数据是用主成分分析还是冗余分析呢?2

背景

上次冗余分析说了一点点,今天继续。

主成分分析PCA与冗余分析RDA

区别1 区别2
PCA 只分析一个数据矩阵 以生态群落分析为例,我们感兴趣的信息主要是排序图中样方/取样点和物种变量/测定指标得分的相对位置、部分排序轴(比如PC1、PC2)的相对重要性(根据特征值/特征根判断)以及排序轴的生态解释等
RDA 分析两个矩阵(响应变量与解释变量)之间的关系 以生态群落分析为例,我们感兴趣的信息主要是环境变量X对物种Y组成的影响(即环境变量所能解释的变差,以及解释程度的显著性、哪些环境变量对于群落结构的解释更为重要(变量选择),以及获知各变量或变量集解释的变差(变差分解)等

什么是冗余分析RDA

冗余分析是约束化的主成分分析,是响应变量与解释变量之间多元多重线性回归的拟合值矩阵的PCA分析,目的是----寻找能最大程度解释响应变量矩阵变差的一系列的解释变量的线性组合,因此RDA是被解释变量X约束的排序。从排序开始就直接加入解释变量进行运算,只提取和展示与解释变量有关的数据结构,并通过统计检验方法来表示解释变量X与响应变量y之间关系的显著性。
在群落分析中,响应变量Y一般是物种的多度数据,解释变量X就是环境变量(也是约束成分)。
另外,RDA还有许多升级版,比如tb-RDA(基于转化的RDA)、db-RDA(基于距离的RDA)、偏RDA、非线性关系RDA等等,各自有自己的拓展适用范围,这里只看看最基本的RDA是怎么回事儿。

关于约束

进行RDA分析后,总方差被划分为约束和非约束两部分。约束部分表示响应变量Y矩阵的总方差能被解释变量X解释的部分,如果用比例表示,其值相当于多元回归的R^2。在RDA中,这个解释比例值也称作双多元冗余统计(bimultivariate redundancy statistic)。然而,类似多元回归未校正的R^2, RDA的也需要校正,注意校正后的R^2 总是小于R^2的。
比如下图是origin进行RDA分析后结果,就给出RDA分析产生的典范轴constrained axe(RDAx)和非约束轴unconstrained axe(PCx)的特征根,典范轴的特征根表示响应变量总方差能被RDA模型解释的部分(这张图中是9.26%,特别低,说明本研究中响应变量的变化大部分都不能用本研究中解释变量来解释),非约束轴的特征根表示响应变量总方差能被残差轴解释的部分,与RDA模型无关,严格说来不属于RDA范畴,但能够帮助我们获取更多信息。并给出累积方差解释率(约束轴)或承载率(非约束轴)。怎么说帮助我们获取更多信息呢?如果约束轴解释的变差>非约束轴解释的变差,表明响应数据Y的大部分变化量均可通过解释变量X作出解释,群落物种组成分布真实地由给定环境因子所影响(对于RDA结果,即二者呈现出较好的线性梯度),直接去解读RDA结果即可;但是,如果约束轴解释变差<非约束轴解释变差,或者约束轴解释变差仅占总变差的较小比例(比如下图),此时应谨慎对待,因为RDA模型并未显示出给定环境因子能够对群落物种的组成作出有效的解释,可能有重要的解释变量X没有被你测定/考虑等等原因。

图片.png

RDA排序图图形结果解读:

在RDA的排序图中,约定俗成的会将响应变量用不带箭头的线表示,定量解释变量X用带箭头的线表示。

排序图可以只展示样方/样本和环境变量X,这叫双序图;也可以展示样方/样本、环境变量X和物种Y这三者,叫三序图,看自己的使用需求。但无论是双序图还是三序图,首先需要明确的是,展示时有I、II型两种标尺scaling可以选择,这两种标尺关系到对图中数据解读的方式是不同的。

图片.png

I型标尺(距离图):特征向量被标准化为单位长度,关注对象/样本之间的关系。
II型标尺(相关图):特征向量被标准化为特征根的平方根,关注变量之间的关系。


图片.png

(1)样方点垂直投影到响应变量或定量解释变量的箭头或延长线上,I型标尺表示:投影点近似于该样方内该响应变量或解释变量的数值沿着变量的位置;II型标尺表示:投影点位置近似于该响应变量或解释变量在该样方内的数值;有人说两个标尺的这个点没有区别,我暂且还不太理解。
对上图的解读:a图,存在排序样方(样本)i和ii,解释变量(环境变量)1,探究i、ii与1的关系时,将i或ii垂直投影在1的向量(箭头)上,根据交叉点的位置判断变量1在i或ii中的值。交叉点越靠近该变量向量的正方向,则表明所对应的样方中,该变量的数值越大。例如,假设变量1为土壤碳含量,样方i投影在1的正方向,样方ii投影在1的负方向上(图中红色虚线反向延长线部分),两个交叉点相比较,i与1的交叉点更位于1延伸方向,因此可知i中的土壤碳含量要比ii中的土壤碳含量要高。

(2)响应变量与解释变量箭头之间的夹角反映了它们之间的相关性,但I型标尺中响应变量内部之间、解释变量内部之间的夹角都无此含义;II型标尺中则响应变量内部之间、解释变量内部之间的夹角也反映了它们之间的相关性。角度反映的相关性等于矢量之间角度的余弦(例如,描述90°角度的矢量对与cos(90)= 0不相关),描述20°角度的矢量对与cos具有强正相关性(20 )= 0.94。
对上图解读:b图,根据向量(箭头)夹角判断变量间的相关性。∠a接近90°,即接近正交,表明变量1和2之间的相关性很小,二者相互之间几乎不存在影响。∠b小于90°,夹角为锐角,表明变量2和3之间存在正相关;锐角角度越小,则正相关性越大。∠c大于90°,夹角为钝角,表明变量3和4之间存在负相关;钝角角度越大,则负相关性越大。

(3)定性解释变量的形心与响应变量(物种)箭头之间的解读如同样方点与响应变量之间的解读(因为定性解释变量的形心也是一组样方的形心);对于I型标尺,仅能据此观测定性解释变量与响应变量间的相关性;对于II型标尺,既可以据此观测定性解释变量与响应变量间的相关性,也可以观测其与定量解释变量之间的相关性。
对上图解读:对于因子类型的解释变量5(定性变量,非数值型变量),在图中以点表示而非以向量表示,探究因子类型变量5与其它变量间的相关性时需要根据投影判断。例如,变量5垂直投影在变量4的正方向,表明与变量4存在正相关;投影在变量2的负方向,表明与变量2存在负相关;相关性的大小,可以通过垂线交叉点与原点(0,0)的距离来表示。

图片.png

(4)定性解释变量的形心之间或形心与样方点之间的距离近似他们之间的欧式距离,I型标尺是这样的,II型标尺则不是
上图解读:若为I型标尺,还可根据图中样方点之间的距离判断样方群落之间的相似性。两个样方距离越近,则群落相似性越大;反之越低。
(5)此外,还可通过比较解释变量X(环境变量)向量在约束轴上投影的相对长度,判断环境变量对群落特征的贡献度。例如在图b中,将变量2和变量1均投影至RDA2轴,此时变量2的投影长度相对更长,表明变量2比变量1对RDA2轴形成的贡献更大。无论I型标尺或II型标尺,均可据此判断。
(6)解释变量向量与约束轴夹角的大小同样具有意义,表示解释变量与约束轴相关性的大小,夹角小说明关系密切,若正交则不相关。例如在图b中,变量2的向量与RDA2轴的夹角比与RDA1轴的夹角更小,表明变量2与RDA2的关联程度比与RDA1的关联程度要高,即相较之下变量2更贡献于RDA2轴。无论I型标尺或II型标尺,均可据此判断。

进行显著性检验是对各个RDA轴或解释变量进行置换检验来进行的。不显著的结果不能被解读,要丢弃。

统计,是我们做研究不可或缺的一个工具,尽管有时候两组样本的某个指标的均值看起来相差很大,但是只有当两组样本的这个指标具有统计学差异时,我们才有信心说这两组样本确实有差异。我们在平时的研究中,用的较多的统计方法是参数检验,如t检验,方差分析等,但是这些方法都有一个前提要求,即样本都要符合正态分布。当样本不符合这一前提时,我们就要用非参数检验,而置换检验Permutation test就属于非参数检验的一种,而且对小于或等于10个样本的小样本检验,也是建议用置换检验而不是t检验。(参考来源:https://zhuanlan.zhihu.com/p/328940140)

参考文献

1、https://www.jianshu.com/p/00f69e8bd5ef
2、群落分析的冗余分析(RDA)概述 (微信号:小白鱼的生统笔记)
3、https://www.bilibili.com/video/BV1jY4y1C7i9/?spm_id_from=333.788.recommend_more_video.18&vd_source=721b2cd4a7c048a6485aefbb175915fc

你可能感兴趣的:(2022-06-03我的数据是用主成分分析还是冗余分析呢?2)