主成分分析法

文章目录

  • 指标、变量的解释
  • 主成分分析产生原因
  • 作用
  • 作用原理
  • 缺点
    • 缺点一
    • 缺点二
  • 后记

指标、变量的解释

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称作指标,在多元统计分析中也称为变量。

主成分分析产生原因

因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性。人们希望在进行定量分析过程中,涉及的变量较少,得到的信息量较多。

作用

将变量降维,保留对目标变量贡献较大的变量,忽略对目标变量贡献较小的变量。

作用原理

因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量和相关矩阵的内部结构的关系研究,找出影响目标变量某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,使得我们在研究复杂目标变量评估问题时,容易抓住主要矛盾。

缺点

简单地进行线性处理就有可能导致对现实关系反映上的偏差。

缺点一

主成分分析的实施效果与评价指标间的相关程度高低成正比。评价指标间相关程度越高,主成分分析的效果越好。当指标间相关性不大时,每一个主成分所提取的原始指标的信息通常很少,这时,为了满足累计方差贡献率不低于某一阈值,就有可能选取较多的主成分,此时的主成分分析的降维效果不明显。

缺点二

它只能处理“线性问题”,只是一种线性降维技术。一方面,对原始数据进行标准化处理后,协方差矩阵就变成了相关系数矩阵,这是上述主成分分析的出发点。然而,相关系数只能反映指标间“线性”相关程度。在现实生活中,指标间的关系也有呈非线性的,如果这时一定要用“线性”关系去反映,会得到不正确的结论。另一方面,主成分是原始指标的线性组合。然而有时主成分与原始指标也有呈非线性关系。

后记

应该如何筛选与人均预期寿命有关的指标呢?
不懂啊?
怎么筛选啊?
用SPSS。
那么那些检验方法咋确定?

你可能感兴趣的:(概率论与数理统计)