主成分分析

Principal Component Analysis

一、主成分分析的直观解释

例子:能否把这个数据的6个变量编程一两个综合变量

利用降维的思想,在损失很少信息的前提下,把多个指标转化为少数几个综合指标的多元统计方法。

把转化生成的综合指标称之为主成分,每个主成分都是原始变量的线性组合,且各个主成分之间互不相关(之前的各个维度可能信息有冗余),这就使主成分比原始变量具有某些更优越的性能。

总结:降维。希望降完丢失信息不要太多(约束条件),希望降维变换不要太麻烦。

主成分与原始变量之间有如下基本关系:

每一个主成分都是各原始变量的线性组合;主成分的数目大大少于原始变量的数目;主会场能分保留了原始变量绝大多数信息;各主成分之间互不相关。

求解主成分的过程,就是求满足上述原则的原始变量的线性组合的过程。


二、主成分分析的性质

1、协方差矩阵的性质

主成分就是,用协方差矩阵的特征向量对原始向量进行线性变换

2、主成分的性质

通常所取m使累积贡献率达到85%以上为宜。

碎石图是一种可以帮助确定主成分合适个数的可视化软件。

从协方差矩阵和从相关矩阵得到的主成分是不同的。


三、主成分分析的步骤

设有n个样品,每个样品有p个指标,共得到np个数据:


四、应用注意事项

常用R语言做主成分相关的统计分析。

princomp函数

summary

loadings

predict

推荐书:《使用多元统计分析》

你可能感兴趣的:(主成分分析)