PCA原理及特征相关性分析

文章目录

  • PCA
  • 累计方差贡献率
  • 载荷矩阵(了解清楚再补)
  • 碎石图
  • 相关性

PCA

原理:

找方差最大的方向
PCA原理及特征相关性分析_第1张图片

大红色线点之间得距离大,方差会比较大

粉色线点之间得距离小,方差会比较小

大红色就是方差最大的方向??

PCA原理及特征相关性分析_第2张图片

PCA原理及特征相关性分析_第3张图片
有多少维的数据求出来的特征值就有几个,想降到几维就选取几个特征值(选大的),数据个数不变

累计方差贡献率

因为数据的方差表示了数据波动变化的信息。设想一摞数据的方差为0,那就是完全没有变化,没有研究价值。一般PCA用于降维,降维比然带来信息的损失,所以我们希望能够在减少数据维度的时候尽可能多地保存数据的信息。
可以证明,数据的方差等于协方差所有特征值之和第i个主成分的方差等于协方差矩阵的第i个特征值。实际计算时,特征值从大到小排序,然后从前到后求和就得到累积方差。所以累积方差贡献率的大小表示了当前选择的所有主成分携带原数据的信息的比例

作者:知乎用户
链接:https://www.zhihu.com/question/270768672/answer/358416480
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

PCA的归一化:
首先计算了所有训练样本每个特征的均值, 然后减去均值, 然后除以标准差
是中心化

载荷矩阵(了解清楚再补)

碎石图

看碎石图的关键就是找拐点,也就是找图中陡坡和缓坡的临界点
若第一个点明显高于其他点,所以抽取一个因子为佳
其实碎石图就是把特征值画在坐标轴上然后用直线相连,碎石图的本质就是找出特征值明显较大的因子。
从这里也可看出碎石图的一个弊病,就是他没有一个固定的临界标准帮助研究者判断抽取几个因子,有时候拐点不十分清晰的话,单凭碎石图就难以确定抽取几个因子了,所以最好不要单以碎石图作为因子抽取依据,可以同时参考特征值大于1的标准以及平行分析法和MAP法等

碎石图+特征值大于1

主成分系数的求法是:各自主成分载荷向量除以各自主成分特征值的算术平方根。

相关性

看两者是否算相关要看两方面:显著水平以及相关系数

(1)显著水平,就是P值,这是首要的,因为如果不显著,相关系数再高也没用,可能只是因为偶然因素引起的,那么多少才算显著,一般p值小于0.05就是显著了;

如果小于0.01就更显著;例如p值=0.001,就是很高的显著水平了,只要显著,就可以下结论说:拒绝原假设无关,两组数据显著相关也说两者间确实有明显关系.通常需要p值小于0.1,最好小于0.05设甚至0.01,才

可得出结论:两组数据有明显关系,如果p=0.5,远大于0.1,只能说明相关程度不明显甚至不相关.起码不是线性相关.

载荷系数绝对值大于0.4时即说明该项和主成分有对应关系

你可能感兴趣的:(数据分析)