R语言系列:多元统计分析简介

1、主成分分析
princomp(x, cor=FALSE)
    #x可以是矩阵或数据框

    #cor=FALSE使用协方差阵进行计算,cor=TRUE使用协相关阵进行计算
主成分选择的原则:主成分的增加会带来累积贡献率的较大提升,同时在该主成分方向上有较大变异。
参考标准:累积贡献率>0.7,特征值(方差)>1。

2、因子分析
factanal(x, factors, scores = c("none", "regression", "Bartlett"), rotation = "varimax")
    #x是一个矩阵,factors是因子个数
    #scores为因子得分计算方法。regression计算Thompson's scores,Bartlett计算Bartlett's weighted least-squares scores.
    #rotation为因子旋转方法。varimax为最大方差旋转。

3、主成分分析和因子分析的一点说明
当有若干x有共线性时,需寻找一些独立变量来代表这些x,以便于进一步分析。
主成分分析即是寻找这些独立变量的一种方法。
当这些独立变量在各个x上的负载相差不大时,很难进行专业解释。
但独立变量经任意旋转后,仍然会保持独立性。
若经旋转后,独立变量的方向在不同的x上变异相差较大,即可满足解释要求。
因子分析即是选择能满足解释要求的感兴趣变量的过程。

4、系统聚类
4.1 距离计算
dist(x, method = "euclidean")
    #x为矩阵或数据框
    #method选项包括:euclidean, maximum, manhattan, canberra, binary, minkowski
4.2 聚类
hclust(d, method = "complete", members=NULL)
    #d即为dist结果
    #method选项包括:ward, single, complete, average, mcquitty, median, centroid

5、典型相关分析
用于分析两组变量之间的相关性
cancor(x, y, xcenter = TRUE, ycenter = TRUE)
    #x,y为两组变量,分别为两个矩阵
    #xcenter, ycenter默认对数据中心化

你可能感兴趣的:(R语言系列:多元统计分析简介)