特征降维(主要是PCA的补充)

目录

 保留85%的信息

额外补充


 保留85%的信息

降维实现数据的特征压缩,但是通常会降低模型性能。

PCA利用的是协方差矩阵的特征值分解原理,实现多个特征向少量综合特征(主成分)的转化,每个成分都是多个原始特征的线性组合,且各个成分互补相关,第一主成分用于解释数据变异(
方差)最大的,第二主成分次之,以此类推。

        若有n个特征转换为n个主成分,则会保留原始数据100%的信息,但是这样就失去了降维的意义,所以一般只需选择前若干主成分,一般原则上保留85%的信息的主成分

#鸢尾花主成分降维
rm(list = ls())
data <- iris

library(recipes)
recipe(~.,data=iris) %>%
  step_normalize(all_numeric()) %>%
  step_pca(all_numeric(),threshold = 0.85)%>%##设置阈值
  prep()%>%
  bake(new_data=NULL)

结果:

# A tibble: 150 × 3
   Species   PC1     PC2
         
 1 setosa  -2.26 -0.478 
 2 setosa  -2.07  0.672 
 3 setosa  -2.36  0.341 
 4 setosa  -2.29  0.595 
 5 setosa  -2.38 -0.645 
 6 setosa  -2.07 -1.48  
 7 setosa  -2.44 -0.0475
 8 setosa  -2.23 -0.222 
 9 setosa  -2.33  1.11  
10 setosa  -2.18  0.467 
# ℹ 140 more rows
# ℹ Use `print(n = ...)` to see more rows

额外补充

R语言多元统计:主成分分析(PCA) (qq.com)

一文看懂主成分分析 (qq.com)

  • 判断主成分(PC)的个数

    • Kariser-Harris准则:选择特征值>1的主成分

    • 碎石图=陡坡图(Screen Plot):选择拐点以上的主成分

    • 平行性分析(Parallel Analysis):选择原数据集中特征值>随机数据的平均特征值的主成分

你可能感兴趣的:(人工智能,机器学习)