主成分分析的理解

机器学习处理完数据后,接下来就要进行筛选特征(我的特征总共有40个),这块有两件事要做:
(1)特征之间可能存在强相关性
(2)筛选重要特征
我开始想的是先用随机森林算法筛选重要特征,再处理相关性的问题,但是其实直接用PCA就能完成上面的两件事(目前是这样理解的,不知道对不对)
1.概念
主成分分析的提出:principal component analysis,是将多个指标化为少数几个综合指标的一种统计分析方法,即通过降维技术把多个变量化为少数几个主成分的方法。
基本思想:将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。
目的:是用较少的变量去解释原资料中的大部分变异(方差),即期望能将手中许多相关性很高的变量转化成互相独立(正交)的变量,并能解释大部分资料之变异的几个新变量,即主成分。

你可能感兴趣的:(数据清洗)