PCA

Principal Component Analysis, 主成分分析

原理 

(机器学习P229)

对于正交属性空间中的样本点,用一个超平面对所有样本点进行恰当的表达,此超平面需要满足两个性质:

1. 最近重构性:样本点到这个超平面距离足够近

2. 最大可分性:样本点在这个超平面上的投影分得足够开

二者等价,只需对协方差矩阵进行特征值分解,求得特征值排序。

假设有N个维度,取前d个特征值对应的特征向量构成, 即是主成分分解式。

维度数d的选择

1. 用累计方差贡献率,不同d值下的累计方差值达到指定比例(python 中pca.explained_variance_ratio 解释方差比例)。(Python数据科学手册p382)

2. 设置重构阈值t=95%,取

3. 用开销小的学习器,采用不同的d值交叉验证,选取d

特征噪声

1.被删除的维度往往与噪声有关

2.留下的主成分过滤的噪声数据,可以还原成原有的维度观察数据变化

components = pca.transform(faces.data)

projected = pca.inverse_transform(components)

判断特征共线性

1. 若某几个原始变量的PCA系数较大,且十分相近,那么这几个变量可能存在共线性。(数据挖掘与数据运营p123)

你可能感兴趣的:(PCA)