十.主成分分析(PCA)

主成分分析是一个应用广泛的无监督方法,适用于数据可视化、噪音过滤、特征抽取和特征工程领域,主要用于数据降维。

十.主成分分析(PCA)_第1张图片

和之前的有监督学习中用x值预测y值不同,无监督学习希望探索x值和y值之间的相关性。

在主成分分析中,一种量化两个变量之间关系的方法是在数据中找到一组主轴,并用这些主轴来描述数据集。

十.主成分分析(PCA)_第2张图片

在数据图上将这些指标以向量的形式画出来:用“成分”定义向量方向;将“可解释差异”作为向量的平方长度。

箭头长度表示输入数据中各个轴的“重要程度”——准确来说,它衡量了数据投影到主轴上方差的大小。而每个数据点在主轴上的投影就是数据的“主成分”。

这种从数据的坐标轴变换到主轴的变换是一个仿射变换,仿射变换包含平移,旋转和均匀缩放三个步骤。

PCA降维

用PCA降维,就是去除一个或者多个最小的主成分,从而得到一个更低维度且保留最大数据方差的数据投影

十.主成分分析(PCA)_第3张图片

上图中浅色点是原始数据,深色点是投影的版本。

PCA降维的真正含义:沿着不重要的主轴信息都被去掉,仅留下含有最高方差值的数据成分。被去除的数据,可以看作降维后损失的“信息”量。

但是 ,降维后的数据在某种程度上足以体现数据中最重要的关系。

成分的含义

从基向量的组合角度来理解数据降维,其实就是删除绝大部分元素,仅保留 少量元素的基向量(basis vector)。

选择成分的数量

使用PCA降维时,如何估计描述数据集的成分数量?

我们可以将累计方差贡献率看作是关于成分数量的函数,从而确定所需成分数量。

十.主成分分析(PCA)_第4张图片

通过对65维的手写数字集进行处理,降为二维数据后会损失很多信息。

由上图可知,大约需要20个成分来保持90%的方差(variance)。

你可能感兴趣的:(十.主成分分析(PCA))