Principal components analysis(PCA)--主成分分析1.0

(PS:今天开始开新坑,友情提示,线代含量极大。由于内容极多,将分为多个小节分部阐释)

(本节主要内容请参考“总结”或目录)

定义

在多元统计分析中,主成分分析(英语:Principal components analysisPCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。(From wikipedia)

简单来说(用人话来说),PCA是一项流行的用于数据降维的技术,并在降维的同时尽可能得保持数据原有的特征或者说保留主成分。It's quite simple to use and it specially uses linear projection (线性投影) of the data. 掌握PCA有助于我们理解更高级的数据降维技术。

线性投影(linear projection)

Q1:什么是线性投影?

Principal components analysis(PCA)--主成分分析1.0_第1张图片

例如,假设有一组具有二维特征()的数据集(x)(如上图所示),我们希望将数据集降维至一维(或者说线性投影至一维)(z∈R)。那么我们怎么进行线性投影呢?我们可以在这二维平面上作一条直线,然后将平面上的每个数据点投影至该直线上(如下图所示)(方便起见,只投影部分,且(0,0)投影至直线原点O)

Principal components analysis(PCA)--主成分分析1.0_第2张图片

将投影后的直线独立出来,我们就可以用线上的每个投影点去替代原本二维平面上的数据点。In other words, 我们可以用每个投影点到原点O的长度特征(z)去替换原来数据点的二维特征()。这样,我们就完成了利用线性投影实现数据降维。

Principal components analysis(PCA)--主成分分析1.0_第3张图片

同样的,假设有一组具有三维特征()的数据集。我们仍可以使用线性投影的方法,将数据点投影至某条直线上,实现三维特征降维至一维长度特征(z);或者将数据点投影至某条平面上,实现三维特征降维至二维特征()(表示该平面的基向量,可用于表示平面上任意一个投影点的位置)

同理,对于具有高维特征,Difficult to represent geometrically 的数据集,我们也是利用线性投影的方法,对数据集进行降维。

Q2:如何判断投影好坏/投影的标准有哪些?

在Q1的线性投影过程中,我们会发现每个数据点都会损失一部分的信息。那么我们如何保证不改变数据集的主要特征呢?我们可以通过定义一个损失函数去实现,也就是需要一个量化的标准去衡量投影结果的好坏。对于PCA而言,有两种衡量标准,但效果是一样的。(具体内容之后详谈,当前仅简单介绍)

(1)PCA maximizes variance.

Principal components analysis(PCA)--主成分分析1.0_第4张图片

例如,在上图两组相同的数据集中,采用不同的线性投影方式,黄点为降维后的数据集。(投影直线未画出)。

我们可以通过计算样本方差或观察原点附近数据的分布情况来判断投影方式的优劣:

样本方差越大,则投影后的数据集保留原数据集越多的信息/特征。(PS:感性理解,如果降维后的样本方差越小,大家都长得差不多,还有啥特征可研?)

因此,我们可以将方差视作对原数据集信息的保留程度。所以上左图投影的方差更大,效果更好。

Principal components analysis(PCA)--主成分分析1.0_第5张图片

对于上图两组数据集而言,也可以计算降维后数据集的样本方差来判断投影效果的好坏。

(PS:或者感性理解,原数据集主要体现了两个聚类的特征,左图投影后的数据集依旧能体现出“两类”,而右图投影后全混在一起了。)

(2)PCA minimizes reconstruction error.

q:What's rescontruction error?

For PCA what you do is that you project your data on a subset of your input space. Basically, everything holds on this image above: you project data on the subspace with maximum variance. When you reconstruct your data from the projection, you'll get the red points, and the reconstruction error is the sum of the distances from blue to red points: it indeed corresponds to the error you've made by projecting your data on the green line. It can be generalized in any dimension of course!

Principal components analysis(PCA)--主成分分析1.0_第6张图片

简单地说(说人话就是),如果想从降维后的数据集中重现出原数据集,会存在一定的误差,称作重建误差(reconstruction error)。重建误差的一般定义是原始数据点与其投影到低维子空间之间的距离平方总和。

我们可以通过重建误差来判断投影方式的优劣:

重建误差越小,则投影后的数据集与原数据集更相近。(PS:感性理解,如果重建误差越小,说明降维后的数据集更容易重现出原数据集的特征。)

因此,我们可以将重建误差视作与原数据集的接近程度

总结

本节主要介绍了PCA的定义,以及简单解释线性投影的使用。对于PCA的两种衡量标准也只是简单的感性认识。我们还未谈到如何使用PCA算法选取最优投影向量,这将在下一节谈及。

你可能感兴趣的:(PCA,数据降维,深度学习,算法,数据分析)