通俗理解PCA降维原理

数学来到这个世界上是为了服务其他学科,所以PCA算法不是先天存在的,下面就从实际需求来推导出pca的原理。

背景:下面有个组淘宝数据

顾客编号 性别 身高/cm 电子产品 美妆
1 1 175 100 5
2 1 178 98 3
3 0 160 50 16
4 0 161 51 21

从上面的数据我们可以看出,性别和身高相关性很大,而且性别和后面和属性相关性也很大,那么如果我们是一个数据分析师,这组数据是不是只要抓住性别这一个维度就可以啦,比如我们做预测,预测一个人未来在美妆的购买力,那么我们就不需要他的身高信息,只需要简单知道他的性别就可以啦,换句话说就是身高就是一个冗余得到信息。

实际问题:上面得到表格数据少,肉眼可见,如果这是一个10000*100的矩阵,这个该怎么抓住核心的维度,或者说降低维度,剔除冗余。

方案:对比各个维度的相关性,把相关性比较大的两个维度只保留一个就好了,比如我们发现性别和身高相关性就很大,那么我们保留一个就好了。

困难1:如何衡量两个维度的相关性?

解决方案1:[1,1,0,0]和[175,178,160,161]的相关性如何衡量呢,直观感觉二者很相关,但如何来表示这个感觉呢?下面介绍一个概念叫做协方差。如果我们把这两个序列放在两个坐标系上,我们会发现这两个序列的波动形状相似,ok, 如何来表示这两个函数的形状相似呢?我们的祖先想到了一个很通俗的方法,首先对两个序列都求均值0.5,168.5。然后分别减去均值得到新的两个序列【0.5,0.5,-0.5,-0.5】【6.5,9.5,-8.5,-7.5】,第一序列解释以下,可以理解为数据先在均值上待两秒,再在均值下待两秒,再看看第二序列也是,那么将两个序列对应值相乘求和再求均值就可以代表相关性啦。(简单说一下为什么,可以理解的是,当都处于均值以上时,二者想乘为正,都处于均值以下时,二者相乘还是正,所以最终累加求得就是正,也叫做正相关,相反,你正我负,我负你正,得到的就是负数,也就是负相关,杂乱得话又可能得到0,那么就说明两个序列没有相关性)

继续:接下来就是来求各个维度之间得相关性了,第一步先对每个维度求均值,而后对应维度得元素减去这个均值。假设处理后得矩阵维A[m*n],m个顾客,n维度,

你可能感兴趣的:(机器学习)