①协方差、相关系数(皮尔逊相关系数),等同于:内积、余弦值。

数学公式:

两个向量(x1,x2,x3)(y1,y2,y3)

求内积ab  =        cos <ab|a| |b|         = x1*y1+x2*y2+x3*y3

==========================================

有两个向量,我们希望定义它们是不是相关。一个很自然的想法,用向量与向量的夹角来作为距离的定义,夹角小,就“距离”小,夹角大,就“距离”大。

==========================================

step1:

两个向量的夹角的,就叫做“相关系数”,cos <ab> =(ab)/|a||b|,写开了就是:


余弦=相关系数;内积=协方差

step2:

①协方差、相关系数(皮尔逊相关系数),等同于:内积、余弦值。_第1张图片

********************************************PCA**************************

PCA其背后的数学工具是SVD(Singular Value Decomposition - 奇异值分解)

PCA计算出来结果是否正确,若果正确的话,映射后的数据的协方差就是一个对角矩阵,将这个对角矩阵可视化以后,可以看到矩形图中一条有颜色不同于背景色的对角线:

①协方差、相关系数(皮尔逊相关系数),等同于:内积、余弦值。_第2张图片

假设三维空间里有很多点,每个点都是用三个维度来表示的。但你发现其实他们差不多都在同一个二维平面上。虽然不是完全在一个平面上,但距离那个平面的距离都很小,远小于他们在这个平面上的互相距离。于是你想,如果把所有点都投影到这个二维平面,那你就可以用两个维度来表示所有点,同时又不损失太多关于这些点的信息。当你这么做的时候,你就是在做PCA了。

    具体怎么找这个平面呢,在概念上,你首先找到数据点分布范围最广、即方差最大的那个方向(上图绿色箭头),然后在剩下的与其垂直的所有方向中再找另一个方差最大的方向(上图蓝色箭头)。两个方向构成的平面就是你要找的平面了。数学上一般是通过协方差矩阵对角化或者SVD来实现的。





你可能感兴趣的:(①协方差、相关系数(皮尔逊相关系数),等同于:内积、余弦值。)