数据降维方法介绍(五)

第二种方法:主成分分析法(二)

姓名:何源  学号:21011210073 学院:通信工程学院

【嵌牛导读】主成分分析法原理

【嵌牛鼻子】主成分分析法

【嵌牛提问】主成分分析法的数学原理是什么?

【嵌牛正文】

假设有m个数据,其中,并且假设这些数据已经中心归零化,即

数据的协方差矩阵为

因为C是半正定矩阵,可以进行对角化,其中,且

假设C的秩为P,即,则矩阵C有p个非零特征值,且

提取前k个特征值以及其对应的特征向量作为投影方向,对于任意样本x,可以计算得到,用表示样本x,将数据从m维降到了k维。

当时,即C为满秩矩阵时,提取m个基进行投影,则相当于进行正交变换

C的特征值有明确的物理意义,表示将数据在此特征值对应的特征向量上进行投影后,得到的投影系数的方差。

,其中表示在上的投影,表示样本在上投影的方差

将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的,即用较少的综合指标分别代表存在于各个变量中的各类信息,达到数据降维的效果。将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。我们要选择的就是让映射后样本间距最大的轴。

你可能感兴趣的:(数据降维方法介绍(五))