数学基础-数据预处理-降维-PCA & SVD

PCA原理

主成分分析(PCA)是将研究对象的多个相关变量化为少数几个不相关的变量的一种多元统计方法。为了尽可能完整的收集过程的运行信息或产品质量信息,要检测许多个过程变量或质量参数,当然这可以避免重要信息的遗漏,然而从统计的角度看,这些变量可能存在很强的相关性,使得分析问题增加了复杂性。因而,自然想到用少数几个不相关的综合变量来代替原来较多的相关变量方法的研究;而且要求这些不相关的综合变量能够反映原变量提供的大部分信息,这就是降维的思想。
数学基础-数据预处理-降维-PCA & SVD_第1张图片
我们以二维的情况来说明,如上图所示。从图上看 x 1 x{_1} x1 x 2 x{_2} x2 的变化范围都相差不大,但如果我们将坐标轴进行旋转,不难看出样本点的差异主要体现在 y 1 y{_1} y1 轴上,若 所体现的差异占了大部分,譬如85%以上,那么我们可将 y 2 y{_2} y2 忽略,只考虑 y 1 y{_1} y1,这样两个变量就缩减了一个,问题也就相对的简化了。如下示要求第一主成分 t 1 t{_1} t1 拥有最多的原变异信息。V是X的协方差阵, p 1 p{_1} p1 是V的特征向量, p 1 p{_1} p1 对应的V的特征值最大 。
这里写图片描述

协方差

我们知道方差表示变量的离散程度的指标,方差只能表示单变量在自轴方向上的传播。如果一个数据点的x值增加,则y值也将增加,这产生了正相关。这种相关性可以通过协方差捕捉到,当X中的变量均是标准化变量时,V就是X 的相关系数阵。
详细内容可以参考 这里写链接内容
说明:PCA以方差最大化来衡量保留最多的信息,我们知道方差是衡量数据离散度的指标,信息熵才是衡量信息量的指标,方差描述变量的离散程度,信息熵描述变量的不确定程度,信息熵与变量的分布有关,与变量的取值无关,而方差与变量的取值有关,PCA降维的目的,就是为了降噪。除去和结果关系不大的特征,保留最具相关性的特征,但是这些数据是以什么概率分布产生的,我们并不知道,无法使用信息熵,离散程度低的方向更有可能是由于噪声的干扰表现出同一性,或者反过来说就是因为太同一所以没什么分析价值。因此我们把注意力放在离散程度高的成分上,因为它的多样性可以帮助我们分析数据间潜在的关系。PCA中采用方差来衡量信息量的合理性可以参考这里写链接内容

SVD

特征值分解局限于方阵,现实世界里,为了实现类似特征值分解的计算,我们使用奇异值分解。奇异值分解适用于任何矩阵,如下所示,其中A是一个m*n的矩阵:

A = U m ∗ m Σ m ∗ n V n ∗ n T A=U{_m∗_m}Σ{_m∗_n}V{_n∗_n}^T A=UmmΣmnVnnT

U U U 是一个m* m的正交矩阵,其向量被称为左奇异向量
V V V 也是一个n* n的正交矩阵,其向量被成为右奇异向量
Σ Σ Σ 是一个m*n的矩阵,其对角线上的元素为奇异值,其余元素皆为0
当选取top k个奇异值时,可以将矩阵降维成为:

A = U m ∗ k Σ k ∗ k V k ∗ n T A=U{_m∗_k}Σ{_k∗_k}V{_k∗_n}^T A=UmkΣkkVknT

奇异值可以通过特征值来得出:
求出 A T A A^TA ATA 的特征值和特征向量, ( A T A A^TA ATA) ν i ν{_i} νi= λ i λ{_i} λi ν i ν{_i} νi
计算奇异值 σ i = λ i σ{_i}=\sqrt{λ{_i}} σi=λi
右奇异向量等于 ν i ν{_i} νi
左奇异向量等于 1 σ i A ν i \frac{1}{σ{_i}}Aν{_i} σi1Aνi

写博客的目的是学习的总结和知识的共享,如有侵权,请与我联系,我将尽快处理

你可能感兴趣的:(数学基础-数据预处理-降维-PCA & SVD)