机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)

目录

什么是PCA

PCA的具体实现

 创新:基于GC的PCA

补充

协方差矩阵

奇异值


什么是PCA

  (大白话:就是降低维度,例如把一个三维的坐标表示成二维坐标或者一维坐标)

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。

PCA的具体实现

举个简单的例子,下表为随机选取的六名学生的数学和语文考试成绩:

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第1张图片

制作为散点图:

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第2张图片

Step 1

图中每个点代表了一个学生,X轴代表语文成绩,Y轴代表数学成绩。然后分别取所有样本的X平均值和Y平均值,并将这两个值变为X、Y坐标,在图中画出这个点(用五角星表示):

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第3张图片

Step 2

按照图中箭头所示方向,将整个坐标系平移,使原点与五角星重叠。这样就获得了一个新的平面直角坐标系。

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第4张图片

Step 3

尽管此时坐标系和每个点的值都发生了变化,点与点之间的相对位置仍保持一致。找到这些点的最优拟合线(Line of Best Fit),也就找到了PC1,再通过原点做PC1的垂线,就找到了PC2:

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第5张图片

Step 4

处理三维数组时便会产生第三个因子(PC3),以此类推,数据的维度越大,因子的数量也就越多。当维度大于等于4的时候,我们是无法想象出图像的,但PC4确实存在;假设有x个维度,便可以做x-1条垂线,就能得到PCx。接下来要做的便是选取最能代表数据差异性的两个因子,作为PC1和PC2。

按照下图所示,将点A投影到PC1上(六角星的位置),并计算其与原点之间的距离称为d1

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第6张图片

Projection

其余的五个点也做同样操作,得出d2至d5,再求这六个距离的平方和,称为PC1的特征值(Eigenvalue)。然后将PC1的特征值除以总样本数量减一(n-1),就计算出了PC1的差异值(Variation)。

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第7张图片

Variation Example

以此类推,并选择差异值最大的两个因子作为PC1 和 PC2。假设在某个三维数组中,获得了PC1、PC2和PC3的差异值分别为18,7,5。通过计算(18+7)/ (18+7+5) ≈ 83.3% 得到结论:PC1 和 PC2 代表了这个三维数组83.3%的差异性。在本次分析的13个因子中,PC1和PC2描述了整组数据约81%的差异性

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第8张图片

Scree Plot

最后,再通过选中的PC1和PC2将样本映射回本身所在的坐标,就可以得到降维后的图像(PCA Plot)。

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第9张图片

选自     PCA(主成分分析)的理解与应用 - 欧维费特的文章 - 知乎 

 创新:基于GC的PCA

 对于输入空间非线性变换后的协方差矩阵C,我们基于GC的PCA(GCPCA)的优化模型如下:

                                        

 

其中W∈RD×d*d 是投影矩阵,其中d为子空间维数,d≤D,Tr(·)表示矩阵轨迹,I为单位矩阵。由于非线性变换的函数未知,导致上面的优化问题无法解决。为了解决这个问题,我们将此线性函数定义为一个特定的内核映射。因此,我们有

                                        

其中K∈RD×D是一个核矩阵,第(i,j)项为ψ(fi)Tψ(fj)=k(fi,fj),k(·,·)表示核函数。与PCA 类似,GCPCA 的投影矩阵WKw=λwd特征向量组成,对应于第一个d个最大特征值,其中λ是对应于特征向量w的特征值。对于看不见的样本x,潜在特征可以通过WTx计算。

补充

协方差矩阵

机器学习 主成分分析法(PCA)创新 :基于协方差矩阵的PCA创新(GCPCA)_第10张图片

 (来自百度)

奇异值

假设M是一个m×n阶矩阵,其中的元素全部属于域 K,也就是实数域或复数域。如此则存在一个分解使得

其中U是m×m阶酉矩阵;Σ是半正定m×n阶对角矩阵;而V*,即V的共轭转置,是n×n阶酉矩阵。这样的分解就称作M的奇异值分解。Σ对角线上的元素Σi,其中Σi即为M的奇异值。

常见的做法是为了奇异值由大而小排列。如此Σ便能由M唯一确定了。(虽然U和V仍然不能确定)

直观的解释

在矩阵M的奇异值分解中

·U的列(columns)组成一套对M的正交"输入"或"分析"的基向量。这些向量是MM*的特征向量。

·V的列(columns)组成一套对M的正交"输出"的基向量。这些向量是M*M的特征向量。

·Σ对角线上的元素是奇异值,可视为是在输入与输出间进行的标量的"膨胀控制"。这些是M*M及MM*的奇异值,并与U和V的列向量相对应。

你可能感兴趣的:(机器学习,矩阵,线性代数)