主成分分析法(PCA)

算法简介

主成分分析法是一种特征提取的方法。它是一种常用的无监督学习方法,这一方法利用正交变换把由线性相关变量表示的观察数据转换为少数几个由线性无关变量表示的数据,线性无关的变量称为主成分。主成分分析主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有利工具,也用于其他机器学习方法的前处理。
关键理论或技术技术。

特征提取

什么是特征提取算法呢?假设我们有一系列的样本X,每个X是N维的。举例来说,我们有一车西瓜作为样本,其中每一个西瓜都有大小、颜色、形状,重量等N个特征。但是这些特征中有很多特征是相互冗余的,比如西瓜的大小和重量就发生了冗余,因为大西瓜的重量一定也大。PCA所作的事情就是对这些冗余数据进行消除,只留下最有用的,换句话说,就是对数据进行降维。
我们可以从数学的角度进行阐述:
对于一个n维列向量x,我们可以构造一个m*n维的矩阵A,和一个m维列向量b,使得Y=Ax+b,得到的Y是m维的列向量,我们就可以用Y代替原来的X,从而实现降维。
主成分分析法(PCA)_第1张图片

算法主要思想以及公式推导

主成分分析法(PCA)_第2张图片
推导过程中用到了拉格朗日乘子法,不熟悉的同学可以复习一下高等数学的内容,下面给出简要的过程。
主成分分析法(PCA)_第3张图片

最后我们对PCA的流程做一个梳理

主成分分析法(PCA)_第4张图片

总结

降维技术使得数据变得更易使用,并且他们往往能够去除数据中的噪声,使得其他机器学习任务更加精确。降维往往作为预处理步骤,在数据应用到其他算法之前清洗数据。
PCA可以从数据中识别其主要特征,它是通过沿着数据最大方向差方向旋转坐标轴来实现的。选择方差最大的方向作为第一条坐标轴,后续坐标轴则与前面的坐标轴正交。协方差矩阵上的特征值分析可以用一系列的正交坐标轴来获取。

你可能感兴趣的:(机器学习,数据挖掘,机器学习,数据分析)