主成分分析 PCA 线性判别分类LDA

降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的

PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴

PCA的目的就是找到一个方向向量,当我们投影在这个方向上时,希望它的方差尽可能大,均方误差尽可能的小

数据经过 PCA 变换之后的各个维度被称为主成分,各个维度之间是线 性无关的。为了使变换后的数据各个维度提供的信息量从大到小排列,变换后的数据的各个维度的方差也应该是从大到小排列的。数据经过 PCA 变换 之后方差最大的那个维度被称为第一主成分。
均值
在这里插入图片描述
方差
在这里插入图片描述
协方差
主成分分析 PCA 线性判别分类LDA_第1张图片
主成分分析 PCA 线性判别分类LDA_第2张图片

协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法

PCA
无监督
放到坐标系 选特征向量 特征映射
带约束条件的优化 拉格朗日
重新 寻找一组正交基
特征值大的特征向量
误差 特征值小的特征向量对应的维度
LDA 数据分类
有监督
投影后类内方差最小,类间方差最大”将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。

主成分分析 PCA 线性判别分类LDA_第3张图片
主成分分析 PCA 线性判别分类LDA_第4张图片

你可能感兴趣的:(机器学习,主成分分析,PCA,线性判别分类LDA)