无监督学习--特征降维

一、PCA主成分分析

基本思想:利用降维思维,将原来具有一定相关性的指标,通过正交变换,重新组合成一组新的相互无关的综合指标,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。无关变量称为主成分。

1.1 PCA计算步骤:

1.将数据标准化
2.求出协方差矩阵
3.求出协方差矩阵对应的特征值和特征向量
4.将特征向量按对应特征值大小从上到下按行排列,取k行组成矩阵p
5.Y=PX即为降维到k维后的数据

贡献率:总方差中第i个主成分占总p个主成分的比例
载荷:
无监督学习--特征降维_第1张图片

1.2 PCA优缺点:

优点:
1、仅仅需要以方差衡量信息量,不受数据集以外的因素影响。 
2、各主成分之间正交,可消除原始数据成分间的相互影响的因素。
3、计算方法简单,主要运算是特征值分解,易于实现。
缺点:
1、主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
2、方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响

二、LDA线性判别分析:

  线性判别分析是对原始变量间内在相关结构进行分组,相关性强的分在一组,组间相关性较弱这样各组变量代表一个基本要素(公共因子)。线性判别分析是主成分分析的推广和发展,其原始变量之间具有相关性,进行线性判别分析前首先对变量进行相关性检验。它本质上是一个分类算法,也常用于降维,属于监督学习的范畴。

2.2 LDA优缺点:

优点:
1、在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识。
2、LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优。
缺点:
1、LDA不适合对非高斯分布样本进行降维
2、LDA降维最多降到k-1(k为类别数)的维数,如果我们降维的维度大于k-1,则不能使用LDA。
3、LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好。
4、LDA可能过度拟合数据

三、PCA与LDA的联系与区别:

3.1 联系:

  两者其本质是要将初始样本映射到维度更低的样本空间中,都有降维和信息浓缩的方法,生成的新变量均代表了原始变量的大部分信息且相互独立。

3.2 区别:

  (1)PCA是按照方差最大化的方法生成新变量,为了让映射后的样本具有最大的发散性,强调新变量贡献了多大比例的方差,不关心新变量是否具有明确的实际意义。PCA是一种无监督的降维方法。
  (2)LDA着重要求新变量具有实际意义,能解释原始变量间内在结构,LDA不是对原始变量的重新组合,而是为了让映射后的样本有最好的分类性能,对原始变量进行分解,分解为公共因子和特殊因子。LDA是一种有监督的降维方法。

你可能感兴趣的:(算法模型,机器学习,人工智能,算法,python)