特征选择和特征提取

相同点

  • 减少特征数据集中的属性(或者称为特征)的数目

不同点

特征选择

  • 从原有特征中进行选择最重要的特征
  • 从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间

比较有名的特征选择有过滤法(Filter),包裹法(Wrapper),嵌入法(Embedded)

特征提取(降维)

  • 降维的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间
  • 首先让特征之间不相关; 在不相关中选择最重要的特征
  • 将原有特征转换到另一相互垂直(不相关)的空间中的特征,然后再选取分布方差最大(投射距离最小)的最重要的特征

常用的方法有主成分分析(PCA),独立成分分析(ICA),线性判别分析(LDA)一般数据是有类别的,最好先考虑用LDA降维。也可先用小幅度的PCA降维消除噪声再用LDA降维,若训练数据没有类别优先考虑PCA。

PCA

作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点,出现了很多PCA的变种,比如为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法Incremental PCA,以及解决稀疏数据降维的PCA方法Sparse PCA等

PCA是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大(样本的分布最散乱)以使用较少的数据维度同时保留住较多的原数据点的特征

优点

  • 仅仅需要以方差衡量信息量,不受数据集以外的因素影响
  • 各主成分之间正交,可消除原始数据成分间的相互影响的因素
  • 计算方法简单,主要运算是eig特征值分解,易于实现

缺点

  • 提取出的各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强
  • PCA会消除一些类信息,但是方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响

LDA

LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大

优点

  • 在降维过程中可以使用类别的先验知识经验,而像PCA这样的无监督学习则无法使用类别先验知识
  • LDA在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优

缺点

  • LDA不适合对非高斯分布样本进行降维,PCA也有这个问题
  • LDA降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题
  • LDA在样本分类信息依赖方差而不是均值的时候,降维效果不好
  • LDA可能过度拟合数据

你可能感兴趣的:(机器学习)