机器学习---降维算法

降维算法:

如果拿到的数据特征过于庞大, 一方面会使得计算任务变得繁重; 另一方面, 如果数据特征还有问题, 可能会对结果造成不利的影响。 降维是机器学习领域中经常使用的数据处理方法, 一般通过某种映射方法, 将原始高维空间中的数据点映射到低维度的空间中。

两种经典的降维算法——线性判别分析和主成分分析

线性判别分析:

线性判别式分析(Linear Discriminant Analysis,LDA) , 也叫作Fisher线性判别(Fisher Linear
Discriminant,FLD) , 最开始用于处理机器学习中的分类任务, 但是由于其对数据特征进行了降维投影,使其成为一种经典的降维方法。
 

原理:

线性判别分析属于有监督学习算法, 也就是数据中必须要有明确的类别标签, 它不仅能用来降维,还可以处理分类任务, 不过, 更多用于降维。

投影:

投影就是通过矩阵变换的方式把数据映射到最适合做分类的方向上。其中x表示原始数据,y表示降维后的数据;找到合适的变换方向求出参数w。
 

主成分分析(PCA):主要使用

主成分分析(Principal Component Analysis, PCA) 是在降维中使用特别广泛的算法。 在使用主成分分析降维的时候没有束缚, 不像线性判别分析, 必须要有数据标签, 只要拿到数据, 没有标签也可以用主成分分析进行降维。 所以应该先有一个直观的认识, 主成分分析本质上属于无监督算法, 这也是它流行的主要原因。
 

你可能感兴趣的:(机器学习,sklearn)