【机器学习】 线性判别分析(LDA)

LDA的主要思想是:使投影后类内方差最小,类间方差最大,如下图所示。
【机器学习】 线性判别分析(LDA)_第1张图片
我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。
为了找到比较好的投影向量,我们需要定义一个对于分类好坏的度量。
在这里插入图片描述
目标函数可以定义为如下:
在这里插入图片描述
然而,投影均值之间的距离并不是一个好的度量方式,因为它没有考虑类内的标准差。如下面的例子:
【机器学习】 线性判别分析(LDA)_第2张图片
解决方法是用类内散度对类间差值做正则化处理。每一个类的散度被定义为:
【机器学习】 线性判别分析(LDA)_第3张图片
每一个i对应的散度的平均值被定义为类内散度。
LDA的目的是最大化下面的函数:
【机器学习】 线性判别分析(LDA)_第4张图片
也就是使类内差异小,类间差异大。
【机器学习】 线性判别分析(LDA)_第5张图片
在这里插入图片描述
【机器学习】 线性判别分析(LDA)_第6张图片
其中,Sw是类内散度,Sb是类间散度。
【机器学习】 线性判别分析(LDA)_第7张图片
【机器学习】 线性判别分析(LDA)_第8张图片
求得:
【机器学习】 线性判别分析(LDA)_第9张图片
【PCA与LDA比较】

  • 相同点:二者都用于数据降维且都使用了矩阵特征分解的思想;二者都假设服从高斯分布。
  • 不同点:LDA是有监督学习方法,而PCA是无监督学习方法;LDA还可以用于分类 ;LDA选择的是分类性能最好的投影方向,而PCA选择的是样本点投影方差最大的方向;LDA降维最多降到类别数k-1的维数,而PCA没有限制。

你可能感兴趣的:(机器学习)