线性判别分析LDA

线性判别分析LDA

前言:我在我的第一家公司分析宏基因组数据时,碰到过LDA,不过当时没有去搞明白,今天有机会再来学习它。在这里,我们将了解到线性判别分析是属于一种线性分类器。
线性分类器是最简单的分类器。线性判别函数的一般表达式为 g ( x ) = w T + w 0 g(x)=w^T+w_0 g(x)=wT+w0
线性判别分析LDA_第1张图片

下面我们开始学习最直观的Fisher线性判别分析(linear discriminant analysis, LDA).
两类的线性判别问题可以看作是把所有样本都投影到一个方向上,然后在这个一维空间中确定一个分类的阈值。过这个阈值点且与投影方向垂直的超平面就是两类的分界面。
关键问题在于如何确定投影方向。Fisher线性判别的思想是,选择投影方向,使投影后两类相隔尽可能远,而同时每一类内部的样本又尽可能聚焦。这一目标可以表示成如下的准则
m a x J F ( w ) = S b S w = ( m 1 − m 2 ) 2 S 1 2 + S 2 2 max J_F(w)=\frac{S_b}{S_w}=\frac{(m_1-m_2)^2}{S_1^2+S_2^2} maxJF(w)=SwSb=S12+S22(m1m2)2
这就是Fisher准则函数(Fisher’s Criterion)
通过一系列复杂的数学运算,可以得到Fisher判别准则下的最优投影方向:
$$ w ∗ = S w − 1 ( m 1 − m 2 ) w^*=S_w^{-1}(m_1-m_2) w=Sw1(m1m2)
需要注意的是,Fisher判别函数最优的解本身只是给出了一个投影方向,并没有给出我们所要的分界面。要得到分界面,需要在投影后的方向(一维空间)上确定一个分类阈值 w 0 w_0 w0,并采取决策规则,若 g ( x ) = w T + w 0 > 0 , 则 x ∈ w 1 g(x)=w^T+w_0>0, 则x∈w_1 g(x)=wT+w0>0,xw1
如果不考虑先验概率的不同,则可以采用阈值 w 0 = − m w_0=-m w0=m m m m是所有样本在投影后的均值。

你可能感兴趣的:(机器学习,模式识别)