超级简单LDA和GDA

LDA和PCA最大的区别是,PCA找的是方差最大的方向,LDA找的是分类分的最开的方向。也就是说mean要分得最开越好,自己的样本要越集中越好。


现在用
:第i类的样本数量
:种类的个数
:样本总数
:第i类的第j个样本
下面表示经过
投影之后的样本点

第i个类的均值就是

所以第i类投影的mean就是第类原本的mean

那么现在我们把两两mean相减,我们希望他越大越好。

也就是

为什么前面要加权重,因为有的mean是由3个点组成的而有的mean是由10个甚至100个点组成的所以重要性不同。

最后可以得到没投影之前的mean和mean之间的协方差矩阵

上式其实也等价于

上面两种式子可以有两个不同的图来表示

当然也可以同样方法的来写出每个组内的的均值

我们希望组内的距离越小越好

所以我们就得到
上面是组内的值,下面是组间的值
那么我们希望上面越大越好
下面越小越好
也就是找这个等式取最大值是的向量
我们先令

同样的和PCA一个套路用拉格朗日解出 求的最大特征值,得到


然后当$vTS_w{LDA} != 1时,得到:


和KPCA相同,我们希望把它送到feature space上再做LDA,也就是GDA(Generalized Discriminat Analysis)

可以推导出

v 可以写成training sample的线性组合
所以

总结一下,PCA只是将样本点投影到一个让方差最大的轴上,但是这时候后方差最大并不一定分的最开,所以就有了LDA,LDA是把样本投影到不同类样本距离最远,同类样本距离尽可能进的轴上。

你可能感兴趣的:(超级简单LDA和GDA)