机器学习-二分类线性判别分析

目录

前言

一、线性判别分析(LDA)算法原理

 二、损失函数的推导

2.1初步条件推导

2.2最大化目标

三、拉格朗日乘子法求解

3.1拉格朗日乘子法

3.2求解的值

四、拓展定义

4.1广义特征值

4.2广义瑞利熵

总结



前言

本文主要记录了有关机器学习问题线性模型中的二分类线性判别分析的内容,思路均来源于周志华老师《机器学习》第三章3.4部分的内容。



一、线性判别分析(LDA)算法原理

算法思想:对于给定训练样例集,设法将样例投影到一条直线上,使同类样例尽可能近、异类样例投影尽可能远离;对新样本进行分类时,将其投影到同样的直线上,根据投影点位置来判定类别。

从几何角度上:让全体训练样本经过投影之后,异类样本的中心尽可能远,同类样本的方差尽可能小

        对于给定的数据集D=\left \{ (xi,yi) \right \}_{i=1}^{m},其中xin维的特征向量R^{n}yi\epsilon \left \{ 0,1 \right \}为标记,i=1,2,...m

        令X_{i}\mu _{i}\sum_{i},分别表示第i\epsilon \left \{ 0,1 \right \}类示例的集合、均值向量、协方差均值此时i表示yi的取值。以下通过例子解释:

 二、损失函数的推导

2.1初步条件推导

① 经过投影后,异类样本的中心尽可能远(非严格投影):

投影长度为:max\left \| \left | \mu _{0} \right | \cdot cos\theta _{0}-\left | \mu _{1} \right | \cdot cos\theta _{1}\right \|^{2}_{2}

经过同乘\omega模长,转化为向量内积之差,简化因为存在\theta _{1}\theta _{0}带来的计算难度:

等价于:max\left \|\left | \omega \right |\cdot \left | \mu _{0} \right | \cdot cos\theta _{0}-\left | \omega \right |\cdot \left | \mu _{1} \right | \cdot cos\theta _{1}\right \|^{2}_{2}

 即为:max\left \| \omega ^{T}\mu _{0}-\omega ^{T}\mu _{1} \right \|^{2}_{2} 。

注:二范数=模,对于a=(a_{1},a_{2})\left \| a \right \|_{2}=\sqrt{(a_{1}^{2}+a_{2}^{2})},对应\left \| a \right \|^{2}_{2}=a_{1}^{2}+a_{2}^{2}  。

 ②经过投影后,同类样本的方差尽可能小(非严格方差):

       已知两类样本协方差均值为\sum _{0}\sum _{1},对应两类样本协方差分别为:\omega ^{T}\sum _{0}\omega\omega ^{T}\sum _{1}\omega,若使得同类方差尽可能小,即:min\omega ^{T}\sum _{0}\omega

代入协方差的表达式(\frac{1}{m_{0}}乘积项可以省略):

 等价于:min\sum_{x\epsilon X_{0}}^{}(x-\bar{x})^{2}

2.2最大化目标

综合以上两个方面的优化目标,可以得到欲最大化的目标:J并对其表达形式进行化简:

机器学习-二分类线性判别分析_第1张图片

 令S_{\omega }=\sum_{0}+\sum _{1},  S_{b}=(\mu _{0}-\mu _{1})(\mu _{0}-\mu _{1})^{T},则上式可转化为:maxJ=\frac{\omega ^{T}S_{b}\omega }{\omega ^{T}S_{\omega }\omega}

由于此时中分母和分子均是关于\omega的二次项,即此式的解与\omega无关,仅仅与其方向有关。

不失一般性,令\omega ^{T}S_{\omega }\omega=1,则等价于(习惯转化为最小化问题):

机器学习-二分类线性判别分析_第2张图片

三、拉格朗日乘子法求解\omega

3.1拉格朗日乘子法

       对于仅含等式约束的优化问题:min f(x),s.t.h_{i}(x)=0 ,i=1,2,...,n,其中自变量x\epsilon R^{n}f(x)h_{i}(x)均有连续的一阶偏导数。可以列出其拉格朗日函数:

L(x,\lambda )=f(x)+\sum_{i=1}^{n}\lambda _{i}h_{i}(x),其中\lambda =(\lambda _{1},\lambda _{2},\lambda _{3},...,\lambda _{n})^{T}为拉格朗日乘子向量。只要对拉格朗日函数关于x求偏导,并令导数等于0再搭配约束条件即可解出x求解出所有的x即为上述优化问题所有可能解(对应为极值点处)。

3.2求解\omega的值

机器学习-二分类线性判别分析_第3张图片

 故得到等式:\omega =\frac{\gamma }{\lambda }S^{-1}_{\omega }(\mu _{0}-\mu _{1})由于最终要求解的\omega不关心其大小,只关心其方向:

\frac{\gamma }{\lambda }常数项可以取任意值,如不妨取\gamma =\lambda,则此时可以求解出\omega =S^{-1}_{\omega }(\mu _{0}-\mu _{1})

②此处不用严格按照拉格朗日乘子法刻意考虑约束条件。

验证计算出来的价值点是否为最小值点:

由于-\omega ^{T}S_{b}\omega =-\left \| \omega ^{T}\mu _{0}- \omega ^{T}\mu _{1} \right \|^{2}_{2}\leqslant 0,故对应目标函数的最大值为0,且必然存在最小值,则对应求解出\omega为最小值对应点。

四、拓展定义

4.1广义特征值

4.2广义瑞利熵

        设AB为n阶厄米矩阵,且B正定,称R(x)=\frac{x^{H}Ax}{x^{H}Bx} , (x\neq 0)A相对于B的广义瑞利熵。特别地,当B=I(单位矩阵)时,广义瑞利熵退化为瑞利熵。

厄米矩阵:指矩阵中每一个第i行第j列的元素都与第j行第i列的元素的共轭相等,涵盖了虚数范围,对于实数矩阵,等价为转秩矩阵,即A^{H}=A=A^{T},即为对称矩阵。

广义瑞利熵存在以下性质:

       设\lambda _{i}x_{i}(i=1,2,...,n)A相对于B的广义特征值和特征向量,且\lambda _{1}\leqslant \lambda _{2}\leqslant ...\leqslant \lambda _{n}

x\neq 0的前提下,x的解记为x^{\ast },存在以下性质:

机器学习-二分类线性判别分析_第4张图片

 在本篇中,最大化目标JS_{b}S_{\omega }的“广义瑞利熵”。

证明该性质:

和本篇的证明方法相似,当固定x^{H}Bx=1时,使用拉格朗日乘子法可推出结论式:Ax=\lambda Bx这样一个广义特征值的问题,根据其定义,对应的可能解即为x_{i}(i=1,2,...,n)n个广义特征向量,将其分别代入R(X)即可推出上述结论。





总结

以上思路来源于《机器学习》这本书第三章3.4节的内容,二分类线性判别为本书中的重点内容,公式推导过程复杂但不难理解,条理清晰,需要耐心。内容仅代表个人的思路和理解,如有错误欢迎指正!

你可能感兴趣的:(机器学习,人工智能)