LDA线性判别分析——投影的疑问解答

 在周志华老师的《机器学习》中,线性判别这一节中说,样本点在直线上的投影为\omega ^{T}x_{i},这和线性代数中正交投影中所描述的可不大一样。

首先,要明确一点,\omega ^{T}x_{i}是指投影后的点到原点的距离,而不是投影后的点,原书有点误导。

因为,线性判别分析要分析投影后的点的距离(类间散度,类内散度),所以不用求投影点,直接求投影后的距离就可以了。

但是这并没有解答主要疑问,根据正交投影的公式,投影后距离也不是\omega ^{T}x_{i}

先来看一下,正交投影的公式:

        对\mathbb{R}^{n}中的一个非零向量\mu,考虑\mathbb{R}^{n}中的一个向量y,y在\mu上的正交投影记为\hat{y}

                                                                                       \hat{y}=\frac{y\cdot \mu }{\mu \cdot \mu }\cdot \mu(推导过程请参考线性代数相关章节)

       矩阵的点乘表示,矩阵对应元素乘积的和。

我们来看一个例子:

       y=\begin{bmatrix} 7\\ 6 \end{bmatrix}\mu =\begin{bmatrix} 4\\ 2 \end{bmatrix},求y\mu上的正交投影。

                                                                  y\cdot \mu =\begin{bmatrix} 7\\ 6 \end{bmatrix}\cdot \begin{bmatrix} 4\\ 2 \end{bmatrix}=4*7+6*2=40

                                                                  \mu \cdot \mu =\begin{bmatrix} 4\\ 2 \end{bmatrix}\cdot \begin{bmatrix} 4\\ 2 \end{bmatrix}=4*4+2*2=20

                                                                 \hat{y}=\frac{y\cdot \mu }{\mu \cdot \mu }\cdot \mu=\frac{40}{20}\mu =2\begin{bmatrix} 4\\ 2 \end{bmatrix}=\begin{bmatrix} 8\\ 4 \end{bmatrix}

从计算结果来看投影后向量\hat{y}的模,并不等于\mu^{T}y,反而\mu^{T}y=y\cdot \mu。这就是产生疑问的点。

 

在观察LDA建模过程中最大化目标方程时,有了一些想法,最大化目标方程如下所示:

                                                                       J=\frac{\left \| \omega ^{T}\mu _{0}-\omega ^{T}\mu _{1} \right \|_{2}^{2}}{ \omega ^{T}\sum _{0}\omega +\omega ^{T}\sum _{1}\omega}

可以看到,分子分母都有\omega ^{T},所以,是否是因为有相同的常数项可以消去,所以在消去常数项之后表示为了\omega ^{T}x_{i}

在代数定义中找不到先关的解释,那我们就在几何中找找关系。

二维空间中点向直线的投影,如下图所示:

LDA线性判别分析——投影的疑问解答_第1张图片

 要求A'到原点的距离(即原点到点A'向量的长度),有dis(A')=dis(A)\cdot cos\theta(dis代表距离,distance的缩写),用向量范数表示为\left \| A' \right \|=\left \| A \right \|\cdot cos\theta,而cos\theta =\frac{A'\cdot A}{\left \| A' \right \|\cdot \left \| A \right \|},综合两式得:

                                                                              \left \| A' \right \|=\frac{A'\cdot A}{\left \| A' \right \|}

用原书中的符号表示就是(用x_{i}'表示x_{i}的投影点):\left \| x_{i}' \right \|=\frac{\omega \cdot x_{i}}{\left \| \omega \right \|},而矩阵点乘等于\omega \cdot x_{i}=\omega ^{T}x_{i},例如 

                                                                  \begin{bmatrix} 1\\ 2 \end{bmatrix}\cdot \begin{bmatrix} 1\\ 2 \end{bmatrix}=\begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} 1\\ 2 \end{bmatrix}=\begin{bmatrix} 5 \end{bmatrix}

所以\left \| x_{i}' \right \|=\frac{1}{\left \| \omega \right \|}\omega ^{T}x_{i},而\frac{1}{\left \| \omega \right \|}为公共常量(都是同一个\omega),一个公共常量对于最大化目标是无意义(虽然上下式可以消这个常量),并不影响结果,所以可以舍去,从而有了投影长度为\omega ^{T}x_{i}

你可能感兴趣的:(数学,机器学习)