w^T x+ b 的几何意义

上一篇文章末尾留下了一个疑问,我不知道为什么要对输入数据 x 进行 wT x+ b 处理。在学习了 感知机 和 Fisher线性判别 之后,我有了更深刻的理解。
w^T x+ b 的几何意义_第1张图片
以二维为例,即输入的数据有 x1 和 x2 两个特征,则某个样本点在二维空间中就有唯一确定的一个点(x1 , x2)与之对应。同时每个样本还有标签 y,要么为正要么为负,即对样本进行二分类。我们要让机器通过学习训练集中的数据,包括x1、x2、y ,学会某种规则,当面对新的未知样本点时,机器会根据这种规则,判断这个样本点最有可能是正样本还是负样本。

Fisher线性判别将规则定义为二维空间中的一条直线,对于两个样本点,如果在判别直线的同侧,则认为他们属于同一类;反之如果在直线的两侧,则认为他们属于不同类。
判别直线的表达式为 wT x + b = 0。其中 x 为输入向量(x1 , x2,… ,xd)T,w 是和 x 维度相同的列向量,wT x 的结果就是一个标量,b 是偏置。下面我根据自己的理解介绍一下它们的几何意义。
w^T x+ b 的几何意义_第2张图片
在上图二维坐标系中,假设判别直线为 y = 0.5 * x - 1 ,则A(0,-1)、B(2,0)、C(4,1)都在直线上,这三个点都满足 wT x + b = 0。代入A、B两点,求出 w 和 b 的一个解,并验证A、B、C三点都是使 wT x + b = 0成立的。
w^T x+ b 的几何意义_第3张图片
w^T x+ b 的几何意义_第4张图片
接下来考虑直线两侧的D(3,3)和E(8,1)。
w^T x+ b 的几何意义_第5张图片
将D代入wT x + b,得到 -5 < 0;代入C,得到 4 > 0。当两个样本点在直线同侧,它们的结果应该同号;如果在直线两侧,它们的结果应该异号。并且观察 w =(1,-2),对应于图中的向量DC =(1,-2),说明 w 表示的是判别直线的法向量,它的方向代表判别直线的正向,当 wT x + b > 0 时,该样本点被判断为正;当 wT x + b < 0 时,该样本点被判断为负。

同时可以计算样本点到判别直线的距离。
w^T x+ b 的几何意义_第6张图片
以D(3,3)为例,|wT x + b| = |-5| = 5, ‖w‖ = 5^ 0.5 , 则D到直线的距离为 5^ 0.5 。从图中也可以明显的看出 D到直线的距离为 (12+22)^ 0.5 = 5^0.5 。同理可求 E 到直线的距离为 4 / 5 ^0.5 。

总结:对输入数据进行 wT x + b 处理,可以把样本空间中的一个样本点映射为一个标量。w 是和 x 维度相同的列向量,反映了不同特征之间的联系,如 x1 变化 Δ ,x2 会随之变化 ?Δ ;w 的方向表示判别的正向;b 代表偏移量,或者说是一个阈值,对于不同的问题,根据 wT x 是否达到这个特定的阈值来作出不同的判断。在Fisher线性判别中,将wT x + b = 0 作为判别直线,若将未样本点代入该式,如果结果大于零,则判断为正;若结果小于零,则判断为负。

[1]机器学习.周志华. 清华大学出版社
[2]模式识别.边肇祺,张学工.清华大学出版社

你可能感兴趣的:(机器学习)