感知机——《统计学习方法第二章》

感知机——《统计学习方法第二章》_第1张图片

感知机模型

感知机是一个二分类的线性分类模型,之所以说是线性,是因为它的模型是线性形式的。

概念

我们分别从输入空间、输出空间、模型结构、参数空间和假设空间来看一下感知机。
输入

  • 输入空间: X ⊆ R n \mathcal{X} \subseteq \mathbf{R}^n XRn
  • 输入: x = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( n ) ) T ∈ X x=\left(x^{(1)}, x^{(2)}, \cdots, x^{(n)}\right)^T \in \mathcal{X} x=(x(1),x(2),,x(n))TX

这里 X \mathcal{X} X代表 n n n维实数空间的一个子集,输入的每一个实例,用一个 n n n 维的特征向量表示,它是属于输入空间 的。
输出

  • 输出空间: Y = + 1 , − 1 \mathcal{Y}=+1,-1 Y=+1,1
  • 输出: y ∈ Y y\in \mathcal{Y} yY

现在我们定义一个从输入空间到输出空间的函数,这个函数就称作感知机。
感知机
f ( x ) = s i g n ( w ⋅ x + b ) f(x)={\bf{sign}}(w\cdot x+b) f(x)=sign(wx+b)
其中, w = ( w ( 1 ) , w ( 2 ) , ⋯   , w ( n ) ) T ∈ R n w=\left(w^{(1)}, w^{(2)}, \cdots, w^{(n)}\right)^T \in \mathbf{R}^n w=(w(1),w(2),,w(n))TRn 称为权值(Weight), b ∈ R b\in \boldsymbol R bR 称为偏置(Bias), ω ⋅ x \omega \cdot x ωx表示内积:
w ⋅ x = w ( 1 ) x ( 1 ) + w ( 2 ) x ( 2 ) + ⋯ + w ( n ) x ( n ) w \cdot x=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)} wx=w(1)x(1)+w(2)x(2)++w(n)x(n)
特征空间里面所有可能的这种线性函数就称为假设空间。
假设空间

  • 假设空间 F = { f ∣ f ( x ) = w ⋅ x + b } \mathcal{F}=\{f \mid f(x)=w \cdot x+b\} F={ff(x)=wx+b}

参数 ω \omega ω b b b 的所有组合,就得到一个 n + 1 n+1 n+1 维的空间,也就是参数空间。
参数空间

  • 参数空间 Θ = { θ ∣ θ ∈ R n + 1 } \Theta=\left\{\theta \mid \theta \in \mathbf{R}^{n+1}\right\} Θ={θθRn+1}

几何意义

感知机——《统计学习方法第二章》_第2张图片
ω ⋅ x + b = 0 \omega\cdot x+b=0 ωx+b=0代表着 n n n 维特征空间 R n \boldsymbol R^n Rn里面的一个超平面 S \boldsymbol S S
w w w是法向量,垂直于超平面 S \boldsymbol S S b b b是相应的截距项。
通过超平面 S \boldsymbol S S 我们就可以将整个特征空间分为两部分,一部分是正类,其中的实例所对应的输出为 +1,一部分为负类,它里面的实例所对应的输出为 -1。所以这个超平面被称为分离超平面。

感知机学习策略

数据集的线性可分性

感知机模型,有一个比较严苛的条件,就是要求数据集必须是线性可分的。
感知机——《统计学习方法第二章》_第3张图片

感知机学习策略

如果假设训练数据集线性可分,我们的目标则是希望寻求到一个很棒的分离超平面,把这些实例点完全划分为正负类。

  1. 首先,我们给出特征空间中的任意一点到超平面的距离。

感知机——《统计学习方法第二章》_第4张图片

  1. 给出损失函数:所有误分类点到超平面的距离的总和。

感知机——《统计学习方法第二章》_第5张图片
感知机——《统计学习方法第二章》_第6张图片
省去 ∣ ∣ ω ∣ ∣ ||\omega|| ∣∣ω∣∣主要考虑两方面:

  1. ∣ ∣ ω ∣ ∣ ||\omega|| ∣∣ω∣∣不会影响距离和的符号,即不影响正值还是负值的判断。
  2. ∣ ∣ ω ∣ ∣ ||\omega|| ∣∣ω∣∣不会影响感知器算法的最终结果。算法终止条件,是不存在误分类点。这时候 M M M 为空集,那么误分类点的距离和是否为 0 取决于分子,而不是分母,因此与 ∣ ∣ ω ∣ ∣ ||\omega|| ∣∣ω∣∣的大小无关。

感知器的算法

感知器的原始形式

感知机——《统计学习方法第二章》_第7张图片
批量更新,就需要每次使用所有的误分类点,这会致使每一轮的迭代都需要大量的时间。
随机梯度下降法,每一轮随机选择一个误分类点,迭代的速度会快一些。

以随机梯度下降法来讲解感知机的算法:
感知机——《统计学习方法第二章》_第8张图片

  1. 首先选择初始值,假设蓝色的直线对应于初始值代表的分离超平面。
  2. 接下来,在训练集中随机选取一个实例点,用 y i ( w ⋅ x i + b ) y_i\left(w \cdot x_i+b\right) yi(wxi+b) 来判断这个点被分离超平面正确分类还是错误分类。

如果被正确分类, y i ( w ⋅ x i + b ) y_i\left(w \cdot x_i+b\right) yi(wxi+b) 就是大于零的,我们不用管这个实例点了;如果被错误分类, y i ( w ⋅ x i + b ) y_i\left(w \cdot x_i+b\right) yi(wxi+b) 就是小于零的,我们可以把这个实例点拿来更新参数。

  1. 之后,重复步骤,直到没有误分类点,停止迭代。

不同的初值或者说不同的误分类点的顺序,可以得到不同的分离超平面。

感知器的对偶形式

感知机——《统计学习方法第二章》_第9张图片
对偶形式的具体步骤:
感知机——《统计学习方法第二章》_第10张图片

与原始形式相比,对偶形式的优势:
感知机——《统计学习方法第二章》_第11张图片
感知机——《统计学习方法第二章》_第12张图片

无论是原始形式还是对偶形式,如果迭代的过程是一样的,最后得到的分离超平面还有感知机模型是相同的。
同样的,类似于原始形式的学习算法,对偶形式的学习算法也是收敛的,而且存在多种解。
如果要得到唯一解,需要加约束条件,这就是支持向量机中的内容了。

算法的收敛性

感知机——《统计学习方法第二章》_第13张图片
感知机——《统计学习方法第二章》_第14张图片
感知机——《统计学习方法第二章》_第15张图片
感知机——《统计学习方法第二章》_第16张图片
感知机——《统计学习方法第二章》_第17张图片
感知机——《统计学习方法第二章》_第18张图片

你可能感兴趣的:(机器学习,学习方法,机器学习,python,感知机)