statistical machine learning 02 Perceptron

《统计学习方法》笔记—感知机

写在前面

  • 豆瓣链接 : 《统计学习方法》

  • 李航微博 : @李航博士

  • 维基百科 : perceptron

Content List

  • statistical machine-learning

    • 1.1. learning object data

    • 1.2. main machine-learning

1. 感知机模型

模型适用前提

感知机 能够解决的问题首先要求 feature_space 线性可分,再者是二类分类,即将样本分为 {+1, -1} 两类

input_space to output_space 的函数:Perceptron_Function

w 和 b 为 model 参数,w为权值(weight),b为偏置(bias)

图1

感知机模型的 hypothesis_space 是定义在feature_space中的所有线性分类模型,即函数集合 $$ {f|f(x) = w·x + b} $$

感知机的定义中,线性方程 $w·x + b = 0$ 对应于问题空间中的一个超平面S,位于这个超平面两侧的样本分别被归为两类,例如下图,红色作为一类,蓝色作为另一类,它们的特征很简单,就是它们的坐标

statistical machine learning 02 Perceptron_第1张图片

作为监督学习的一种方法,感知机学习由训练集求得感知机模型,即求得模型参数w,b,这里x和y分别是特征向量和类别(也称为目标)。基于此,感知机模型可以对新的输入样本进行分类。

2. 感知机学习策略

感知机是一个简单的二类分类的线性分类模型,要求我们的样本是线性可分的,什么样的样本是线性可分的呢?举例来说,在二维平面中,可以用一条直线将+1类和-1类完美分开,那么这个样本空间就是线性可分的。如图1就是线性可分的,图2中的样本就是线性不可分的,感知机就不能处理这种情况。因此,在本章中的所有问题都基于一个前提,就是问题空间线性可分。

statistical machine learning 02 Perceptron_第2张图片

为说明问题,假设数据集 $$
T = { (x_1, y_1), (x_2, y_2), ... , (x_N, y_N) }
$$ 中 所有 $y_i = +1$ 的实例 i 有 per03, 对 所有 $y_i = -1$ 的实例 i 有 per04

这里先给出 input_space $R^n$ 中任一点 $x_0$ 到超平面 $S$ 的距离:

$$
frac{1}{||w||} |w bullet x_0 + b|
$$

这里 $||w||$ 是 $w$ 的 $L_2$ 范数。

对于误分类的数据 $(x_i, y_i)$ ,根据我们之前的假设,有

$$
-y_i (w bullet x_i + b) > 0
$$

因此误分类点到超平面S的距离可以写作 :

$$
-frac{1}{||w||} y_i (w bullet x_i + b)
$$

假设超平面S的误分类点集合为M,那么所有误分类点到超平面S的总距离为 :

$$
-frac{1}{||w||}sum_{x_i in M } y_i (w bullet x_i + b)
$$

3. 感知机学习算法

3.1 原始形式

3.2 算法收敛性

3.3 对偶形式

4. 小结

你可能感兴趣的:(ml)