《统计学习方法》 读书笔记 第二章

第二章 感知机

概括

  感知机是二类分类模型。
  输出取-1和+1二值。
  属于判别模型。
  利用梯度下降法进行学习。
  具有简单而易于实现的优点。
  是神经网络和支持向量机的基础。

2.1 感知机模型

  定义 2.1(感知机):假设输入空间(特征空间)是 XRn ,输出空间是 Y={1,+1} 。由输入空间到输出空间的如下函数
  

f(x)=sign(wx+b)

  称为感知机。其中w和b为感知机模型参数,w叫做权值或权值向量,b叫做偏置。
  
sign(x)={+1,1,x0x<0

  感知机是线性分类模型,感知机的假设空间是定义在特征空间的所有线性分类模型或线性分类器。

2.2 感知机学习策略

  定义2.2 (数据集的线性可分性) 给定一个数据集,若存在超平面S,能够将数据集的正实例点和负实例点完全正确地划分到超平面的两端,则称这个数据集为线性可分数据集,否则,称为线性不可分。
  感知机的损失函数是依据所有误分类点到超平面S的总距离来确定的。
  总距离:
  

1||w||yi(wxi+b)

  不考虑 1||w|| 项,得到感知机的损失函数
  
L(w,b)=xiMyi(wxi+b)

   关于为什么要 忽略 1||w|| ,请查看链接
  https://www.zhihu.com/question/36241719/answer/122476382

2.3 感知机学习算法

采用梯度下降法

算法 2.1 (感知机学习算法的原始形式)

  输入:训练数据集 T={(x1,y1),(x2,y2),,(xN,yN)} ,i = 1,2,3,…,N;学习率 η(0<η1)
  输出:w,b;感知机模型 f(x)=sign(wx+b)
  (1)选取初值 w0,b0
  (2)在训练集中选取数据 (xi,yi)
  (3)如果 yi(wxi+b)0
  

ww+ηyixi

  
bb+ηyi

  (4)转至(2),直至损失函数值为0。

算法的收敛性(Novikoff定理)

  对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将完全正确划分的感知机模型。

定理 2.1(Novikoff)

  设训练数据集T是线性可分的,i = 1,2,…,N,则
  (1)存在满足条件 ||wˆopt||=1 的超平面 wˆoptxˆ=woptx+bopt=0 将训练数据集完全正确分开,且存在 γ>0 ,对所有i = 1,2,…,N
  

yi(wˆopttxiˆ)=yi(woptxi+bopt)γ

  (2)令 R=max1iN||xiˆ|| ,则感知机算法在训练数据集上的误分类次数k满足不等式
  
k(Rγ)2

  

TIP

由于初值的选择不同,感知机算法存在许多解,为了得到唯一的超平面,需要对分离超平面添加约束条件。

感知机学习算法的对偶形式

  对偶形式的基本思想是,将w和b 表示为实例x和标记y的线性组合的形式,通过求解其系数而求得w和b,不失一般性,可假设初始的w和b均为0。

算法2.2 (感知机学习算法的对偶形式)

  输入:线性可分的训练数据集 T={(x1,y1),(x2,y2),,(xN,yN)} ,i = 1,2,3,…,N;学习率 η(0<η1)
  输出: α,b ;感知机模型 f(x)=sign(j=1Nαjyjxjx+b) .
  其中 α=(α1,α2,,αN)T
  (1) α0,b0
  (2)在训练集中选取数据 (xi,yi)
  (3)如果 yi(i=1Nαjyjxjxi+b)0
  (4)转至(2)直到没有误分类数据。
  
  将实例间的内积计算出来储存到矩阵,称为Gram矩阵。
  

G=[xixj]N×N

你可能感兴趣的:(《统计学习方法》李航,读书笔记)