统计学习方法 第二章 感知机 主体内容

读书笔记系列

统计学习方法 第二章 感知机模型

一. 感知机的模型

感知机的模型大概是一个 f ( x ) = s i g n ( w ⋅ x + b ) f(x) = sign(w\cdot{x} + b) f(x)=sign(wx+b)的结构

三要素是:假设空间:所有输入空间内的线性分类模型,输入空间是n维向量 X X X,输出空间是 Y Y Y等于 { + 1 , − 1 } \{+1,-1\} {+11}集合。

学习策略: 最小化损失函数 L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) L(w,b) = -\displaystyle \sum_{x_i \in M }{y_i (w\cdot x_i + b)} L(w,b)=xiMyi(wxi+b)

二.感知机的学习算法

随机梯度下降法: 首先根据梯度下降的思想求出梯度的负方向

∂ L ( w , b ) ∂ w = − ∑ x i ∈ M y i x i \frac{\partial L(w,b)}{\partial w}=-\displaystyle \sum_{x_i \in M}y_ix_i wL(w,b)=xiMyixi

∂ L ( w , b ) ∂ b = − ∑ x i ∈ M y i \frac{\partial L(w,b)}{\partial b}=-\displaystyle \sum_{x_i \in M}y_i bL(w,b)=xiMyi

因此步骤是:
(1) 设置 w 0 w_0 w0, b 0 b_0 b0 初始值
(2)选取 ( x i , y i ) (x_i,y_i) (xi,yi)
(3)如果 y i ( w ⋅ x i + b ) ≤ 0 y_i(w \cdot x_i +b) \leq 0 yi(wxi+b)0 则更新 w w w , b b b
w ← w + η y i x i w \leftarrow w+\eta y_ix_i ww+ηyixi
b ← η y i b \leftarrow \eta y_i bηyi
(4)迭代后重新进入(2)
这里是随机梯度下降,好处在于不仅减小了数据量 并且可能在前面误分类点更新可以减少多个误分类点,而不同于整体的 梯度下降。

三.感知机的收敛性

这里省略证明步骤啦 hhhh 主要我看的也不大懂,有兴趣看书吧

四.感知机学习算法的对偶形式

就是将 w w w换成了 ∑ j = 1 N a j y j x j \displaystyle \sum^{N}_{j=1}{a_jy_jx_j} j=1Najyjxj 保持 b b b的形式不变

在随机梯度下降的过程中,可以变为 a i ← a i + η a_i\leftarrow a_i+\eta aiai+η 其中 i i i 表示的是误分类的点 x i xi xi的下标。

这种对偶形式的好处在于,原始形式每更新一次 w w w是更新整个 w w w向量,并且 w ⋅ x w \cdot x wx的过程是 O ( n 2 ) O(n^2) O(n2)的,也就是说每次更新的效率较低,而对偶变换后,为 ∑ j = 1 N a j y j x j ∗ x \displaystyle \sum^{N}_{j=1}{a_jy_jx_j} *x j=1Najyjxjx根据结合律可以之考虑 x j ∗ x x_j*x xjx,这里可以预处理一个 n 2 n^2 n2的表(称之为 G r a m Gram Gram矩阵 G = [ x i ⋅ x j ] N × N G=[x_i \cdot x_j]_{N \times N} G=[xixj]N×N),然后 O ( 1 ) O(1) O(1)查询,显然更好更快。

这种对偶形式的原理在于收敛性验证后,将初始值赋为 w 0 = 0 , b 0 = 0 w_0=0 , b_0 =0 w0=0,b0=0这里的 w 0 w_0 w0是0向量, w w w的最后表示形式一定是 ∑ j = 1 N a j y j x j \displaystyle \sum^{N}_{j=1}{a_jy_jx_j} j=1Najyjxj ,所以可以这样做。

你可能感兴趣的:(读书笔记-统计学习方法)