感知机--《统计学习方法》第二章

感知机

模型:线性分类模型(属于判别模型),策略: 算法: 梯度下降法

模型:

由输入空间到输出空间的函数:

f(x)=sign(wx+b) f ( x ) = s i g n ( w x + b )
,其中w是权值向量,b是偏置。
wx+b=0 w x + b = 0
对应特征空间中的一个超平面S,w是超平面的法向量,b是超平面的截距。这个超平面将特征空间划分为两个部分,位于两部分的点分别被分为正负两类,因此超平面S被称为分离超平面。

学习策略:

前提假设:数据线性可分,感知机学习的经验风险函数为:

L(w,b)=xiMyi(wxi+b) L ( w , b ) = − ∑ x i ∈ M y i ( w x i + b )
,其中M为误分类点的集合。
经验风险函数为什么选择这个,而不是误分类点的总数?
因为选择误分类点的总数作为损失函数不是参数w,b的连续可导函数,不易优化,因此选择了误分类样本点到超平面的函数间隔之和。
感知机的学习策略是在假设空间中选取使损失函数式最小的模型参数 w,b w , b ,即感知机模型。

学习算法:

1.感知机学习算法的原始形式
梯度下降法,具体来说,

wL(w,b)=xiMyixi ∇ w L ( w , b ) = − ∑ x i ∈ M y i x i
,
bL(w,b)=xiMyi ∇ b L ( w , b ) = − ∑ x i ∈ M y i
.然后随机选取一个误分类点 (xi,yi) ( x i , y i ) ,来对w,b进行更新:
ww+ηyixi w ← w + η y i x i
,
bb+ηyi b ← b + η y i
,其中\eta (0<η1) ( 0 < η ⩽ 1 ) 是步长,也称为学习率。这样,通过迭代可以使得损失函数不断减小直到为0. 注意:每次都在更新之后检查是否有误分类点,并在误分类点中再挑选。
感知机学习算法由于采用不同的储值或选取不同的误分类点,解可以不同。
当数据线性可分时,感知机算法收敛,且最大迭代次数k满足公式 k(Rγ)2 k ⩽ ( R γ ) 2 .
2.感知机学习算法的对偶形式
对偶形式的基本想法是,将w和b表示为实例 xi x i 和标记 yi y i 的线性组合的形式,通过求解其系数而求得w和b.
w=i=1Nαiyixi w = ∑ i = 1 N α i y i x i
,
b=i=1Nαiyi b = ∑ i = 1 N α i y i
α=niη α = n i η ,不断更新 α=α+η α = α + η 即可。

总结:在学习了前一章统计学习三要素之后,我们学习每一个算法都可以从这三要素着手,比如这里的模型是线性模型,策略是经验风险最小化,其中损失函数是误分类到分离超平面的函数距离之和,算法是梯度下降法。

你可能感兴趣的:(机器学习-《统计学习方法》)