统计学习方法笔记——第二章 感知机(2)

补充关于线性可分数据集,感知机学习算法的收敛性证明。

引入符号:,相当于对权值向量w扩充了一维,用b来扩充。

                 ,相当于对输入向量x扩充了一维,用1来扩充。

则显然:


    现已知有一个线性可分的数据集,即存在一个超平面,能将其中所有的数据点都正确地分类。现要证明这个算法是收敛的,即能通过有限次的迭代将这个超平面求出来。

    对于该超平面,通过对系数的适当放缩,可使得权值向量的模为1。如,若已知该超平面为x+y+1=0,两边同时除以根号2,此时权值向量的模为1,得出的超平面与原超平面是同一个。这样做是为了后续简化操作。这就是Novikoff定理(1)的前半段:


    而对于后半句话,因为这个超平面能将所有数据点正确分类,那么对于任意有限的i,必有


    故存在

    使得

 


定理(1)证明完毕,下证定理(2),即寻找超平面的迭代次数总是有限的,即这个次数有一个上界:

统计学习方法笔记——第二章 感知机(2)_第1张图片


通过定理(1)已知:


向量扩充,其中k代表误分类的次数:


第k个误分类的实例条件(下标0到k-1,k-1代表第k次误分类)


参数更新:


---------------------------------------(*)

由(*)式和定理(1)可知


反复递推,直至下标k=0:


对(*)式两边平方,再放缩得:

统计学习方法笔记——第二章 感知机(2)_第2张图片

统计学习方法笔记——第二章 感知机(2)_第3张图片

即误分类的次数k是有上界的,通过有限次的搜索一定可以求得这个分离超平面。同时,若数据集线性不可分,则算法不收敛,迭代结果发生震荡。

你可能感兴趣的:(统计学习方法笔记——第二章 感知机(2))