语句让他家户户 任天野还让
f(x)=sign(w⋅x+b)
其实,sign是符号函数,w是权重,w·x是内积,b是偏置, w⋅x+b=0是超平面。
L(w,b)=−∑xi∈Myi(w⋅xi+b)
∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi
损失函数是由误分类点到超平面的距离推导而来
损失函数的梯度:
∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi∇wL(w,b)=−∑xi∈Myixi∇bL(w,b)=−∑xi∈Myi
∇wL(w,b)=−∑xi∈Myixi 所以 w←w+ηyixi
∇bL(w,b)=−
∑xi∈Myi b←b+ηyi
b=∑i=1Nniηyi=∑i=1Nαiyi
其中αi=niη中ni代表对第i个样本的学习次数,感知机对偶形式的完整形式:
f(x)=sign(∑j=1Nαjyjxj⋅x+b)
对偶形式中训练实例仅仅以内积的形式出现,为了方便,可以预先将训练集中的实例间的内积计算出来并且以矩阵的形式储存,这个矩阵就是Gram矩阵(Gram matrix)
当训练数据集线性可分时,感知机的算法是收敛的,并且存在无穷多个解。
参考资料:李航《统计学习方法》