李航《统计学习方法》第二章 感知机

感知机 perceptron

模型

二类线性分类器
输入为n维向量 xRn ,输出 y{+1,1}
f(x)=sign(wx+b)
其中w为权值,b为偏置(相当于Andrew Ng 课程里面的x0),sign为符号函数
sign(x)={+1,x01,x<0
wx 为向量內积, wx+b=0 对应于 超平面,w是法向量,b是截距
如果输入数据集X是线性可分的,那么感知机的任务就是寻找超平面

损失函数

错误分类的点到超平面距离的平均值
L(w,b)=xjMyj(wxj+b)

算法

随机梯度下降,每次迭代时随机选取一个误分类点使其梯度下降
当数据集线性可分时,可以证明算法收敛,即可以通过有限次迭代找到完全正确分离的超平面
如果要从众多解中得到最优解,就引出后面的支持向量机
原始形式和对偶形式两种形式

原始形式

  • 梯度下降法:随机设置w,b的初始值,对参数 w, b进行更新:
    ww+ηyixi bb+ηyi

    其中 η 是步长,即学习率
  • 几何解释:当一个实例点被误分类时,调整 参数w,b 使得分离平面向该误分类点的一侧移动,以减少该误分类点与超平面间的距离,直至超平面越过所有的误分类点以正确分类。

  • 感知机学习算法由于采用不同的初值或者误分类点选取顺序的不同,最终解可以不同

  • 训练集线性可分时,算法收敛,但是算法存在许多解,既依赖于初值,又依赖于误分类点的选择顺序。 当训练集线性不可分时,感知机学习算法不收敛。迭代结果会发生震荡

对偶形式

  • 设参数w,b的初始值均为0. 通过下列公式直接计算

    w=i=1Nαiyixi b=_i=1Nαiyi

  • 与原始形式一样,感知机学习算法的对偶形式也是收敛的,且存在多个解。

如何理解对偶形式

每一个线性规划问题,我们称之为原始问题,都有一个与之对应的线性规划问题我们称之为对偶问题。原始问题与对偶问题的解是对应的
很多凸优化问题都是通过解对偶问题来求解的,线性规划只是其中一个特例而已。

来自知乎

你可能感兴趣的:(读书笔记)