《统计学习方法》 第二章 感知机 笔记

第二章 感知机

2.1 感知机模型

  • 是一类二类分类的线性模型
  • 模型:从假设空间中找到的一个最优的
  • 决策函数:在这里插入图片描述
  • 属于判别模型
  • 分离超平面:下图 左下为正例,右上为负例
    《统计学习方法》 第二章 感知机 笔记_第1张图片

2.2 感知机学习策略

  • 定义经验损失函数极小化

  • 损失函数的两种选择:

    • 误分类点的总数:但该函数不是参数w,b的连续可导函数
    • 误分类点到超平面S的总距离: 感知机采样该策略,因为该函数不是参数w,b的连续可导函数
      • 《统计学习方法》 第二章 感知机 笔记_第2张图片
      • 上式的系数可去,因为w,b分别乘了个系数之后,变成另一个w1,b1,但我们只是为了求出参数w,b,故可去。
  • 感知机学习的策略是在假设空间中选取使损失函数最小的模型参数w,b ,即感知机模型。

2.3 感知机学习算法

  • 求解最优化问题:
    《统计学习方法》 第二章 感知机 笔记_第3张图片

    • 随机梯度下降法 vs 批量梯度下降
      • 后者,数据量大,慢
      • 感知机中选用前者,极小化过程一次随机选取一个误分类点使其梯度下降。
  • 损失函数L(w,b)的梯度:
    在这里插入图片描述
    在这里插入图片描述
    注:上面的两个式子都是正的

  • 对w,b进行更新 在这里插入图片描述

  • 感知机学习算法由于采用不同的初值或选取不同的误分类点,解可以不同。

  • 感知机算法存在许多解,既依赖于初值,也依赖迭代 过程中误分类点的选择顺序。

  • 为了得到唯一的超平面,需要对分离超平面增加约束条件,即线性支持向量机的想法,——> 间隔最大化。

2.3.2 算法的收敛性

  • 感知机对于线性可分的决策函数,有解且收敛(迭代次数有上界)
  • 当训练集线性不可分时,感知机算法不收敛,迭代结果会发生震荡,故线性不可分的问题,不能使用感知机。

2.3.3 感知机学习算法的对偶形式

-《统计学习方法》 第二章 感知机 笔记_第4张图片

  • 《统计学习方法》 第二章 感知机 笔记_第5张图片
  • 与原始形式一样,感知机学习算法的对偶形式迭代是收敛的,存在多个解。

你可能感兴趣的:(机器学习)