《统计学习方法》第二章&第十二章:感知机和统计学习方法总结

监督学习,二分类

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第1张图片

根据损失函数:,求解优化问题

求得:分离超平面,感知机模型

目录

一、统计学习方法总结

二、感知机(Perceptron)

三、感知机模型

四、感知机策略

五、感知机算法

1、感知机算法原理

2、感知机算法的原始形式

3、感知机算法的例子

4、感知机算法收敛性

六、感知机算法的对偶形式

1、基本想法

2、例子


一、统计学习方法总结

10种统计方法特点总结
方法 适用问题 模型特点 模型类型 学习策略 学习的损失函数 学习算法
感知机 二分类 分离超平面 判别模型 min{误分点到超平面距离} 误分点到超平面距离 随机梯度下降
支持向量积 二分类 分离超平面,核技巧 判别模型

min{正则化合页损失},

max{软间隔}

合页损失 序列最小最优化算法(SMO)
提升方法 二分类 弱分类器的线性组合 判别模型 min{加法模型的指数损失} 指数损失 前向分步加法算法
朴素贝叶斯法 多分类 特征与类别的联合概率分布,条件独立假设 生成模型

极大似然估计,

max{后验概率估计}

对数似然损失 概率计算公式,EM算法
logistic回归与最大熵模型 多分类 特征条件下的类别条件概率分布,对数线性模型 判别模型 极大似然估计,正则化的极大似然估计 logistc损失 改进的迭代尺度算法,梯度下降,拟牛顿法
k 近邻法 多分类,回归 特征空间,样本点 判别模型
决策树 多分类,回归 分类树,回归树 判别模型 正则化的极大似然估计 对数似然损失 特征选择,生成,剪枝
隐马尔可夫模型 标注 观测序列与状态序列的联合概率分布模型 生成模型

极大似然估计,

max{后验概率估计}

对数似然损失 概率计算公式,EM算法
条件随机场 标注 状态序列条件下观测序列的条件概率分布,对数线性模型 判别模型 极大似然估计,正则化的极大似然估计 对数似然损失 改进的迭代尺度算法,梯度下降,拟牛顿法
EM算法 概率模型参数估计 含隐变量概率模型

极大似然估计,

max{后验概率估计}

对数似然损失 迭代算

二、感知机(Perceptron)

输入:实例的特征向量(感知机对应于输入空间中将实例分为正负两类的分离超平面)

输出:实例的类别,取+1、-1

优点:简单而易实现

三、感知机模型

输入空间(特征空间):,实例的特征向量:

输出空间:,实例的类别:

感知机(输入空间到输出空间的函数)

w:权值向量;b:偏置;· 内积;                                                         

几何解释:

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第2张图片距离:

 

四、感知机策略

损失函数=;M为误分类点数目

1、误分类点数目,但不是w,b连续可导,不宜优化。

2、误分类点到超平面的总距离。

总距离= ;误分类点:((w·x+b)和y符号一致性);误分类点距离=

五、感知机算法

1、感知机算法原理

优化问题:

解法:随机梯度下降法。

1)随机选一个超平面(w,b),不断极小化目标函数L:

L的梯度:对w求偏导:;对b求偏导:

2)选取误分类点(x,y)满足更新:

2、感知机算法的原始形式

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第3张图片

3、感知机算法的例子

1)例子1:

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第4张图片《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第5张图片

4、感知机算法收敛性

算法的收敛性:证明经过有限次迭代,可以得到一个将训练数据集,完全正确划分的分离超平面感知机模型

【定理】b并入权重向量w,记作:

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第6张图片

【证明】

(1)《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第7张图片有限的点


(2)《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第8张图片《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第9张图片

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第10张图片《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第11张图片

定理表明:
  1. 误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的
  2. 感知机算法存在许多解,既依赖于初值,也依赖迭代过程中误分类点的选择顺序
  3. 为得到唯一分离超平面,需要增加约束,如SVM
  4. 线性不可分数据集,迭代震荡。

六、感知机算法的对偶形式

1、基本想法

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第12张图片    《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第13张图片

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第14张图片N个误分类点(也可非误分类点,在这个点时α=0),由于每个误差点可能会重复计算多次,所以用表示,而不用前者是后者的倍数

2、例子

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第15张图片                     《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第16张图片

Gram矩阵的作用:

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第17张图片

《统计学习方法》第二章&第十二章:感知机和统计学习方法总结_第18张图片

你可能感兴趣的:(机器学习)