机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯

感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯

目录

  • 感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯
  • 感知机
    • 感知机模型解决的问题
    • 模型形式(定义)
    • 学习策略
    • 求解算法
  • 线性判别
    • 模型形式
    • 学习策略
    • 求解算法
  • 概率判别模型:逻辑斯蒂回归
      • 模型形式
      • 学习策略
  • 概率生成模型:
    • 高斯判别分析
      • 模型形式
    • 朴素贝叶斯
  • 参考


机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第1张图片


感知机

感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型对新的输入实例进行分类。是神经网络和支持向量机的基础。

  • 判别模型:感知机属于线性分类中的硬输出的判别模型,即 y ∈ { 1 , − 1 } y\in\{1,-1\} y{ 1,1}
  • 梯度下降法

感知机模型解决的问题

二分类问题

模型形式(定义)

感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间(所有的解空间)是定义在特征空间中的所有线性分类模型或线性分类器,即函数集合{ f ∣ f ( x ) = w ⋅ x + b {f|f(x) = w\cdot x+b} ff(x)=wx+b}机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第2张图片

学习策略

  • 前提:
    数据集线性可分
  • 目标:
    求得一个能够将训练集正实例点和负实例点完全正确分开的分离超平面 w ⋅ x + b = 0 w\cdot x+b=0 wx+b=0
    为了找出这样的超平面,即确定感知机模型参数 w , b w,b w,b,需要确定一个学习策略,即定义(经验)损失函数并将损失函数极小化
  • 感知机损失函数的由来:
    损失函数的一个自然选择是误分类点的总数。但是这样的损失函数不是参数 w , b w,b w,b的连续可导函数,不易优化。损失函数的另一个选择是误分类点到超平面S的总局了,这是感知机所采用的。为此,首先写出输入空间 R n R^{n} Rn中任意一点 x 0 x_0 x0到超平面S的距离。
    1 ∣ ∣ w ∣ ∣ ∣ w ⋅ x 0 + b ∣ \frac{1}{||w||}|w\cdot x_0+b| w1wx0+b
    这里, ∣ ∣ w ∣ ∣ {||w||} w w w w L 2 L_2 L2范数。
    其次,对于误分类的数据 ( x i , y i ) (x_i,y_i) (xi,yi)来说,
    − y i ( w ⋅ x i + b ) > 0 -y_i(w\cdot x_i+b)>0 yi(wxi+b)>0
    成立。因为当 w ⋅ x i + b > 0 w\cdot x_i+b>0 wxi+b>0时, y i = − 1 y_i=-1 yi=1,而当 w ⋅ x i + b < 0 w\cdot x_i+b<0 wxi+b<0时, y i = + 1 y_i=+1 yi=+1,因此,误分类点 x i x_i xi到超平面S的距离是
    − 1 ∣ ∣ w ∣ ∣ y i ( w ⋅ x i + b ) -\frac{1}{||w||}y_i(w\cdot x_i+b) w1yi(wxi+b)
    这样,假设超平面S的误分类点集合为M,那么所有误分类点到超平面S的总距离为
    − 1 ∣ ∣ w ∣ ∣ ∑ x i ∈ M y i ( w ⋅ x i + b ) -\frac{1}{||w||}\sum_{x_i \in M}y_i(w\cdot x_i+b) w1xiMyi(wxi+b)
    不考虑 1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} w1,就得到感知机学习的损失函数。
    L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b) L(w,b)=xiMyi(wxi+b)
    显然,损失函数 L ( w , b ) L(w,b) L(w,b)是非负的。如果没有误分类点,损失函数值是0。而且,误分类点越少,误分类点离超平面越近,损失函数值就越小。一个特点的样本点的损失函数:在误分类时是参数 w , b w,b w,b的线性函数,在正确分类时是0。因此,给定训练数据集 T T T,损失函数 L ( w , b ) L(w,b) L(w,b) w , b w,b w,b的连续可导函数。
    感知机学习的策略是在假设空间中选取损失函数式最小的模型参数,即感知机模型。

求解算法

感知机学习问题转化为求解损失函数式(2.4)的最优化问题,最优化的方法是随机梯度下降法。本节叙述感知机学习的具体算法,包括原始形式和对偶形式,并证明在训练数据线性可分条件下感知机学习算法的收敛性

  • 对偶形式:不同的形式都能达到相同的结果

  • 收敛性:指函数或数列是否有极限,此处指算法的迭代是有极限的,最终可得出一个超平面

  • 损失函数极小化
    min ⁡ w , b L ( w , b ) = − ∑ x i ∈ M y i ( w ⋅ x i + b ) \min \limits_{w,b}L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b) w,bminL(w,b)=xiMyi(wxi+b)

M为误分类点的集合

  • 梯度下降:
    感知机学习算法是误分类驱动的,具体采用随机梯度下降法。首先,任意选取一个超平面 w 0 , b 0 w_0,b_0 w0,b0,然后用梯度下降法不断地极小化目标函数。极小化过程中不是一次使 M M M中所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。
    机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第3张图片机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第4张图片

线性判别

模型形式

机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第5张图片

  • 思想:类内小、类间大,和PCA、CDA有些像

类内小、类间大:相似的类聚拢得特别近,而不相似的类离的远

学习策略

  • 线性判别分析:是一个降维的思想,降维,是把数据从p维映射到1维,即将多个特征投影到一条直线上,再设置一个阈值,阈值下方为0,上方为1等
    机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第6张图片

如图,这里要能进行分类,主要看两个方面因素:类内方差足够小,类间平均值大
如图,首先找到最好的投影方向,
那么分类
由于该方向与超平面 w T x w^Tx wTx垂直,因此该线是 w T x w^Tx wTx的法向量 w w w
机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第7张图片

如图,Z代表投影方向这条线
Z i = w T x i Z_i=w^Tx_i Zi=wTxi

我们用均值来衡量类间大:

Z ‾ = 1 N ∑ i = 1 N Z i = 1 N ∑ i = 1 N w T x i \overline{Z}=\frac{1}{N}\sum_{i=1}^NZ_i=\frac{1}{N}\sum_{i=1}^Nw^Tx_i Z=N1i=1NZi=N1i=1NwTxi

我们用方差来形容类内小:

S z = 1 N ∑ i = 1 N ( Z i − Z ‾ ) ( Z i − Z ‾ ) T = 1 N ∑ i = 1 N ( w T x i − Z ‾ ) ( w T x i − Z ‾ ) T S_z=\frac{1}{N}\sum_{i=1}^N(Z_i-\overline{Z})(Z_i-\overline{Z})^T \\ =\frac{1}{N}\sum_{i=1}^N(w^Tx_i-\overline{Z})(w^Tx_i-\overline{Z})^T Sz=N1i=1N(ZiZ)(ZiZ)T=N1i=1N(wTxiZ)(wTxiZ)T

C1在投影方向上的均值:

Z ‾ 1 = 1 N ∑ i = 1 N w T x i \overline{Z}_1=\frac{1}{N}\sum_{i=1}^Nw^Tx_i Z1=N1i=1NwTxi
方差为
S 1 = 1 N ∑ i = 1 N ( w T x i − Z ‾ 1 ) ( w T x i − Z ‾ 1 ) T S_1=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-\overline{Z}_1)(w^Tx_i-\overline{Z}_1)^T S1=N1i=1N(wTxiZ1)(wTxiZ1)T

C2在投影方向上的均值:

Z ‾ 2 = 1 N ∑ i = 1 N w T x i \overline{Z}_2=\frac{1}{N}\sum_{i=1}^Nw^Tx_i Z2=N1i=1NwTxi
方差为
S 2 = 1 N ∑ i = 1 N ( w T x i − Z ‾ 2 ) ( w T x i − Z ‾ 2 ) T S_2=\frac{1}{N}\sum_{i=1}^N(w^Tx_i-\overline{Z}_2)(w^Tx_i-\overline{Z}_2)^T S2=N1i=1N(wTxiZ2)(wTxiZ2)T

因此,类间可以表达为
( Z ‾ 1 − Z ‾ 2 ) 2 (\overline{Z}_1-\overline{Z}_2)^2 (Z1Z2)2,类内可以表达为 S 1 + S 2 S_1+S_2 S1+S2

因此得到目标函数
J ( w ) = ( Z ‾ 1 − Z ‾ 2 ) 2 S 1 + S 2 J(w)=\frac{(\overline{Z}_1-\overline{Z}_2)^2}{S_1+S_2} J(w)=S1+S2(Z1Z2)2
w ^ = a r g m a x J ( w ) \hat{w}=arg max J(w) w^=argmaxJ(w)

求解算法

J ( w ) = ( Z ‾ 1 − Z ‾ 2 ) 2 S 1 + S 2 = w T ( x ‾ c 1 − x ‾ c 2 ) ( x ‾ c 1 − x ‾ c 2 ) T w w T ( S 1 + S 2 ) w = w T S b w w T S w w J(w)=\frac{(\overline{Z}_1-\overline{Z}_2)^2}{S_1+S_2} =\frac{w^T(\overline{x}_{c_1}-\overline{x}_{c_2})(\overline{x}_{c_1}-\overline{x}_{c_2})^Tw}{w^T(S_1+S_2)w} \\=\frac{w^TS_bw}{w^TS_ww} J(w)=S1+S2(Z1Z2)2=wT(S1+S2)wwT(xc1xc2)(xc1xc2)Tw=wTSwwwTSbw
S b : b e t w e e n − c l a s s S_b:between-class Sbbetweenclass类间方差
S w : w i t h − c l a s s S_w:with-class Swwithclass类内方差


机器学习基础篇:感知机、线性判别、逻辑斯蒂回归、朴素贝叶斯_第8张图片

概率判别模型:逻辑斯蒂回归

模型形式

学习策略

另:KL散度


概率生成模型:

高斯判别分析

模型形式


朴素贝叶斯

参考

《统计学习方法》- 李航
Bilibili:《机器学习 - 白板推导系列》

你可能感兴趣的:(统计学,读书笔记,机器学习算法,机器学习,深度学习,人工智能)