04 SVM - 感知器模型

03 SVM - KKT条件

高中距离知识回顾

点到直线/平面的距离公式:

1、假定点p(x0,y0),平面方程为f(x,y)=Ax+By+C,那么点p到平面f(x)的距离为:

点到直线/平面的距离公式

2、从三维空间扩展到多维空间中,如果存在一个超平面f(X)=θX+b; 那么某一个点X0到这个超平面的距离为:

04 SVM - 感知器模型_第1张图片
点到超平面距离

二范数: ||θ||2 = √ (θ12 + θ22 + ... + θn2)

参考文献:https://wenku.baidu.com/view/d26d2ba39e31433239689374.html

感知器模型

感知器算法是最古老的分类算法之一,原理比较简单,不过模型的分类泛化能力比较弱,不过感知器模型是SVM、神经网络、深度学习等算法的基础。

感知器的思想很简单:比如有很多的学员,分为男学员和女学员,感知器模型就是试图找到一条直线,能够把所有的男学员和女学员分隔开,如果是高维空间中,感知器模型寻找的就是一个超平面,能够把所有的二元类别分割开。感知器模型的前提是:数据是线性可分的

04 SVM - 感知器模型_第2张图片
感知器简单示例

解区 和 余量 的概念:

解区和余量

对于m个样本,每个样本n维特征以及一个二元类别输出y,如下:

目标是找到一个超平面,即:

让一个类别的样本满足: θX>0 ;另外一个类别的满足: θX<0;感知器模型为:

04 SVM - 感知器模型_第3张图片
感知器模型

正确分类:yθx>0,错误分类:yθx<0;所以我们可以定义我们的损害函数为:
期望使分类错误的所有样本(m条样本)到超平面的距离之和最小。

04 SVM - 感知器模型_第4张图片

因为此时分子和分母中都包含了θ值,当分子扩大N倍的时候,分母也会随之扩大,也就是说分子和分母之间存在倍数关系,所以可以固定分子或者分母为1,然后求另一个即分子或者分母的倒数的最小化作为损失函数,简化后的损失函数为(分母为1):

04 SVM - 感知器模型_第5张图片
文献中意思是找到一条θ的平方和=1的函数。 而我的理解是最后θ的平方和是一个定值,所以在计算损失函数的时候可以忽略不计。

分析公式的推导:

公式推导

使用梯度下降法对损失函数求解,不过由于这里的m是分类错误的样本点集合,不是固定的,所以我们不能使用批量梯度下降法(BGD)求解,只能使用随机梯度下降(SGD)或者小批量梯度下降(MBGD);一般在感知器模型中使用SGD来求解。

04 SVM - 感知器模型_第6张图片
感知器求SGD公式

分析SGD求解感知器的步骤:

分析步骤

你可能感兴趣的:(04 SVM - 感知器模型)