感知机是二类分类模型。
输出取-1和+1二值。
属于判别模型。
利用梯度下降法进行学习。
具有简单而易于实现的优点。
是神经网络和支持向量机的基础。
定义 2.1(感知机):假设输入空间(特征空间)是 X⊆Rn ,输出空间是 Y={−1,+1} 。由输入空间到输出空间的如下函数
定义2.2 (数据集的线性可分性) 给定一个数据集,若存在超平面S,能够将数据集的正实例点和负实例点完全正确地划分到超平面的两端,则称这个数据集为线性可分数据集,否则,称为线性不可分。
感知机的损失函数是依据所有误分类点到超平面S的总距离来确定的。
总距离:
输入:训练数据集 T={(x1,y1),(x2,y2),⋯,(xN,yN)} ,i = 1,2,3,…,N;学习率 η(0<η≤1) ;
输出:w,b;感知机模型 f(x)=sign(w⋅x+b) 。
(1)选取初值 w0,b0 。
(2)在训练集中选取数据 (xi,yi)
(3)如果 yi(w⋅xi+b)≤0
对于线性可分数据集感知机学习算法原始形式收敛,即经过有限次迭代可以得到一个将完全正确划分的感知机模型。
设训练数据集T是线性可分的,i = 1,2,…,N,则
(1)存在满足条件 ||wˆopt||=1 的超平面 wˆopt⋅xˆ=wopt⋅x+bopt=0 将训练数据集完全正确分开,且存在 γ>0 ,对所有i = 1,2,…,N
由于初值的选择不同,感知机算法存在许多解,为了得到唯一的超平面,需要对分离超平面添加约束条件。
对偶形式的基本思想是,将w和b 表示为实例x和标记y的线性组合的形式,通过求解其系数而求得w和b,不失一般性,可假设初始的w和b均为0。
输入:线性可分的训练数据集 T={(x1,y1),(x2,y2),⋯,(xN,yN)} ,i = 1,2,3,…,N;学习率 η(0<η≤1) ;
输出: α,b ;感知机模型 f(x)=sign(∑j=1Nαjyjxj⋅x+b) .
其中 α=(α1,α2,⋯,αN)T
(1) α←0,b←0
(2)在训练集中选取数据 (xi,yi)
(3)如果 yi(∑i=1Nαjyjxj⋅xi+b)≤0
(4)转至(2)直到没有误分类数据。
将实例间的内积计算出来储存到矩阵,称为Gram矩阵。