转载自:《模式识别》(第三版)第4章-线性分类器
#############################################################
4.1引言
模式识别的目的:在特征空间中设法找到两类(或多类)之间的分界面
基于类别直接设计分类器需要确定三个基本要素:一是分类器即判别函数的类型,也就是从什么样的判别函数(函数集)中去求解;二是分类器设计的目标或准则,在确定了设计准则后,分类器设计就是根据样本从事先决定的函数集中选择在该准则下最优的函数,通常就是确定函数类中的某些待定参数;三是在前两个要素明确后,如何设计算法利用样本数据搜索到最优的函数参数(即选择函数集中的函数)。形式化表示就是:在判别函数集中确定待定参数,使得准则函数最小或最大,即
线性判别函数,即,多类情况下为。采用不同的准则及不同的寻优算法就得到不同的线性判别方法
4.2线性判别函数的基本概念
式中x是d维特征向量,又称样本向量,w称为权向量,分别表示为,。
是个常数,称为阈值权。对于两类问题的线性分类器可以采用下述决策规则:令
则如果g(x)>0,则决策,g(x)<0,则决策,如果g(x)=0,可将x任意分类到某一类,或拒绝 (4-2)
方程g(x)=0定义了一个决策面,它把归类于类的点与归类于类的点分割开来。当g(x)为线性函数时,这个决策面便是超平面。
或 (4-4)
这表明,w和超平面H上任一向量正交,即w是H的法向量。一般来说,一个超平面H把特征空间分成两个半空间,即对类的决策域和对类的决策域。因为当x类在中时,g(x)>0,所以决策面的法向量是指向的。因此,有时称的所有x在H的正侧,相应地,称中的所有x在H的父侧。
判别函数g(x)可以看成是特征空间中某点x到超平面的距离的一种代数度量
式中,是x在H上的射影向量;
r是x到H的垂直距离;
将式(4-5)带入式(4-1),可得
若x为原点,则 (4-7)
则式(4-7)代入式(4-6),就得到从原点到超平面H的距离
如果,则原点在H的左侧;若,则原点在H的负侧。若,则g(x)具有齐次形式,说明超平面H通过原点。
利用线性判别函数进行决策,就是用一个超平面把特征空间分割成两个决策区域。超平面的方向由权向量w确定,它的位置由阈值确定。判别函数g(x)正比于x点到超平面的代数距离(带正负号)。当x在H正侧时,g(x)>0;在负侧时,g(x)<0。