1 统计模式识别的原理与方法简介
1.1 模式识别
什么是模式和模式识别?
广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)]。而“模式识别”则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。
模式识别的研究主要集中在两方面,即研究生物体(包括人)是如何感知对象的,以及在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。
一个计算机模式识别系统基本上是由三个相互关联而又有明显区别的过程组成的,即数据生成、模式分析和模式分类。数据生成是将输入模式的原始信息转换为向量,成为计算机易于处理的形式。模式分析是对数据进行加工,包括特征选择、特征提取、数据维数压缩和决定可能存在的类别等。模式分类则是利用模式分析所获得的信息,对计算机进行训练,从而制定判别标准,以期对待识模式进行分类。
有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。利用模式与子模式分层结构的树状信息所完成的模式识别工作,就是结构模式识别或句法模式识别。
模式识别已经在天气预报、卫星航空图片解释、工业产品检测、字符识别、语音识别、指纹识别、医学图像分析等许多方面得到了成功的应用。所有这些应用都是和问题的性质密不可分的,至今还没有发展成统一的有效的可应用于所有的模式识别的理论。
1.2 统计模式识别
统计模式识别的基本原理是:有相似性的样本在模式空间中互相接近,并形成“集团”,即“物以类聚”。其分析方法是根据模式所测得的特征向量Xi=(xi1,xi2,…,xid)T(i=1,2,…,N),将一个给定的模式归入C个类ω1,ω2,…, ωc中,然后根据模式之间的距离函数来判别分类。其中,T表示转置;N为样本点数;d为样本特征数。
统计模式识别的主要方法有:判别函数法, k近邻分类法,非线性映射法,特征分析法,主因子分析法等。
在统计模式识别中,贝叶斯决策规则从理论上解决了最优分类器的设计问题,但其实施却必须首先解决更困难的概率密度估计问题。BP神经网络直接从观测数据(训练样本)学习,是更简便有效的方法,因而获得了广泛的应用,但它是一种启发式技术,缺乏指定工程实践的坚实理论基础。统计推断理论研究所取得的突破性成果导致现代统计学习理论——VC理论的建立,该理论不仅在严格的数学基础上圆满地回答了人工神经网络中出现的理论问题,而且导出了一种新的学习方法——支撑向量机]。
2 统计模式识别的研究进展
2.1 类条件概率分布的估计
考虑将待识样本X∈Rd判别为C个不同类ω1,ω2,…, ωc中的某一类。由贝叶斯定理,X应判为具最大后验概率的那一类。由于类条件概率分布未知,故通常假定分布为某一带参数的模型如多维正态分布(当多维正态分布中均值向量和协方差矩阵已知时,由此分布得到的二次判别函数是最优的),而表示分布的参数则由训练样本进行估计。当训练样本不充足时,分布参数包含估计误差影响识别精度。
为了提高分类精度,在参考文献8中,Ujiie H等人提出了这样一个方法。首先,将给定数据进行变换(带指数函数的变换),使得变换后的数据更近似于正态分布,不论原数据所服从的分布如何,而且在理论上找到了最优变换;然后,为了处理这些变换后的数据,对传统的二次判别函数进行了修改;最后,提出了变换的一些性质并通过实验表明了该方法的有效性。
为了避免分类精度的降低,通过研究特征值的估计误差,提出了各种方法,但对特征向量的估计误差却考虑得不多。Iwamura M等人经过研究得出特征向量的估计误差是造成分类精度降低的另一个因素,因而在参考文献9中提出了通过修改特征值以弥补特征向量的估计误差的方法。
2.2 线性判别法
20世纪90年代中期,统计学习理论和支撑向量机算法的成功引起了广大研究人员的重视。支撑向量机算法具有较扎实的理论基础和良好的推广能力,并在手写数字识别、文本分类等领域取得了良好的效果,它的一个引人注目的特点是利用满足Mercer条件的核函数实现非线性分类器的设计,而不需要知道非线性变换的具体形式[10]。Fisher判别法和主分量分析法是在模式分类与特征抽取中已经获得广泛应用的传统线性方法。近年出现的基于核函数的Fisher判别法与基于核函数的主分量分析法是它们的线性推广,其性能更好,适用范围更广,灵活性更高,是值得关注的应用前景看好的新方法。
在考虑两类问题且每类中的训练样本数大于样本的维数的情况下,参考文献14提出了基于训练样本来划分一个多维空间的两种方法,它们是Fisher线性判别法的两点改进。第一种方法——一维参数搜索;第二种方法——递归Fisher方法。这两种方法对模式检测问题比起标准的Fisher判别法来训练效果更好。利用Mercer核,可以将这两个方法推广到非线性决策面。
2.3 贝叶斯分类器
模式识别的目的就是要将一个物体(由它的特征表示)判别为它所属的某一类。考虑两类的情况。采用贝叶斯分类器时,物体是按最大后验概率进行分类的,这由一个判别函数来完成。多数情况下,该判别函数是线性的或二次的。当类服从正态分布时,要找到最优线性分类器总是不可能的。就目前所知,都是协方差矩阵相等的情况。
与最优线性分类器相对,研究人员尝试各种方法来得到线性分类器,尽管这些方法找到了线性判别函数,但分类器却不是最优的。在参考文献15中,作者指出存在正态分布和不等协方差矩阵的其它情况判别函数是线性的且分类器是最优的。与前面研究的线性分类器相比,这里介绍的新方法得到两个正态分布类间的最优分类器是对偶的和线性的。文中确定了均值向量和协方差矩阵必须满足的条件以得到最优对偶线性分类器,解决了感知器的Minsky悖论。
具最优决策的贝叶斯分类器可以由概率神经网络来实现。
可以用非线性动态系统(Nonlinear Dynamical System,简记为NDS)的集合来对模式进行分类,其中每个NDS将输入值分类为IN或OUT类型。输入值通过每一个NDS进行迭代并沿着一个轨道收敛到一个全局稳定吸引子(attractor),它是该NDS所代表的类的原型。参考文献18的作者先前提出了一种“Race to The Attractor”神经网络(RTANN)模型方法,与传统的神经网络方法相比,这一方法受益于与人的大脑联系更广的几个有利条件。然而,该方法缺乏详细的数学分析。
要从杂乱的背景图像中检测出诸如人、脸和汽车等是一个广泛应用的方法。许多应用系统需要准确而快速的检测。换句话说,降低检测错误和减少计算复杂性是两个主要的问题。很多目标检测的工作集中在性能改善上,而对复杂性问题注意很少。有人通过在贝叶斯决策规则下的误差分析,减少检测时系数的数量来降低计算开销,采用隐式Markov树(HMT)模型来描述模式分布,引入概念error-bound-tree(EBT)建立特征选择与误差降低的联系。
2.4 误差界
最小分类错误(MCE)训练准则,与其它判别训练准则如极大交互信息(MMI)准则等是统计模式识别中训练模型参数的标准极大似然(ML)准则的重要选择。MCE准则表示对给定的分类器训练数据的试验错误率的光滑模型。由于训练准则和降低错误率的最终目标之间的直接关系,MCE训练的分类器不会太依赖于某个模型假设的性质,正如ML和MMI训练那样的情况。已证明MCE准则给出了一个独立于相应的模型分布的贝叶斯错误率的上界。还证明了与模型无关的MCE准则导出了在有限训练样本的渐近情况下的一个封闭解。在导出贝叶斯错误率时,结果模型分布与真分布(代表训练数据)不同。
有研究者按照训练样本的分类间隔数利用概率近似校正(PAC)的贝叶斯结构提出了线性分类器的一般误差的一个界。
一个有用的概念,即由相同的训练数据构造出来的分类器之间的弱相关。结果表明,如果弱相关低且期望的分类间隔大,那么基于这些分类器的线性组合的决策规则可以使错误率成指数级减少。
2.5 新的模式识别方法
2.5.1 共享核函数模型
概率密度估计构成一个无监督的方法,该方法试图从所得到的没有标记的数据集中建立原始密度函数的模型。密度估计的一个重要应用就是它可以被用于解决分类问题。
广泛应用于统计模式识别中密度估计的方法之一是基于混合密度模型的。根据期望最大(EM)算法得到了这些模型中有效的训练过程。在参考文献23中,作者指出,按照共享核函数可以得出条件密度估计的更一般的模型,这里类条件密度可以用一些对所有类的条件密度估计产生作用的核函数表示。作者首先提出了一个模型,该模型对经典径向基函数(RBF)网络进行了修改,其输出表示类条件密度。与其相反的是独立混合模型的方法,其中每个类的密度采用独立混合密度进行估计。最后提出了一个更一般的模型,上面提到的模型是这个模型的特殊情况。
2.5.2 粗糙集理论(Rough Set Theory, 简记RST)方法
在20世纪70年代,波兰学者Pawlak Z和一些波兰的逻辑学家们一起从事关于信息系统逻辑特性的研究。粗糙集理论就是在这些研究的基础上产生的。1982年, Pawlak Z发表了经典论文Rough Sets,宣告了粗糙集理论的诞生。此后,粗糙集理论引起了许多科学家、逻辑学家和计算机研究人员的兴趣,他们在粗糙集的理论和应用方面作了大量的研究工作。1991年,Pawlak Z的专著和1992年应用专集的出版,对这一段时期理论和实践工作的成果作了较好的总结,同时促进了粗糙集在各个领域的应用。此后召开的与粗糙集有关的国际会议进一步推动了粗糙集的发展。越来越多的科技人员开始了解并准备从事该领域的研究。目前,粗糙集已成为人工智能领域中一个较新的学术热点,在模式识别、机器学习、知识获取、决策分析、过程控制等许多领域得到了广泛的应用]。
模拟传感器信号的一个方法,在点的非空不可数集合下实现集合的近似,引入了基于粗糙集理论的离散粗糙积分。离散粗糙积分有助于近似推理和模式识别中连续信号的分割。在近似推理中,离散粗糙积分为确定某特定采样期间传感器的相关性提供一个基。在模式识别中,离散粗糙积分可用于如雷达天气数据的分类、汽车模式分类及动力系统故障波形分类等方面。
粗糙集理论是处理模糊和不确定性的一个新的数学工具。用粗糙集理论构造决策规则的算法一般都是考虑决策规则的数量而不是它们的代价。采用多目标决策来协调规则的简明性和代价之间的冲突,以及提高粗糙集的效率和效力。
基于模式识别方法的动力系统瞬态稳定性估计(TSA)通常按两个模式的分类问题进行处理,即区分稳定和不稳定类。其中有两个基本问题:(1)选择一组有效的特征;(2)建立一个具有高精度分类的模式分类器。参考文献28将粗糙集理论与向后传播的神经网络(BPNN)相结合来进行瞬态稳定性估计,包括特征提取和分类器构造。首先,通过初始输入特征的离散化,利用基于RST的诱导学习算法来简化初始特征集。然后,利用采用半监督学习算法的BPNN作为一个“粗糙分类器”将系统稳定性分为三类,即稳定类、不稳定类和不确定类(边界区域)。不确定类的引入提供了减少误分类的一个切实可行的方法,且分类结果的可靠性也因此而大大提高。
2.5.3 仿生模式识别(拓扑模式识别)
一种模式识别理论的新模型,它是基于“认识”事物而不是基于“区分”事物为目的。与传统以“最佳划分”为目标的统计模式识别相比,它更接近于人类“认识”事物的特性,故称为“仿生模式识别”。它的数学方法在于研究特征空间中同类样本的连续性(不能分裂成两个彼此不邻接的部分)特性。文中用“仿生模式识别”理论及其“高维空间复杂几何形体覆盖神经网络”识别方法,对地平面刚性目标全方位识别问题作了实验。对各种形状相像的动物及车辆模型作全方位8800次识别,结果正确识别率为99.75%,错误识别率与拒识率分别为0与0.25%。
3 结 语
模式识别从20世纪20年代发展至今,人们的一种普遍看法是不存在对所有模式识别问题都适用的单一模型和解决识别问题的单一技术,我们现在拥有的只是一个工具袋,所要做的是结合具体问题把统计的和句法的识别结合起来,把统计模式识别或句法模式识别与人工智能中的启发式搜索结合起来,把统计模式识别或句法模式识别与支持向量机的机器学习结合起来[30],把人工神经元网络与各种已有技术以及人工智能中的专家系统、不确定推理方法结合起来,深入掌握各种工具的效能和应有的可能性,互相取长补短,开创模式识别应用的新局面。