模式识别PR和模式的概念

引言

模式识别所研究的理论和方法在很多科学和技术领域中得到了广泛的重视。了解与熟悉模式识别的一些基本概念与基本处理方法对研究与从事人工智能、图像处理、信息处理、计算机视觉、多媒体技术等方面工作的人们乃至计算机科学其它领域的人们都是很有益处的。

模式识别(Pattern Recognition)

Pattern Recognition (PR), 这个词对许多人来说很陌生,然而实际上人类却在日常生活的每个环节,从事着模式识别的活动。可以说每个有正常思维的人,在他没有入睡时都在进行模式识别的活动。对观察到的现象作出判断,对听到的声音作出反应,判断东西的好与坏以及水果的成熟与否等等都是人们判断是非,判别事物的过程。但是对模式识别这个词就显得陌生而难以理解了。确切地说,模式识别在这里是针对让计算机来判断事物而提出的,如检测病理切片中是否有癌细胞,文字识别,话语识别,图像中物体识别等等。该学科研究的内容是使机器能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力

Recognition 这个词通俗一点讲究就是机器识别,计算机识别,或机器自动识别。Pattern这个词翻译成模式,就是要让机器自动识别的事物,如一个具体数字,是印刷体还是手写体。识别的结果就是给他分类,分到具体的数字类中。对数字来说,其结果可表示成它的相应代码,如ASCII码。对于一个智能交通系统来说,是要识别是否有汽车闯红灯,闯红灯的汽车车牌号码等。要让机器能识别、分类,需要研究识别的方法,这就是这门学科的任务。

人类在观察事物与作出判断时,常常把所见到的具体事物与脑子里对某个事物的“概念”联系起来,从而按这些概念对它们实行分类。人们能将所见到的具体的、外表各异、各具特色的汽车与脑子中已形成的“抽象”的汽车概念联系起来,并能明确地分辨汽车与拖拉机、坦克车等之间的不同之处,实现正确的分类

而从模式识别的术语来说,所见的具体事物是样本,而它们所属的事物类别,代表这些事物的“概念”是模式。也有另一种说法把所见到的事物称为模式,而将它们的归属类别称为模式类。因此模式这个词,有时则代表类别事物的称呼,而有时则强调具体事物,其具体含义依上下文关系而定,一般不会产生混淆。与人辨别事物相比,机器识别事物的方法是很不同的,在目前也是很简单与低级的,因此机器识别事物的能力还很差。这主要的原因是人们在学习与认识事物中会总结出规律,并把这些规律性的东西抽象成“概念”。人之所以能“抽象出概念”,关键能分析事物中哪些是本质,哪些是表面现象,或由偶然因素引起的。但机器目前的抽象能力是很差的。要让机器准确地把握事物的本质,弄清分辨事物的关键,从而正确辨别事物,实质上是要使人能够研究出好的方法,提出好的算法,从而构造出好的系统,使机器辨别事物的本领更强。

模式类与模式

模式与样本在集合论中是子集与元素之间的关系。当用一定的度量来衡量两个样本,而找不出它们之间的差别时,它们在这种度量条件下属于同一个等价类。这就是说它们属于同一子集,是一个模式,或一个模式类。而不同的模式类之间应该是可以区分的,它们之间应有明确的界线。但是对实际样本来说,有时又往往不能对它们进行确切的划分,即在所使用的度量关系中,分属不同的类别的样本却表现出相同的属性,因而无法确凿无误地对它们进行区分。例如在癌症初期,癌细胞与正常细胞的界线是含糊的,除非医术有了进一步发展,能找到更准确有效的分类方法。

让机器辨别事物的最基本方法是计算,原则上讲是对计算机要分析的事物与作为标准的称之为“模板”的相似程度进行计算。譬如说脑子里有没有瘤,就要与标准的脑图像以及有瘤图像做比较,看跟哪个更相似。要识别一个具体数字,就要将它与从0到9的样板做比较,看跟哪个模板最相似,或最接近。因此首先要能从度量中看出不同事物之间的差异,才能分辨当前要识别的事物(称为测试样本)跟哪类事物更接近。因此找到有效地度量不同类事物的差异的方法是最关键的。

参考资料

[1] R.O.Duda, P.E.Hart. Pattern Classification and Scene Analysis.NewYork: John wiley & sons. 1973


关于ML&PR更多讨论与交流,敬请关注本博客和新浪微博songzi_tea.


你可能感兴趣的:(【Machine,Learning】,探讨模式识别)