【模式识别】学习笔记(1)>>>【聚类分析】

聚类分析

相似性测度:

欧氏距离(多用)、马氏距离、明氏距离、角度相似性。

聚类准则:

进而还需要一种基于数值的聚类准则,能将相似的模式样本分在同一类,这就是聚类准则:试探法、聚类准则函数法。

    试探法:

凭直观感觉或经验确定相似性阈值。

    聚类准则函数法:

将样本进行分类以使类别间可分离性为最大,反映类别间相似性或分离性的函数;使聚类分析转化为寻找准则函数极值的最优化问题。如图求解欧氏距离和极值即可得准则函数:

【模式识别】学习笔记(1)>>>【聚类分析】

 试探法:

 简单试探法:在实际中,对于高维模式样本很难获得准确的先验知识,因此只能选用不同的阈值和起始点来试探,所以这种方法在很大程度上依赖于以下因素:    
第一个聚类中心的位置,不同首个聚类中心导致最终的聚类结果不同。
待分类模式样本的排列次序,x1和x2的中心与x1和x3的中心是不一样的
距离阈值T的大小
样本分布的几何性质
最大最小距离算法

较简单试探法改进的方法,详细步骤见:第二章(最大最小距离算法).doc

聚类准则函数法

系统聚类法: 类别由多到少,直到获得合适的分类要求为止。有最大、最小、均值等不同距离准则为辅助。

动态聚类算法:

    基本思想--

        1)首先选择若干个样本点作为聚类中心,再按某种聚类准则(通常采用最小距离准则)使样本点向各中心聚集,从而得到初始聚类;

        2)然后判断初始分类是否合理,若不合理,则修改分类;

        3)如此反复进行修改聚类的迭代算法,直至合理为止。

        此类算法有:K-Mean、ISODATA

K-均值算法:

原理:

预定K个x为K类的均值中心,遍历所有样本以距离为依据归到K类中,重新计算每类的均值中心直到都不变为止,改变的话以新的均值作为中心重新归类。

性能:

因此,性能受所选聚类的数目、聚类中心的初始分布(影响收敛速度)、模式样本的空间几何分布等性质、读入次序等因素影响。

实际运用:

1)在实际应用中,需要试探不同的K值和选择不同的聚类中心的起始值。
2)如果模式样本可以形成若干个相距较远的孤立的区域分布,一般都能得到较好的收敛效果。
3)K-均值算法比较适合于分类数目已知的情况。

ISODATA算法:

原理:

与K-均值算法相似,聚类中心都是通过样本均值的迭代运算来决定的。

不同的是,ISODATA算法加入了一些试探步骤,并且可以结合成人机交互的结构,使其能利用中间结果所取得的经验更好地进行分类。
步骤和思路:
(1) 选择某些初始值。可选不同的参数指标,也可在迭代过程中人为修改,以将N个模式样本按指标分配到各个聚类中心中去。
(2) 计算各类中诸样本的距离指标函数。
(3)~(5)按给定的要求,将前一次获得的聚类集进行分裂和合并处理((4)为分裂处理,(5)为合并处理),从而获得新的聚类中心。
(6) 重新进行迭代运算,计算各项指标,判断聚类结果是否符合要求。经过多次迭代后,若结果收敛,则运算结束。

【此处应有ISODATA流程图】
具体算法实现还远不止步骤这么轻描淡写!

你可能感兴趣的:(【模式识别】学习笔记(1)>>>【聚类分析】)