聚类方法——簇间距离度量方法

1.  最小距离(单链接算法 Single linkage algorithm) 

    含义:簇类C1和C2的距离由该两个簇的最近样本决定。

                                                                 $$ dis{t_{\min }}\left( {C1,C2} \right) = \mathop {\min }\limits_{​{P_i} \in C1,{P_j} \in C2} dist\left( {​{P_i},{P_j}} \right)

    优点:只要两个簇类的间隔不是很小,单链接算法可以很好的分离非椭圆形状的样本分布。

    缺点:单链接算法不能很好的分离簇类间含有噪声的数据集。

2.  最大距离(全链接算法 Complete linkage algorithm)

    含义:簇类C1和C2的距离由该两个簇的最远样本决定。

                                                               $$ dis{t_{\max }}\left( {C1,C2} \right) = \mathop {\max }\limits_{​{P_i} \in C1,{P_j} \in C2} dist\left( {​{P_i},{P_j}} \right)

    优点:全链接算法可以很好的分离簇类间含有噪声的数据集。

    缺点:全连接算法对球形数据的分离产生偏差。

3.  平均距离(均链接算法 Average linkage algorithm)

     含义:簇类C1和C2的距离等于两个簇类所有样本对的距离平均。

                                                        $$ dis{t_{average}}\left( {C1,C2} \right) = \frac{1}{​{\left| {C1} \right| \bullet \left| {C2} \right|}}\sum\limits_{​{P_i} \in C1,{P_j} \in C2} {dist\left( {​{P_i},{P_j}} \right)}

其中, \left | C_1 \right |\left| C_2 \right|表示簇类的样本个数。

     优缺点同全链接算法,往往被认为最常用也最好用的方法。

4.  中心距离

5.  离差平方和

     簇类C1和C2的距离等于两个簇类所有样本对距离平方和的平均。优缺点同全连接。

                                                               $$ dist\left( {C1,C2} \right) = \frac{1}{​{\left| {C1} \right| \bullet \left| {C2} \right|}}{\sum\limits_{​{P_i} \in C1,{P_j} \in C2} {\left( {dist\left( {​{P_i},{P_j}} \right)} \right)} ^2}

引自:

层次聚类算法原理总结

http://www.360doc.com/content/19/0623/20/99071_844396658.shtml

你可能感兴趣的:(聚类,机器学习,数学基础)