dbscan和谱聚类_常用的聚类算法及聚类算法评价指标

dbscan和谱聚类_常用的聚类算法及聚类算法评价指标_第1张图片

作者 | 荔枝boy

引用 | 基于图的聚类分析研究—张涛【磐创AI导读】:本文介绍了常用的聚类算法及聚类算法评价指标。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。

1. 典型聚类算法

1.1 基于划分的方法

代表:kmeans算法

·指定k个聚类中心eb49f344f46458f261829efd0f896e48.png
·3499bb528261f6b9d48350330937b9c0.png(计算数据点与初始聚类中心的距离)
·d299de19adad449ab0697f1ea1375fe9.png(对于数据点1207c6a1d129a9e356f0f223f1be09d1.png,找到最近的4c581b19a151040da80fe63bf9b03428.png{i}ci(聚类中心),将1207c6a1d129a9e356f0f223f1be09d1.png分配到4c581b19a151040da80fe63bf9b03428.png{i}ci中)
·b16dfada46261326e238801dc1da447f.png(更新聚类中心点,1507935af2cca8a797d2efef95f6ed2f.png是新类别数值的均值点)
·48c5872ebd39fe5eb9d9372df3fc0dc9.png(计算每一类的偏差)
·f82e9f9ffe2a6dc8de6450e5c68868c5.png返回3802e775f1fb1acbc4de6f9794a5529a.png6397efd9784e6d22a310f287992c16f9.png返回第二步

1.2 基于层次的方法

代表:CURE算法

·每个样本作为单独的一个类别eb49f344f46458f261829efd0f896e48.png
·12b0f0fd278719e842756348d901baea.png
·合并7551333646f211a174aac0c6f389d872.png,1d49aa248ca73830c634a9cae104dddc.png0dd5723ce8769ee5eca37d0a245c1522.png
·遍历完本次样本,合并成新的类别后,若存在多个类别,则返回第二步
·遍历完本次样本,合并成新的类别后,若所有样本为同一类别,跳出循环,输出每层类别

1.3 基于网格的方法

代表:STING算法

·将数据集合X划分多层网格结构,从某一层开始计算
·查询该层网格间的属性值,计算属性值与阈值的关系,判定网格间的相关情况,不相关的网格不作考虑
·如果网格相关,则进入下一层的相关区域继续第二步,直到下一层为最底层
·返回相关网格结果

1.4 基于密度的方法

代表:DBSCAN算法

·输入数据集合X,随机选取一点,并找出这个点的所有高密度可达点
·遍历此点的所有84249a72d53a0b7e0e2444afe2444622.png邻域内的点,并寻找这些密度可达点,判定某点43b18ab39fdb5a3051814fa5b37f08c6.png邻域内的点,并寻找这些点密度可达点,判定某点的417b39e788736f4d69b7f0560d4c4498.png邻域内的点数是否超过阈值点数,超过则构成核心点
·扫描数据集,寻找没有被聚类的数据点,重复第二步
·输出划分的类,并输出异常值点(不和其他密度相连)

1.5 神经网络的方法

代表:SOM算法

·数据集合521a923c5fc7044c216cd13e0a5b8cf0.png,权重向量为953007d977c1d184c0a407380ec249f5.png389fae923246057aaad6e2a5eba5c66f.png,归一化处理9d53e67725e6c10811f9890b412e967a.png
·寻找获胜的神经元,找到最小距离,对于每一个输入数据,找到与之最相匹配的节点
a11ad557c708775f68904cf26ead6557.png36448e49e4885a351ff5d8d075a57511.png68b3f042a187ba2e80afd3f9fa8ba34e.png的距离,更新权重:a1e7f99f3564aa43f54cb37696c376eb.png
·更新临近节点,87d983ad8a6b891dfe1d56573d051783.png,其中a7710e35ce3922e09011644f7c5137e4.png代表学习率

1.6 基于图的聚类方法

代表:谱聚类算法

·计算邻接矩阵3008da6781c45d9344c65eeecd685c76.png,度矩阵a0d2dd05bb77f98e3cb3fa40c107f60a.pngc1f638d416747f57dcebd414a8ad0236.png
·计算拉普拉及矩阵4a285406691c774d2d9b2347602eb382.png
·计算归一化拉普拉斯矩阵de5e869684002999245488e4d4f504d3.png
·计算ae79c2c0144468c80e8cd4660ccf9e51.png的特征值和特征向量ce6204666b7125dec0458ebf656e86bb.png
·对Q矩阵进行7b926e55f5e177fb957d111ac05b98fa.png聚类,得到聚类结果

2. 聚类算法的评价指标

一个好的聚类方法可以产生高品质簇,是的簇内相似度高,簇间相似度低。一般来说,评估聚类质量有两个标准,内部质量评价指标和外部评价指标。

2.1 内部质量评价标准

内部评价指标是利用数据集的属性特征来评价聚类算法的优劣。通过计算总体的相似度,簇间平均相似度或簇内平均相似度来评价聚类质量。评价聚类效果的高低通常使用聚类的有效性指标,所以目前的检验聚类的有效性指标主要是通过簇间距离和簇内距离来衡量。这类指标常用的有CH(Calinski-Harabasz)指标等

CH指标

CH指标定义为:82b813cf9685941f1d19edd6c0198342.png
其中4eaaeee98b484a536e0ae4ff7c02184f.png表示类间距离差矩阵的迹,3a34d24c94592c1b23debc11f05f2861.png表示类内离差矩阵的迹,607f0ad188261abc20c7e7bc145cb0a9.png是整个数据集的均值,33937bc162ba77a2e58df0d1fa4cc2a3.png是第68b3f042a187ba2e80afd3f9fa8ba34e.png个簇5583b5eb4dce397f16ea54651d026db0.png的均值,5fe5254b748f450d4c00712b2c94b7d0.png代表聚类个数,cfcf6314d4d7efb0798829a4c8169ed5.png代表当前的类。db6ae59f3dd9a409bd8a264f96c889a6.png值越大,聚类效果越好,62321c34900e5890b0ad123121f4ccaf.png主要计算簇间距离与簇内距离的比值

簇的凝聚度

簇内点对的平均距离反映了簇的凝聚度,一般使用组内误差平方(SSE)表示:a55136d74aae50aa47d086d65f11f024.png

簇的邻近度

簇的邻近度用组间平方和(SSB)表示,即簇的质心518cb88364f18dffc4dc13b29716a324.png到簇内所有数据点的总平均值0765f581929669fa83db8f5ea7979614.png的距离的平方和

2.2 外部质量评价标准

外部质量评价指标是基于已知分类标签数据集进行评价的,这样可以将原有标签数据与聚类输出结果进行对比。外部质量评价指标的理想聚类结果是:具有不同类标签的数据聚合到不同的簇中,具有相同类标签的数据聚合相同的簇中。外部质量评价准则通常使用熵,纯度等指标进行度量。

熵:

簇内包含单个类对象的一种度量。对于每一个簇,首先计算数据的类分布,即对于簇ae65bee1336d794ed80006ba1b275cb9.png,计算簇ae65bee1336d794ed80006ba1b275cb9.png的成员属于类68b3f042a187ba2e80afd3f9fa8ba34e.png的概率3a789cb300a24bb059272c27e30d40ab.png
其中4372111ddd73363c141d248cc68fecbd.png表示簇ae65bee1336d794ed80006ba1b275cb9.png中所有对象的个数,而f1548529bbf671263dfd27d8a113fd6e.png是簇ae65bee1336d794ed80006ba1b275cb9.png中类68b3f042a187ba2e80afd3f9fa8ba34e.png的对象个数。使用类分布,用标准公式:9c236311ddacfa897a49179075592165.png
计算每个簇ae65bee1336d794ed80006ba1b275cb9.png的熵,其中K是类个数。簇集合的总熵用每个簇的熵的加权和计算即:9197db214b0271fbd33247e7679eaf8e.png
其中cfcf6314d4d7efb0798829a4c8169ed5.png是簇的个数,而c247052d53131e65c1cb7fdd2bf2c540.png是簇内数据点的总和

纯度:

簇内包含单个类对象的另外一种度量。簇ae65bee1336d794ed80006ba1b275cb9.png的纯度为da632a6316c459e2f526b385f0a13430.png,而聚类总纯度为:89d9bdcb291cef873465e6980d2a52ee.png

你也许还想

● 知识图谱与机器学习|KG入门 -- Part2 建立知识图谱

● 使用特定领域的文档构建知识图谱 | 教程

● 图像配准:从SIFT到深度学习

欢迎扫码关注:

dbscan和谱聚类_常用的聚类算法及聚类算法评价指标_第2张图片

d847155b208284fef80f3e92dd8b9c4d.gif 点击下方 |  | 了解更多

你可能感兴趣的:(dbscan和谱聚类)