机器学习算法-------聚类算法(一)--种类以及评价指标

聚类算法:无监督学习,用来对数据对象进行分组,将相似的对象划分到同一个组或者类别中。聚类产生的类别标签是未知的,与分类不同。聚类是一种探索性数据分析方法,跟分类不同,聚类没有预测功能,是根据对象的不同属性所决定的距离来发现相似对象并划分为同一个分组。

一、聚类算法的种类

聚类算法:有多种聚类方法,可根据数据类型,目的及具体应用要求来选择合适的聚类算法

  1.1 基于划分的聚类方法:  

            K-means 、Kmeans ++ 算法 (改进了K均值算法选择初始质心的方式。)

         二分类K均值聚类算法  、小批量K均值算法、K中心算法、 数据流K均值算法

1.2基于密度的聚类方法:   DBSCAN算法     、OPTICS算法

1.3基于模型的聚类方法:    高斯混合模型算法(GMM)

1.4基于层次的聚类方法(层次聚类)hierarchical clustering

          凝聚的层次聚类AGglomerativeNESting), AGNES

         自上向下的分裂方法(DIivisive ANAlysis),比如DIANA

        BIRCH算法  

1.5基于网格的聚类方法

      STING算法:基于统计信息网格(Statistical INformation Grid)

     CLIQUE算法 :结合了基于密度和基于网格的聚类算

1.6   Mean Shift  聚类算法 (均值漂移聚类)  无参密度估计算法或称核密度估计算法

二、聚类算法的评价指标:

   2.1调整兰德指数                     2.2 互信息评分         2.3同质性、完整性以及调和平均

   2.4Fowlkes –Mallows评分      2.5轮廓系数               2.6Calinski-Harabz指数

 

你可能感兴趣的:(数据分析----机器学习算法)