聚类算法小结

  1. 无监督学习
  2. 性能度量-有效性指标--簇内相似度大于簇间相似度
  • 外部指标--给出具体的模型参考C*={C1*,C2*,C3*...}

    • a:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中也隶属于相同的簇的样本对个数
    • b:两个样本xi,xj在聚类后隶属于相同的簇,在参考模型中不隶属于相同的簇的样本对个数
    • c:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中隶属于相同的簇的样本对个数
    • d:两个样本xi,xj在聚类后不隶属于相同的簇,在参考模型中也不隶属于相同的簇的样本对个数

    a+b+c+d=m(m-1)/2 (m样本总个数)

    • Jaccard系数:JC=a/(a+b+c)
    • FM指数:FMI=sqrt(a/(a+b)*a/(a+c))
    • Rand指数:RI=2(a+d)/m(m-1)
  • 内部指标

    • avg(C)=2/(|C|(|C|-1))sum(dist(x1,xj)):计算簇C内样本间平均距离
    • diam(C)=max(dist(xi,xj)):簇C键样本间最大距离
    • dmin(Ci,Cj)=min(dist(xi,xj)):簇Ci与簇Cj最近样本间的距离
    • dcen(Ci,Cj)=dist(ui,uj):簇Ci与Cj中心质点的距离
    • DB指数:参考周志华老师的机器学习
    • Dunn指数
  1. 距离计算
    • 曼哈顿距离
    • 欧氏距离
    • 闵科夫斯基距离
  2. 无序属性距离的计算:VDM距离
  3. 聚类方法
    1. 原型聚类:K-Means及其变形二分k-Means--实例:google地图将地址转化为经纬度并进行聚类分析,实现举起学习实战上的例子,使用python 3.6
    2. 学习向量量化:带有类别标记,目的学到一组原型向量,向量维度和样本一致,向量个数为k:聚类个数,学到之后在将任意样本进行簇划分,划分到与原型向量距离最近的簇中
    3. 高斯混合聚类:没看懂
    4. 密度聚类:核心点、边界点、噪音点--DBSCAN算法,不规定簇的个数,输入参数为MinPts和半径Eps,将密度极低的样本作为异常点、噪音点删除。
    5. 层次聚类:
      • AGNES:自底向上--构成树状图
      • 二分KMeans好像就是自顶向下的层次聚类

你可能感兴趣的:(聚类算法小结)