机器学习_第四天(非监督学习+思维导图)

文章目录

    • 1、非监督学习(无目标值)
      • 1.1 k-means聚类 API
      • 1.2 Kmeans性能评估指标
        • 1.2.1 KmeansAPI
      • 1.3 Kmeans总结
    • 2、机器学习基础--思维导图

1、非监督学习(无目标值)

k-means:聚类,把数据划分成K个类别,当K未知时可视为超参数,进行调参
机器学习_第四天(非监督学习+思维导图)_第1张图片
假设K=3,聚类步骤如下:

  1. 随机在数据当中抽取三个样本,当做三个类别的中心点(k1,k2,k3)
  2. 计算其余点分别到这三个中心点的距离,每个样本都有三个距离(a,b,c),选出距离最近的中心点归为一类,从而最终形成三个族群。
  3. 分别计算这三个族群的平均值(即属于该族群所有点的x均值与y均值),x均值与y均值组成的三个新的中心点是否同之前三个旧中⼼相同
    ▶ 如果相同:结束聚类
    ▶ 如果不同:将这三个点作为新中⼼点,重复第二步

1.1 k-means聚类 API

sklearn.cluster.KMeans(n_clusters=8,init=‘k-means++’)

  • n_clusters:开始的聚类中心数量,即将样本分为几个类别
  • init:初始化方法,默认为’k-means++’
  • labels_:默认标记的类型,可以和真实值比较

1.2 Kmeans性能评估指标

机器学习_第四天(非监督学习+思维导图)_第2张图片

  1. 计算蓝i到自身类别其它点距离的平均值a_i
  2. 计算蓝i分到红色类别和绿色类别所有点的距离,得平均值b1和b2,取其中最小的值当做b_i

轮廓系数:
在这里插入图片描述
轮廓系数在[-1,1]区间内,越趋近于1代表内聚度和分离度都好。实际情况轮廓系数超过0.1则较优。

1.2.1 KmeansAPI

Kmeans性能评估指标API: sklearn.metrics.silhouette_score(x, predict_y)
计算所有样本的平均轮廓系数

  • X:特征值
  • predict_y:被聚类标记的目标值

1.3 Kmeans总结

特点分析:

  • 采用迭代式算法(更新中心点),直观易懂且非常实用
    缺点:
  • 容易收敛到局部最优解(随机抽取的初始中心点都偏向同一侧,导致另一侧的一大片属于同一个类别。解决方法–多次取随机进行聚类)
  • 需要预先设定簇的数量(分类数)(k-means++已内部解决)

2、机器学习基础–思维导图

机器学习_第四天(非监督学习+思维导图)_第3张图片

你可能感兴趣的:(学习笔记--机器学习,机器学习,python)