K-mean(2018-05-05)

  1. 非监督学习
  • 定义:训练数据无类。
  • 包括:类簇 (训练数据能分成某些组,例如:市场分割,社交网络分析,基因检测); 异常检测(训练数据中,一些值不能归于期待的模型)
  1. Clustering 算法
  • partitioning methods(分开算法,基于中心分簇);例如:找出球形的相互独立的簇;基于距离;k-means
  • 基于关联性的方法;例如:自上而下;自下而上
  • 基于密度的方法;例如:密度模型DBSCAN
  • 基于网格的方法;例如:使用多分辨率网格数据结构
  • 基于分布的方法;例如:Expectation-maximization算法
  1. K-means
  • 定义:将数据分成K组,而每个簇都由簇中心点的距离有关
  • 步骤: (1)选出k个点,作为均值中心点;(2)每个点的归簇问题由与中心最近的距离决定; (3)更新下最新的均值中心点;(4) 重复以上步骤。


    K-mean(2018-05-05)_第1张图片
    image.png
  • K-mean缺点:(1) k的确定需要提前决定
    (2)均值中心点的初始化很重要,选不好,就很容易产生不好的结果; (3) 只能解决数字化问题,例如性别,国家等类别,需要预先用数字表示;(4)在本地最小点,算法会停滞,即不收敛


    K-mean(2018-05-05)_第2张图片
    image.png

    K-mean(2018-05-05)_第3张图片
    image.png

    (5)很容易受异常点和噪声影响,导致不准确分割
    (6)不能用于球形的簇分割,或者不同密度和尺寸的簇

  1. 如何选择k值
  • 法1:根据分割结果,来调整k值
  • 法2: elbow法,即尝试不同的k值,逐步增加k值,然后观察到均值中心点的平均距离变化;理想下,均值距离初期快速下降,后期缓慢下降;
    -总的来说,目前很难找到elbow点,实际应用中,不用elbow法来找k值。

你可能感兴趣的:(K-mean(2018-05-05))