ML笔记——K - means算法

目录

    • 想法
    • 数学表达
    • 胡思乱想时刻


想法

将未处理的数据投影到空间中,可以通过聚集程度将数据划分为几个族。如果认为的引入几个点,作为簇的代表,并以数据点到这几个点的聚集程度为依据将数据划分到对应的标记点代表的族中。

此处的聚集程度可以考虑使用欧氏距离

数学表达

  • 代价函数:
    J(c1,...,cm,μ1,...,μk)=1mmi=1xiμci2 J ( c 1 , . . . , c m , μ 1 , . . . , μ k ) = 1 m ∑ i = 1 m ∥ x i − μ c i ∥ 2
    其中的
    ci c i 表示第 i i 个数据所在的簇的标号
    μk μ k 表示第 k k 个簇的代表点
    xiμci2 ∥ x i − μ c i ∥ 2 表示第 i i 个数据距离代表点的距离

  • 确定第 i i 个数据所在的簇的方式
    ci=min1kK(xiμk2) c i = min 1 ≤ k ≤ K ( ∥ x i − μ k ∥ 2 )
    其中的
    K K 表示簇的个数

  • 动态更新 μk μ k 使其更能代表所在的簇
    μk=1nnj=1xj (cj=k) μ k = 1 n ∑ j = 1 n x j   ( c j = k )

胡思乱想时刻

  1. K K 个代表簇的节点的选取
    K K 的选取可以根据具体的问题确定,还可以通过“肘部法则”选取(如:参考簇的个数与代价函数的关系或平均直径法)
    节点的选取,可以随机选取训练数据点,将数据点作为代表点,为了避免局部最优的结果,可以通过多次随机选取,之后比较代价函数确定最后的解
  2. 如何确定算法结束
    K K 个代表点的值不发生改变时,算法结束

你可能感兴趣的:(Machine,Learning)