吴恩达机器学习——无监督学习

1. k-means的步骤:

  先随机选择K个簇中心,

1)划分样本:每个样本分配到距离最近的簇。

2)更新簇中心位置:计算分配之后每个簇的中心位置,更新簇中心位置。

迭代上述过程,直到簇中心位置不变。

2. 代价函数

迭代完成后,每个样本距离所属簇中心的距离的均方和。

稍微说明了下,上述迭代过程就是最小化代价函数的过程(分别从样本相对于簇中心的距离,和簇的位置,两个维度的最小化)

3. 随机初始化

建议的做法,随机选择K个样本,作为初始化簇中心位置。

但这可能会带来局部最优解,为了防止这种情况,可以进行多次kmeans算法(50—1000次),取代价函数最小的聚类结果。这个方法对K值比较小的情况比较有用。K值很大的情况,多次进行kmeans改善不大。

4. 选取聚类数量(K)

一种方法是“肘部法则”——横轴是K,纵轴是代价函数,画出曲线,选择曲线出现明显拐点(“肘部”)的点的横坐标作为最优的K值。但通常实际情况下不会有明显的肘部。

另一种比较常用的方法是,根据实际的业务需求(想要分几类)来确定。

附,老师画的肘部曲线好萌

你可能感兴趣的:(吴恩达机器学习——无监督学习)