Gap Statistic算法详解

在Kmean算法确定K值的问题里,可以使用手肘法,也可以用Gap statistic 算法。手肘法的缺点是不够自动化,而Gap不再需要“手肘法”式的肉眼判断,而只需要找出使Gap Statistic最大的K值即可。因此,Gap和适用于批量化作业。
Gap Statistic 定义为:
在这里插入图片描述
其中, E 是 logDk的期望,一般使用蒙特卡洛模拟产生。算法的基本过程是,首先在样本所在区域内按照均匀分布随机地产生和原始样本数一样多的随机样本,并对这个随机样本做K均值。
实际上Gap可以看做是随机样本的损失和实际样本的损失之差。假设实际样本对应的最佳簇数是 K,那么实际样本的损失应该相对较小,随机样本损失与实际样本损失之差也响应的达到最大,即Gap取得最大值所对应的K值就是最佳簇数。

你可能感兴趣的:(机器学习)