机器学习算法总结9:k-means聚类算法

无监督学习:训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
聚类是典型无监督学习任务,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个
机器学习算法总结9:k-means聚类算法_第1张图片
距离度量:通过距离来定义相似度度量,距离越大,相似度越小。最常用的距离度量是闵可夫斯基距离,其中,当p=2时,称为欧氏距离;当p=1时,称为曼哈顿距离。详见我的博客:机器学习算法总结3:K近邻法
除了上述距离度量,还有余弦距离,余弦值越接近1,说明两个向量夹角越接近0度,表明两个向量越相似。
在这里插入图片描述
余弦距离强调方向的差异,比如:聚类用户的喜好分布;
闵可夫斯基距离强调数值的差异,比如:聚类用户的活跃度。
k均值(k-means)算法是聚类算法中最经典的算法,其中,k表示类别数,means表示均值,顾名思义k-means是通过均值对样本集进行聚类的算法
算法流程如下:
机器学习算法总结9:k-means聚类算法_第2张图片
算法终止条件:通常设置一个最大运行轮数或最小调整幅度阈值,若达到最大轮数或调整幅度小于阈值,则停止运行。

参考书目:机器学习(周志华)

你可能感兴趣的:(机器学习)