聚类问题(上)

聚类问题(上)

聚类问题是无监督学习的问题,算法的思想就是“物以类聚,人以群分”,聚类算法感知样本间的相似度,进行归类归纳,对新的输入进行输出预测,输出变量取有限个离散值。

可以作为一个单独过程,用于寻找数据内在的分布结构
可以作为分类,稀疏表示其他学习任务的前驱任务

K-means

K-means(又称为K-均值或K-平均)聚类算法,算法思想就是首先随机确定K个中心点作为聚类中心,然后把每个数据点分配给最邻近的中心点,分配完成后形成K个聚类,计算各个聚类的平均中心点,将其作为该聚类新的类中心点,然后重复迭代上述步骤直到分配过程不再产生变化。

K-means算法流程
1.随机选择K个随机的点(称为聚类中心)
2.对与数据集中的每个数据点按照距离K个中心点的距离,将其与距离最近的中心点关联起来,与同一中心点关联的所有点聚成一类
3.计算每一组的均值,将该组所关联的中心点移动到平均值的位置
4.重复执行2-3步,直至中心点不再变化

K-means的主要优点
原理比较简单,实现也是很容易,收敛速度快
聚类效果较优
算法的可解释性较强
主要需要调参的参数仅仅是簇数K

K-means的主要缺点
K值的选取不好把握
不平衡数据集的聚类效果不佳
采用迭代方法,得到的结果只是局部最优
对噪音和异常点比较敏感

高斯混合模型

高斯混合模型指的是多个高斯分布函数的线性组合,是一种广泛使用的聚类算法,该方法使用了高斯分布作为参数模型

单高斯模型:高斯分布有时候也称为正态分布,是一种在自然界大量存在的,最为常见的分布形式
高斯混合模型:混合模型是一个可以用来表示在总体分布中含有K个子分布的概率模型,换句话说,混合模型表示了观测数据在总体中的概率分布,它是一个由K个子分布组成的混合分布
聚类问题(上)_第1张图片
高斯混合模型求解
EM算法是一种迭代算法,1977年由Dempster等人总结提出用于含有隐变量的概率模型参数的最大似然估计聚类问题(上)_第2张图片

高斯模型与K-means很相似,相似点在于两者的分类受初始值影响;两者可能限于局部最优解;两者类别的个数都要靠猜测,混合高斯计算复杂度高于K-means,K-means属于硬聚类,要么属于那类,要么属于这类,而GMM属于混合式软聚类。
聚类问题(上)_第3张图片

你可能感兴趣的:(机器学习,机器学习)