EM算法小结

 

描述

EM是一种基于模型的聚类算法,假设样本符合高斯混合模型,算法的目的是确定各个高斯部件之间的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上个参数获得

       混合模型的定义是几个模型的线性加和,也就是说给每一个模型加上一个权重,几个模型都乘以一个权重数,权重的和是1。因此上述高斯混合模型就是多个高斯模型的加和,并给每一个模型都赋予一个权重值。

        E过程是求期望的过程,为什么要求期望呢,原因就是为了让似然函数中的参数变得只有一个,就是要要估计的参数,然后才可以在M过程中求似然函数的极大值,得到新的参数估计值。这样不断的进行迭代。也就是说E过程加上M过程即使一个不断的修正参数的过程,直到算法收敛。

 

延伸

很多算法都是EM算法,比如隐马尔科夫模型的训练方法Baum-Welch算法以及最大熵模型的训练方法GIS算法。 最后,还要讨论EM算法是否一定能保证获得全局最优解? 如果我们的优化目标函数是一个凸函数,那么一定能保证得到全局最优解。熵函数,N维空间以欧式距离做度量,聚类中我们试图优化的两个函数也是凸函数。而对于其他很多情况,包括文本分类中的余弦距离都不保证是凸函数,因此有可能EM算法给出的是局部最优解,而不是全局最优解。

 

你可能感兴趣的:(Data,mining,related,algorithm)