聚类算法学习记录

贝叶斯分类,公式如下:


w为类别,亦即模型;x为事件,亦即观察量;已知先验概率p(w)(模型分布概率);类条件概率(p(x|w)),给定模型下观察量发生的概率;观察量发生概率(p(x))

求取后验概率(p(w|x)),也就是是观察量发生的时候属于类w的概率,后验概率越大,属于某一类的可能性越高,所以就分给对应的类。

在两类分类的时候,并不关心p(w|x)具体值,只关心他们比例即可,似然比来决定分类。


极大似然估计:

贝叶斯中,类条件概率(p(x|w))很难知道,极大似然估计就是在通过抽样,用发生这组抽样的最大概率(最大可能性)为目标函数,进行模型估计。已知抽样样本和模型,估计模型参数,这组参数是产生这组样本的概率最大。


EM(expectation maxmization)

极大似然估计中,需要对数据分类完成才可以实现,但是现实中,直接数据可能并不是分类好,类别作为隐藏变量存在,这时候就需要EM算法来处理,该算法主要分EM两步:首先设定模型初始值,然后将数据按照模型进行分类,着是E步;然后将数据分类之后,数据已经有类别了,再利用极大似然估计来对模型进行更新,这为M步,然后两步迭代,直到模型参数变化不大结束迭代。

常见的EM应用有K-means聚类和混合高斯模型,K均值聚类直接初始化几个类簇中心,利用距离函数直接将数据分类,实现E步,然后再利用数据更新类簇中心,直到类簇中心变化很小停止迭代,从而实现了分类。混合高斯模型相对于K均值而言,每个类簇不是单一模型组成,而是有多个高斯分布组合而成,而每个高斯模型占据一定可能性,也就是K均值中认定每个点就属于这个中心(单一模型),而混合高斯模型认为每个点是有多个高斯分布,利用了先验概率知识(每个模型的可能性),E步的时候一样,只不过概率是多个高斯分布组合之和,在M的时候,除了要估计均值和方差,还需要估计先验分布(每个模型的可能性)。

你可能感兴趣的:(聚类算法学习记录)