1.GMM(guassian mixture model)
混合高斯模型,顾名思义,就是用多个带有权重的高斯密度函数来描述数据的分布情况。理论上来说,高斯分量越多,极值点越多,混合高斯密度函数可以逼近任意概率密度函数,刻画模型越精确,需要的训练数据也就越多。
2.GMM
模型初始化:
即模型参数的初始化,一般采用kmeans或者LBG算法。
模型初始化值对模型后期的收敛有极大影响,特别是训练模型的数据太少或者不充分时,现象尤其突出,会造成模型不收敛,甚至训练参数出现NAN。
解决办法:1.一方面扩大误差范围,这样会造成训练好的模型区分度不好。
2.LGB算法或者Kmeans减小胞腔数目或者或者分段数。
3.推荐 限制最小方差,避免出现完全不收敛,出现NAN情况(因为方差最小,根据概率密度公式可知,概率出现无穷大,再次迭代时,会出现NAN。从另一个角度解释:某几个高斯训练迭代越滚越大,以至于某些高斯分量或者说是小数据分布区越来越窄,方差越来越小,逼近0,导致出现NAN)。
模型训练:
模型训练一般采用 EM算法。
模型识别:
识别就是利用训练好的模型参数,将待识别数据(特征)与各个高斯模型做概率匹配,若A类概率最高,则判别为A类。
3.GMM应用
(1)GMM聚类
就像VQ聚类、Kmeans、LBG聚类一样。
(2)GMM分类
同样地,VQ、Kmeans、LBG也能进行分类,不同的是,GMM是软判决,前三种是硬性判决。
聚类与分类的区别:聚类可以说是训练模型的过程,用训练好的参数,刻画训练数据分布。
分类可以说是识别数据的过程,判断数据属于哪个模型(前提是模型已经训练好)。