非监督学习——高斯混合模型与聚类验证

目录

高斯混合模型:

sklearn高斯混合模型:

高斯混合模型总结:

高斯混合模型附录:

聚类分析过程:

聚类验证:

外部评价指标:

内部评价指标:


高斯混合模型:

1、温和的聚类算法,这种聚类算法假定每个类都遵循特定的统计分布。

2、步骤:

  • 初始化K个高斯分布
  • 将数据集聚类成我们初始化的两个高斯——期望步骤或E步骤
  • 基于软聚类重新估计高斯——最大化或M步骤
  • 评估对数似然来检查收敛,收敛——>输出结果
  • 不收敛——>返回第二步骤,直至收敛为止。

3、具体操作流程:

  • 初始化:在数据集上使用K-Means生成聚类。
  • E|Z_{iA}|=\frac{N(x_{i}|\mu_{A}, \sigma^{2}_{A})}{N(x_{i}|\mu_{A}, \sigma^{2}_{A}) + N(x_{i}|\mu_{B}, \sigma^{2}_{B})}N(x|\mu, \sigma^{2})=\frac{1}{(2\pi\sigma^{2})}\cdot e^{-\frac{1}{2\sigma^{2}}(x-\mu)^{2}}
  • New \quad \mu_{A} = \frac{\sum^{N}_{i=1}E|Z_{ij}|x_{i}}{\sum^{N}_{i=1}E|Z_{ij}|}New \quad \sigma^{2}_{A} = \frac{\sum^{N}_{i=1}E|Z_{ij}|(x_{i}-\mu^{new}_{A})(x_{i}-\mu^{new}_{A})^{T}}{\sum^{N}_{i=1}E|Z_{A}|}

非监督学习——高斯混合模型与聚类验证_第1张图片

  • lnp(x|\mu, \sigma^{2}) = \sum^{N}_{i = 1}ln(\sum^{K}_{k=1}\pi_{k}n(x_{i}|\mu_{k},\sigma^{2}_{k})),求此式的最大化,数值越高,越能确定生成的混合模型可以负责创建数据,或者适合数据集。其中,k是聚类有关的混合系数。

sklearn高斯混合模型:

非监督学习——高斯混合模型与聚类验证_第2张图片

高斯混合模型总结:

1、优缺点:

优点:

  • 提供软聚类(软聚类是多个聚类的示例性隶属度)
  • 聚类的外观具有灵活性

缺点:

  • GMM聚类对初始化值很敏感
  • 可能收敛到局部最优
  • 收敛速度慢

高斯混合模型附录:

 视频:https://www.youtube.com/watch?v=lLt9H6RFO6A

聚类分析过程:

Data——>特征选择和特征提取——>选择一个聚类方法——>聚类评价——>聚类结果解释。

  • 特征选择是从一组候选特种中选择特征。特征提取是对数据进行转换以生成新的有用特征。
  • 聚类方法:可以用欧式距离,如果数据是文档或词嵌入,临近度度量将是余弦距离。
  • 聚类评价:评分方法被称为指数。

非监督学习——高斯混合模型与聚类验证_第3张图片

聚类验证:

1、聚类验证是客观和定量评估聚类结果的过程。

2、聚类评价指数有三种:(所有外部指标都能作为相对指标)

  • 外部指标:处理有标签数据时使用的评分
  • 内部指标:仅使用数据来衡量数据和结构之间的吻合度。
  • 相对指标:表明两个聚类结构中哪一个在某种意义上更好。

3、大多数评价指标是通过紧凑性和可分性来定义的。

  • 紧凑性:衡量一个聚类中的元素彼此之间的距离。
  • 可分性:表示不同聚类之间的距离。

外部评价指标:

Rand Index = \frac{a+b}{2\times n},a:在聚类C与聚类K中都是同类元素的对数,不考虑哪个聚类的标签。b:在聚类C与聚类K中都是不同类别的元素。

非监督学习——高斯混合模型与聚类验证_第4张图片

非监督学习——高斯混合模型与聚类验证_第5张图片

内部评价指标:

范围(-1, 1),S_{i} = \frac{b_{i} - a_{i}}{max(a_{i}, b_{i})},a:同一个聚类中到其他的样本的平均距离,b:与它距离最近的不同聚类中到样本的平均距离。

S = average(S_{1},S_{2},...,S_{n})。其中DBSCAN不要使用轮廓系数。

非监督学习——高斯混合模型与聚类验证_第6张图片

非监督学习——高斯混合模型与聚类验证_第7张图片

非监督学习——高斯混合模型与聚类验证_第8张图片

非监督学习——高斯混合模型与聚类验证_第9张图片

非监督学习——高斯混合模型与聚类验证_第10张图片

你可能感兴趣的:(非监督学习)