Spark MLlib分布式机器学习源码分析:隐式狄利克雷分布(LDA)

原理    Spark是一个极为优秀的大数据框架,在大数据批处理上基本无人能敌,流处理上也有一席之地,机器学习则是当前正火热AI人工智能的驱动引擎,在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程,希望与大家一起学习进步~

目录

1.LDA原理介绍

2.LDA参数

3.Spark示例

4.源码解析


    本文采用的组件版本为:Ubuntu 19.10、Jdk 1.8.0_241、Scala 2.11.12、Hadoop 3.2.1、Spark 2.4.5,老规矩先开启一系列Hadoop、Spark服务与Spark-shell窗口:

1.LDA原理介绍

    隐式狄利克雷分布(LDA) 是一种主题模型,可以从文本文档集合中推断出主题。可以将LDA视为一种聚类算法,如下所示:

  • 主题对应于聚类中心,文档对应于数据集中的示例(行)。

  • 主题和文档都存在于特征空间中,其中特征向量是字数(词袋)的向量。

  • LDA不会使用传统的距离来估计聚类,而是使用基于文本文件生成方式的统计模型的功能。

    DA涉及到的先验知识有:二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibs Sampling、EM算法等。限于篇幅,本文不设计具体理论推导,具体可参考知乎深度文章:https://zhuanlan.zhihu.com/p/31470216

2.LDA参数

    LDA通过setOptimizer功能支持不同的推理算法。EMLDAOptimizer使用似然函数的期望最大化学习聚类并产生综合结果,同时 OnlineLDAOptimizer使用迭代小批量采样进行在线变异推断 ,并且通常对内存友好。

    LDA将文档集合作为单词计数和以下参数(使用构建器模式设置)的向量:

  • k:主题数(即群集中心)

  • optimizer:用于学习LDA模型的优化程序, EMLDAOptimizer或者OnlineLDAOptimizer

  • docConcentration:Dirichlet参数,用于优先于主题的文档分布。较大的值鼓励更平滑的推断分布。

  • topicConcentration:Dirichlet参数,用于表示主题(单词)在先主题的分布。较大的值鼓励更平滑的推断分布。

  • maxIterations:限制迭代次数。

  • checkpointInterval:如果使用检查点(在Spark配置中设置),则此参数指定创建检查点的频率。如果maxIterations很大,使用检查点可以帮助减少磁盘上的随机文件大小,并有助于故障恢复。

    所有spark.mllib的LDA模型都支持:

  • describeTopics:以最重要的术语和术语权重的数组形式返回主题

  • topicsMatrix:返回一个vocabSize由k矩阵,其中各列是一个主题

    期望最大化在EMLDAOptimizer和DistributedLDAModel中实现。对于提供给LDA的参数:

  • docConcentration:仅支持对称先验,因此提供的k维向量中的所有值都必须相同。所有值也必须> 1.0。提供Vector(-1)会导致默认行为(值(50 / k)+1的统一k维向量)

  • topicConcentration:仅支持对称先验。值必须> 1.0。提供-1会导致默认值为0.1 + 1。

  • maxIterations:EM迭代的最大数量。

  • 注意:进行足够的迭代很重要。在早期的迭代中,EM通常没有用的主题,但是经过更多的迭代后,这些主题会大大改善。根据您的数据集,通常至少合理使用20次甚至50-100次迭代。

  • EMLDAOptimizer生成一个DistributedLDAModel,它不仅存储推断出的主题,还存储完整的训练语料库和训练语料库中每个文档的主题分布。DistributedLDAModel支持:

  • topTopicsPerDocument:训练语料库中每个文档的主要主题及其权重

  • topDocumentsPerTopic:每个主题的顶部文档以及该主题在文档中的相应权重。

  • logPrior:给定超参数docConcentration和topicConcentration时,估计主题和文档主题分布的对数概率

  • logLikelihood:给定推断的主题和文档主题分布,训练语料库的对数可能性

3.Spark示例

在以下示例中,我们加载代表文档语料库的单词计数向量。然后,我们使用LDA从文档中推断出三个主题。所需聚类的数量传递给算法。然后,我们输出主题,表示为单词上的概率分布。

import org.apache.spark.mllib.clustering.{DistributedLDAModel, LDA}
import org.apache.spark.mllib.linalg.Vectors
// 加载和解析数据
val data = sc.textFile("data/mllib/sample_lda_data.txt")
val parsedData = data.map(s => Vectors.dense(s.trim.split(' ').map(_.toDouble)))
// 用唯一ID索引文章
val corpus = parsedData.zipWithIndex.map(_.swap).cache()
// 使用LDA将文章聚类为3类主题
val ldaModel = new LDA().setK(3).run(corpus)
//  输出主题。每个主题都是单词分布(匹配单词向量)
println(s"Learned topics (as distributions over vocab of ${ldaModel.vocabSize} words):")
val topics = ldaModel.topicsMatrix
for (topic <- Range(0, 3)) {
  print(s"Topic $topic :")
  for (word <- Range(0, ldaModel.vocabSize)) {
    print(s"${topics(word, topic)}")
  }
  println()
}
// 保存和加载模型
ldaModel.save(sc, "target/org/apache/spark/LatentDirichletAllocationExample/LDAModel")
val sameModel = DistributedLDAModel.load(sc,
  "target/org/apache/spark/LatentDirichletAllocationExample/LDAModel")

4.源码解析

    以上代码主要做了两件事:加载和切分数据、训练模型。在样本数据中,每一行代表一篇文档,经过处理后,corpus的类型为List((id,vector)*),一个(id,vector)代表一篇文档。将处理后的数据传给org.apache.spark.mllib.clustering.LDA类的run方法, 就可以开始训练模型。run方法的代码如下所示:

def run(documents: RDD[(Long, Vector)]): LDAModel = {
    val state = ldaOptimizer.initialize(documents, this)
    var iter = 0
    val iterationTimes = Array.fill[Double](maxIterations)(0)
    while (iter < maxIterations) {
      val start = System.nanoTime()
      state.next()
      val elapsedSeconds = (System.nanoTime() - start) / 1e9
      iterationTimes(iter) = elapsedSeconds
      iter += 1
    }
    state.getLDAModel(iterationTimes)
  }

    这段代码首先调用initialize方法初始化状态信息,然后循环迭代调用next方法直到满足最大的迭代次数。在我们没有指定的情况下,迭代次数默认为20。需要注意的是, ldaOptimizer有两个具体的实现类EMLDAOptimizer和OnlineLDAOptimizer,它们分别表示使用EM算法和在线学习算法实现参数估计。在未指定的情况下,默认使用EMLDAOptimizer。

    Spark kmeans族的聚类算法的内容至此结束,有关Spark的基础文章可参考前文:

 

    Spark MLlib分布式机器学习源码分析:矩阵向量

    Spark MLlib分布式机器学习源码分析:基本统计

    Spark MLlib分布式机器学习源码分析:线性模型

    Spark MLlib分布式机器学习源码分析:朴素贝叶斯

    Spark MLlib分布式机器学习源码分析:决策树算法

    Spark MLlib分布式机器学习源码分析:集成树模型

    Spark MLlib分布式机器学习源码分析:协同过滤

    Spark MLlib分布式机器学习源码分析:K-means聚类

 

    参考链接:

    http://spark.apache.org/docs/latest/mllib-clustering.html

    https://github.com/endymecy/spark-ml-source-analysis

历史推荐

“高频面经”之数据分析篇

“高频面经”之数据结构与算法篇

“高频面经”之大数据研发篇

“高频面经”之机器学习篇

“高频面经”之深度学习篇

爬虫实战:Selenium爬取京东商品

爬虫实战:豆瓣电影top250爬取

爬虫实战:Scrapy框架爬取QQ音乐

数据分析与挖掘

数据结构与算法

机器学习与大数据组件

欢迎关注,感谢“在看”,随缘稀罕~

 

你可能感兴趣的:(Spark)