python ctm 关联主题模型_面向特定划分的主题模型的设计与实现

1引言主题模型是文本分析中的重要研究问题之一。在2010年前,不同的主题模型层出不穷,2010年后由于神经网络概念的火爆,文本的研究中心逐渐转移。不过主题模型由于其较好的效果以及较为简易的实现在文本分类等领域依旧具有很强的生命力。不同的主题模型建模的角度各有不同,如关联主题模型(correlated topic model,CTM)[1]就从主题之间可能存在相互关联的角度用一个逻辑高斯分布进行建模,动态主题模型(dynamic topic model)[2]用高斯分布建模主题的演化过程。不过这些模型依旧是从单篇文档的角度进行建模,而未考虑文本主题分布之间的关联性。同时,对于模型推断方式的研究也层出不穷。以LDA(latent Dirichlet allocation)为例,先后就有变分贝叶斯推断法、Gibbs采样法、收缩Gibbs采样法、EP(expectation propagation[3])法以及收缩变分贝叶斯推断等方法被提出。各种推断方法各有利弊,整体来看,可以分为随机的采样法和确定性的变分推断法两类。变分推断法效率高,但存在偏差;采样法理论上可以收敛到真实的后验分布,但收敛速度慢且难以判断收敛性。因此在考虑推断方法时还要权衡不同方法的利弊和模型的实际情况进行选择。将LDA应用于分布式的环境,以处理更加庞大的文本数据规模也是针对主题模型的研究热点之一,2008年提出了分布式模型推断[4],之后各类分布式实现不断涌现,例如PLDA(parallel latent Dirichletallocation)[5]分别设计并实现了利用Map Reduce API以及MPI的分布式LDA,Spark-LDA[6]则将LDA的Gibbs采样算法应用于Spark框架中,这些研究成果丰富了LDA的应用情景。同时,对主题模型应用的研究也有许多成果,例如2D-LDA将LDA应用于图像矩阵,进行图像的特征提取[7],用LDA分类卫星图像[8],以及在医疗、生物等领域也可以利用主题模型的特征提取能力对大量的数据进行挖掘。因此主题模型的意义已经远远超过了一个贝叶斯模型的范畴,主题也不再局限为文本的主题,而成为一个抽象的概念。文本数据库中的文本可以由一些结构化的属性划分为一些子集,每个子集之中的文本存在共性,而这些共性是被如LDA这类假设文本间独立的主题模型所忽略的。因此,本文针对文本数据库的特定划分,在主题模型中加入了子集的概念,并依据子集之中的共性对文本进行建模。本文将这个全新的主题模型命名为Db LDA(LDA over text database)。由于是全新的主题模型,对Db LDA的模型推断也是本文的主要工作之一。模型近似推断的方法有很多,本文将对几种不同的推断方法进行分析,并选取一种比较合适的且较优的方法对本文提出的模型进行近似推断。同时,Db LDA模型基于划分引入了子集的概念,因此模型中也会引入更多的随机变量,这些随机变量在数据挖掘的角度上存在一定的意义,本文也将对此进行分析。本文的实验部分选取了一种语言模型评估方式,对Db LDA相比于LDA的模型效果进行了测试,实验还包含对模型运行速度的测试,同时最后也对一些模型参数以及相关的模型性质进行了详细的讨论。本文组织结构如下:第1章介绍研究背景,如当今主题模型研究成果、模型推断方式等;第2章介绍相关工作;第3章介绍Db LDA模型,即本文提出的新的主题模型,包括相关随机变量的意义及模型的物理意义;第4章阐述了近似推断算法,包括现有近似

推断算法的介绍与比较,对Db LDA的近似推断过程;第5章为实验

你可能感兴趣的:(python,ctm,关联主题模型)