学习LDA主题模型总结

LDA主题模型

  • 主题模型概念
  • LDA模型
    • 词袋模型
    • 二项分布
    • 多项分布
    • 共轭先验分布
  • 学习链接

主题模型概念

主题模型(topic model)是以非监督学习的方式对文集的隐含语义结构进行聚类的统计模型。

主题模型主要被用于自然语言处理中的语义分析和文本挖掘问题,例如按主题对文本进行收集、分类和降维。

LDA是两个常用模型的简称:Linear Discriminant Analysis 和 Latent Dirichlet Allocation

隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)是常见的主题模型。它可以将文档集中每篇文档的主题按照概率分布的形式给出。

在主题模型中,主题(topic)是以文本中所有字符为支撑集的概率分布,表示该字符在该主题中出现的频繁程度,即与该主题关联性高的字符有更大概率出现

在文本拥有多个主题时,每个主题的概率分布都包括所有字符,但一个字符在不同主题的概率分布中的取值是不同的,一个主题模型试图用数学框架来体现文档的这种特点。

主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。

举例而言,在“狗”主题中,与该主题有关的字符,例如“狗”、“骨头”等词会频繁出现;在“猫”主题中,“猫”、“鱼”等词会频繁出现。若主题模型在分析一篇文章后得到10%的“猫”主题和“90%”的狗主题,那意味着字符“狗”和“骨头”的出现频率大约是字符“猫”和“鱼”的9倍。

LDA模型

LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

LDA是常见的主题模型之一,是一类无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。

正如Beta分布是二项式分布共轭先验概率分布,狄利克雷分布作为多项式分布的共轭先验概率分布。
因此正如LDA贝叶斯网络结构中所描述的,在LDA模型中一篇文档生成的方式如下:
学习LDA主题模型总结_第1张图片
学习LDA主题模型总结_第2张图片

词袋模型

LDA 采用词袋模型。所谓词袋模型,是将一篇文档,我们仅考虑一个词汇是否出现,而不考虑其出现的顺序。在词袋模型中,“我喜欢你”和“你喜欢我”是等价的。与词袋模型相反的一个模型是n-gram,n-gram考虑了词汇出现的先后顺序。

二项分布

在n次独立重复的伯努利试验中,设每次试验中事件A发生的概率为p。用X表示n重伯努利试验中事件A发生的次数,则X的可能取值为0,1,…,n,且对每一个k(0≤k≤n),事件{X=k}即为“n次试验中事件A恰好发生k次”,随机变量X的离散概率分布即为二项分布(Binomial Distribution).

在概率论和统计学中,二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。

二项分布是N重伯努利分布,即为X~B(n, p).
概率密度公式为:
在这里插入图片描述

多项分布

多项式分布(Multinomial Distribution)是二项式分布的推广。

二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。把二项分布公式推广至多种状态,就得到了多项分布。

多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k).概率密度函数为:
在这里插入图片描述
其中随机向量x=(x1,x2,…,xn)满足xi ≥ 0(1≤ i ≤ k),且x1+x2+…+xk=K;

随机向量x=(x1,x2,…,xk)服从多项分布,记作X~PK(K:p1.p2,…,pn)。

举例:
在一座大城市中,若男性在总人口中的比例为p,今从
城市中随机抽N个人,用X表示其中男性的数目,则X~B(N,p),类似地,在一座城市中,若将人口按照年龄分成n组,这n组人在总人口中各占的比例分别为(p1,p2,…,),今从城市中随机抽N个人,用(X1,X2,…,Xn分别表示这N个人中每个年龄组的人数,则X=(X1,X2,…,Xn)服从多项分布。

共轭先验分布

在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。

在这里插入图片描述
Beta分布是二项式分布的共轭先验分布,而狄利克雷(Dirichlet)分布是多项式分布的共轭分布。

共轭的意思是,以Beta分布和二项式分布为例,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后续分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。

学习链接

某乎:一文详解LDA主题模型
LDA主题模型及案例
基于gensim的lda的小案例
文本主题模型之LDA(一) LDA基础
Java调用pyhton训练的机器学习模型

你可能感兴趣的:(自然语言处理学习日记,机器学习,聚类,自然语言处理,nlp)