主题模型

文章目录

  • LDA
    • 对于模型应用背景的简单介绍
    • gamma函数
    • beta分布![在这里插入图片描述](https://img-blog.csdnimg.cn/20200908141629328.PNG?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MDIwNzU4Ng==,size_16,color_FFFFFF,t_70#pic_center)
    • 共轭先验分布
    • 二项分布的共轭先验是beta分布
    • 共轭先验的直接推广
    • 对称dirichlet分布
    • LDA的解释
    • 似然概率
    • gibbs采样(后继补充)

LDA

对于模型应用背景的简单介绍

应用方向:目前主要的应用方向,给定一个文档,给定了一个词,看这个词属于哪个隐主题
主题模型_第1张图片
这里常用TFIDF做为文档中每个词对应的值

gamma函数

主题模型_第2张图片
如果X给定,则gamma就代表一个定值,是(x-1)的阶乘

beta分布主题模型_第3张图片

主题模型_第4张图片

共轭先验分布

主题模型_第5张图片
P(x|θ)叫似然概率,如果给定了θ,那么P值固定
这里类似于假设X服从参数为θ的二项分布(或高斯分布等等),同时,θ本身也服从二项分布(或高斯分布等等)
共轭分布概念,就是说未知样本之前θ的分布与已知样本后θ的分布情况相同(即满足同样的分布律),那么先验分布和后验分布被叫做共轭分布。

二项分布的共轭先验是beta分布

主题模型_第6张图片
主题模型_第7张图片
这里更近一步地理解,X服从参数为θ(θ表示正面朝上的概率)的二项分布,而θ服从beta分布。其后验概率P(θ|X)则是参数为(k+α,n-k+β)的β分布,k(本例中表示正面朝上的概率),则表示相对于先验概率P(θ)样本X对后验概率的影响。

共轭先验的直接推广

从2->k
二项分布->多项分布
beta分布->dirichlet分布
主题模型_第8张图片
根据图中标注,可将2->k,则得到dirichlet分布

主题模型_第9张图片
主题模型_第10张图片

对称dirichlet分布

主题模型_第11张图片
主题模型_第12张图片
主题模型_第13张图片
任意三元概率p1 p2 p3 满足p1+p2+p3=1 ,则p1+p2=1-p3
则知道p1 p2 就可以求出p3,那么在绘制分布概率密度函数图像时,只需要绘制出p1(对应图中x1) p2(对应图中x2)与概率密度函数的关系即可。
α1~α3 对应3个主题,由于三者相等,则只需要随机取其中一个主题即可? P指取到主题的概率

主题模型_第14张图片
聚合因子超参数
给定超参数alpha,同时给定p1pk,则p1pk服从Dir(K,α)
p1~pk在上个式子中可看做是采样得到的样本,而在这个式子中,则认为是一组参数,这组参数控制样本X的分布情况,其服从多项式分布
c1~ck表示第k个类别出现的次数

LDA的解释

主题模型_第15张图片
根据给定的参数为α的dirichlet分布确定主题分布,依概率随机选择一个主题(z m,n)-注意zmn是一个确定的主题
根据主题确定词分布,随机选择一个词(w m,n)-注意wmn是一个确定的文字
直到文章全部完成上述过程
主题模型_第16张图片

主题模型_第17张图片

似然概率

主题模型_第18张图片

gibbs采样(后继补充)

主题模型_第19张图片
目标是想要知道词背后的主题
那么可以做出假设这个词与他周围的词属于相同的主题
给文档中的词做随机初始化
主题模型_第20张图片

你可能感兴趣的:(主题模型)