python ctm 关联主题模型_相关主题模型CTM

CTM 模型是 LDA 模型的一种改进模型,它从 Logistic Normal 分布中提取隐含主题。

CTM 的图形表示如图 1 所示。

其中,图 1 中空心点表示隐含变量;实心点表示可观察 值;矩形表示重复过程。大矩形表示从 Logistic Normal 分布中为文档集合中的每个文档$d$反复抽取主题分布$\eta_d$;小矩形表从主题分布中反复抽样产生文档$d$的词( $\{w_1,w_2,\cdots,w_n\}$ )。

给定一个文档集合 $D$ ,包含 M 个文档和 V 个不同的词。 每个文档 $d$ 包含一个词序列$\{w_1,w_2,\cdots,w_n\}$。在集合 $D$ 对应的 CTM 模型中,假设主题数目固定为 $k$ ,则一个文档 $d$ 的产生可以表示为以下 2 个过程:

(1) 从一个 Logistic Normal 分布 $p(\eta |\mu ,\Sigma )$ 中随机选择一个 $k$ 维向量 $\eta_d$ ;

(2) 根据特定的主题比例对文档 $d$ 的词反复抽样,得到 $p(w_d|\eta_d,\beta)$ ,其中 $\mu$ 是 $k$ 维的均值向量,$\Sigma$ 是 $k \times k$的协方差矩阵。

Published at 12:05 CST, FEB 24 • 956+52 views

欢迎加入我爱机器学习QQ14群:336582044

微信扫一扫,关注我爱机器学习公众号

你可能感兴趣的:(python,ctm,关联主题模型)