Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读

该文提出了一种连续语义主题嵌入模型(CSTEM),该模型利用主题与词之间的连续语义距离函数来寻找文档中潜在的主题变量。语义距离可以用欧氏空间上任何对称的钟形几何距离函数来表示,本文采用马氏距离来表示。为了使语义距离更恰当地执行,我们新为每个单词引入了一个额外的模型参数,从这个距离中去掉全局因子,表明不管主题如何,它发生的可能性有多大。这无疑改善了以往的连续词嵌入主题模型中使用的高斯分布无法正确解释语义关系的问题,有助于获得更高的主题连贯性。

论文贡献:
与基于采样的模型相比,模型匹配在更短的学习时间内,比以前的模型更加精确和主题一致。
在模型得到的欧几里德空间中嵌入主题向量,不仅可以得到主题与词之间的语义距离,而且可以得到主题之间的语义距离。
模型学习的距离函数通过引入全局权重来更真实地反映语义关系,该权重表示每个单词无论主题如何出现。
该模型的目标是通过VAE以语义的方式学习主题向量和词向量。换言之,如果一个词在某个话题中频繁出现,那么这个词和主题的向量在语义上应该是接近的。因此,我们需要一个嵌入空间的度量来度量主题和单词之间的距离,这可以看作是它们之间的语义距离。从这个意义上讲,高斯LDA使用高斯分布的密度函数样本,这两个词的概率比其他词更大,这意味着它很容易被采样。
然而,我们不需要高斯假设,而且,任何一个集中的钟形函数都可以作为度量,因为我们假设几何接近意味着语义接近。(仅考虑对称函数)满足此条件的最简单距离函数是马氏距离,定义为
在这里插入图片描述
注意,µ是一个主题嵌入向量,在单词嵌入空间中扮演语义中心的角色,∑作为比例因子。自然地,单词主题分布可以与该距离成反比,如x |µ,∑∼1dm(x;µ,∑)2+
,其中
表示零距离的情况。我们可以用其它函数作为距离函数,如柯西分布的密度函数、学生t分布和logistic分布。它们之间的区别在于它们有多集中,由它们的差异决定。方差越大,这个模型就越有可能相对较远地估计单词。为了简单起见,本文将使用马氏距离。
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第1张图片
某个词在某些话题中出现的概率,不仅取决于该词与主题之间的语义距离,而且还取决于该词本身出现的整体趋势。例如,如果我们把一个话题看作足球,那么hattick这个词在语义上要比take更接近,因为take这个词与football这个话题没有特别的关系。然而,我们可以很容易地估计出,take这个词在topic football中出现的次数会比hat trick多,因为hat-trick在足球比赛中并不经常发生,而take这个词会经常出现,因为无论它包含在哪个主题中,它都是一个常用词。因此,生成模型应该有一个表示每个词汇表权重的因子,以便模型能够更准确地填充真实数据。注意,这个因素与语义关系无关,因此它不依赖于主题。假设w依赖于c,全局权重参数c=(c1,···,cV)∼Dirichlet(γ),则发生文档的联合概率为
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第2张图片
式中,γ是c的先验分布,我们打算概率p(w | z=k,β,c)与给定主题k和β的c成正比。因此,模型的边际可能性可以修改为在这里插入图片描述
随后,我们将假设c的变分分布,以便用VAE方法正则化它。
通过定义好的语义距离度量d(x;µ,∑)和每个词wv的参数cv,我们提出主题词分布的推断为
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第3张图片
其中wv=Emb(wv)=(WEmb)Twv是单词wv的嵌入向量(被认为是一个热编码向量∈RV),WEmb∈RV×W是嵌入矩阵,对于k=1,···,k是主题平均向量和主题协方差矩阵,某个词出现的概率与语义距离d和全局的平方倒数成指数关系.某个单词出现的概率与语义距离d和全局权重c的平方倒数成指数关系。请注意,WEmb和µkβ,∑kβ是VAE期望学习的模型参数,其中β代表所有模型参数的集合,β=(WEmb,µkβ,∑kβ),因此不要与LDA符号相混淆。当语义距离为定义时,定义(9)可能不同另一方面,这个等式可以保持LDA和同时获取主题向量和单词向量。将(9)与边际相似性方程(7)结合,最后给出了生成模型CSTEM的结构。如上所述,CSTEM的推理由VAE执行。下一节介绍了VAE框架下的推理过程。

为了定义我们必须最大化的变分目标函数,让我们假设变分后验q(θ,c | w)=q(θ| w)q(c),其中一个是主题优先的,另一个是全局权重参数,即
在这里插入图片描述
式中,µc和∑c=σc变量参数和μθ,∑θ=σθi由神经网络得出,由μθ=fµ(w,Δµ),θ=f∑(w,Δ∑)。注意,它们的真实先验是由Dirichlet分布的拉普拉斯近似导出的高斯分布,其方法与方程(3)、(4)相同。我们建议将θ,c的变分后验项与真先验p(θ),p(c)具有密切的分布,以使它们正则化。必须清楚的是,即使主题分布β的参数也可以像c的分布一样以变分的方式推断出来,如果我们假设它的先验分布,我们只是假设它们是常数,并通过随机方法进行优化,这有两个原因:(i)没有必要对每个参数进行正则化主题平均向量和协方差向量和(ii)简化了考虑记忆问题。
完整语料库的边际可能性可以写成:
在这里插入图片描述
ELBO为:
在这里插入图片描述
由于术语logp(D | c)是每个数据点的边际对数似然之和,可以写成:
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第4张图片
其中ELBO是:
在这里插入图片描述
由于变分近似后验点都是高斯的,我们可以使用重参数化技巧对其进行采样,如下所示:
在这里插入图片描述
如果我们设置变分参数φ=(µc,∑c,Δµ,Δ∑),得到的目标函数
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第5张图片
其中A(β,c)∈RV×K是A(β,c)v,K=p(w=wv | z=K,β,c)的矩阵,σ表示软极大函数,θd,c分别由(11)、(12)计算。这个推论的图形模型如图2所示。利用[20]中的随机梯度变分Bayes方法,在M Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第6张图片
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第7张图片
Continuous Semantic Topic Embedding Model Using Variational Autoencoder论文阅读_第8张图片

你可能感兴趣的:(机器学习)