词共现网络

今天看三篇文章:

一,实时词共现的微博话题发现

话题分布的两种方法,LDA(概率)和聚类。其中,wordgraph就是聚类方法,结合single-pass过程,基于信息的流时序特征和上下文相关度,探听新话题的产生和话题的演变。这篇文章基于图模型,词共现图和single-pass思想结合。词共现网络的构建基于单词x,y同时出现在一句话中,即现有单词集合和词关系矩阵,结合时间系数权重计算。

构造词共现网络;

single-pass话题聚类

热度计算-总量比重,增长率

总结:创新不足啊

 

二,Learning Latent Topics from the Word Co-occurrence Network

考虑了BTM模型,B-biterm,双词话题模型,先使用hard k-clique方法在全图中找到anchor单词,然后利用soft clique找到最大权重边。

基本知识:Anchor Word Algorithm (AWA),anchor selection and recovery,假设至少存在一个特殊单词区别每个话题。首先构建共现矩阵(文档级别),找到anchor,然后利用贝叶斯方式,KL散度等得到C话题分布。

这里,利用BTM构建矩阵Q,然后考虑anchor 不应该出现在一起,即anchor集合点之间的连接最小。将联合概率小于阈值的节点放入全图,然后利用k-clique找出k个值。clique,所有节点互联。最后利用贪心算法,计算每个话题分布,依然k-clique(没看懂)

 

三,Using Word Embedding to Evaluate the Coherence of Topics from Twitter Data(利用词嵌入方式评估twitter数据的话题连续性-一致性)

利用word embedding的方式对话题的一致性进行评估,和PMI,LSAT对比(不熟)。

文章和Word-pair无关,不必在意

 

PMI(Pointwise Mutual Information)这个指标来衡量两个事物之间的相关性(比如两个词)。其原理很简单,公式如下:

词共现网络_第1张图片
 

在概率论中,我们知道,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。用后面的式子可能更好理解,在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x),自然就表示x跟y的相关程度。 

这里的log来自于信息论的理论,可以简单理解为,当对p(x)取log之后就将一个概率转换为了信息量(要再乘以-1将其变为正数),以2为底时可以简单理解为用多少个bits可以表示这个变量

 

潜语义分析(Latent SemanticAnalysis)源自问题:如何从搜索query中找到相关的文档。当我们试图通过比较词来找到相关的文本时,存在着难以解决的局限性,那就是在搜索中我们实际想要去比较的不是词,而是隐藏在词之后的意义和概念。潜语义分析试图去解决这个问题,它把词和文档都映射到一个‘概念’空间并在这个空间内进行比较(注:也就是一种降维技术)。

你可能感兴趣的:(话题模型)