词向量模型

一,词向量的概念将word映射到一个新的空间中,并以多维的连续实数向量进行表示叫做“Word Represention”或“Word Embedding”。自从21世纪以来,人们逐渐从原始的词向量稀疏表示法过渡到现在的低维空间中的密集表示。用稀疏表示法在解决实际问题时经常会遇到维数灾难,并且语义信息无法表示,无法揭示word之间的潜在联系。而采用低维空间表示法,不但解决了维数灾难问题,并且挖掘了word之间的关联属性,从而提高了向量语义上的准确度。

二,词向量模型

a)LSA矩阵分解模型

采用线性代数中的奇异值分解方法,选取前几个比较大的奇异值所对应的特征向量将原矩阵映射到低维空间中,从而达到词矢量的目的。

b)PLSA潜在语义分析概率模型

从概率学的角度重新审视了矩阵分解模型,并得到一个从统计,概率角度上推导出来的和LSA相当的词矢量模型。

c)LDA文档生成模型

按照文档生成的过程,使用贝叶斯估计统计学方法,将文档用多个主题来表示。LDA不只解决了同义词的问题,还解决了一次多义的问题。目前训练LDA模型的方法有原始论文中的基于EM和差分贝叶斯方法以及后来出现的Gibbs Samplings采样算法。

d)Word2Vector模型

最近几年刚刚火起来的算法,通过神经网络机器学习算法来训练N-gram语言模型,并在训练过程中求出word所对应的vector的方法。本文将详细阐述此方法的原理。

你可能感兴趣的:(词向量模型)