GloVe: Global Vectors for Word Representation

学习词的向量空间表示可以很好捕获语法和语义规则信息,但是这些规则的起源并不透明。我们分析和阐明模型需要的这些规则。这是logbilinear regression模型,集合了全局矩阵分解和本地窗口大小的方法。模型训练在词和词的共现矩阵中,而不是整个语料库的稀疏矩阵。

1 Introduction

语言的语义向量空间模型把每个词表示为一个数值向量,这些向量是特征,可以使用在信息检索,文档分类,问答,命名实体识别和语法分析。

大部分词向量依赖于词向量对的距离和角度来估计这些向量的质量。最近的估计方法是词的相似度,而且还有不同维度的不同。比如king-queen=man-woman。

学习词向量有两大方法:1)全局矩阵分解方法,比如LSA,2)本地文本窗口,比如skip-gram模型。这些方法都有缺点,LSA可以很好获得统计信息,但对于词的相似度任务比较差,skip-gram对于相似度任务很好,但对于使用语料的统计信息比较差,这是因为他们训练在局部上下文窗口而不是全局共现对。

2 Related Work

Matrix Factorization Methods.

矩阵分解的方法可以追溯到LSA,这些方法使用低秩的矩阵分解大的矩阵,在LSA,矩阵是‘term-document’,比如行是词,列是不同的文档。

Shallow Window-Based Methods.

另一个方法是在局部上下文窗口内进行预测,比如CBOW和skip-gram模型。

不像矩阵分解方法,基于窗口的模型无法使用语料的共现信息。

3 The GloVe Model

语料库中共现词的信息可以由非监督学习方法获得,但现在已有这些方法了,但是语义如何从这些统计信息获得还是问题。我们的模型叫GloVe(global vector),因为整个语料的统计信息由模型直接获得。

首先定义一些概念。

GloVe: Global Vectors for Word Representation_第1张图片

GloVe: Global Vectors for Word Representation_第2张图片

 

GloVe: Global Vectors for Word Representation_第3张图片

 

GloVe: Global Vectors for Word Representation_第4张图片

GloVe: Global Vectors for Word Representation_第5张图片

模型的性能对于临界值的依赖很少,所以把xmax=100 ,并且α=3/4 比α=1 好

3.1 Relationship to Other Models

GloVe: Global Vectors for Word Representation_第6张图片

GloVe: Global Vectors for Word Representation_第7张图片

3.2 Complexity of the model

GloVe: Global Vectors for Word Representation_第8张图片

4 Experiments

4.1 Evaluation methods

Word analogies

Word similarity

Named entity recognition

 

 

4.2 Corpora and training details

 

4.3 Results

 

4.4 Model Analysis: Vector Length and Context Size

 

4.5 Model Analysis: Corpus Size

 

4.6 Model Analysis: Run-time

 

4.7 Model Analysis: Comparison with word2vec

 

5 Conclusion

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(论文)