论文:On the Dimensionality of Word Embedding

论文题目:On the Dimensionality of Word Embedding

论文发表:NeurIPS 2018
Github: https://github.com/ziyin-dl/word-embedding-dimensionality-selection

论文研究对象:

论文研究对象是自然语言处理中的词向量的维度问题。词向量(句向量)表示是神经网络解决nlp任务时的必经之路,无论是train from scratch,还是pretrainning,词向量维度的选择都是避免不了的。太大的词向量维度可能会造成过拟合和计算量太大的问题,词向量维度不够的话会使得无法捕捉到足够的词之间的关系。文章使用矩阵扰动理论,利用偏差-方差权衡进行词向量维度选择,找到训练集词向量的最优维度。提出了 Pairwise Inner Product (PIP) 损失,用于得到最优维度。

文章的框架基于两个前提:

1.词向量是酉不变的;

2.一般的词向量算法都是隐式或显示的词向量的低秩表示。

所以文章的理论、后面的推导都是基于这两个前提,实验部分的词向量方法用的是GloVe,skip-gram,LSA。

理论证明:

理论推导的过程解读当然是不存在的啦。放个PIP loss的定义意思一下:

其中E表示的是给定训练集的词向量,E hat 是目标词向量,PIP loss越小,词向量越相近。首先使用上面说的三种生成词向量的算法生成训练集的词向量E,这个词向量是通过词的共现矩阵(LSA)或者是Pointwise Mutual Information (PMI) matrix(GloVe、word2vec)得到的,同样使用在这个矩阵上加上扰动之后的矩阵生成E hat。最后的得到的loss受词向量的维度大小影响,可以求出最优的维度大小。

实验结果:

结论:

对于一般的词向量生成方法,通过文章的框架可以找到训练集词向量的最优维度。所以下次再生成词向量的时候可以先跑跑这个算法找最优的维度,前提是用GloVe、word2vec这种词向量生成方法,而且也是不同数据集的词向量维度也不同,该算法跑起来可能也需要一些时间和内存资源。

你可能感兴趣的:(论文:On the Dimensionality of Word Embedding)