2018 · EMNLP · Dict2vec : Learning Word Embeddings using Lexical Dictionaries

2018 · EMNLP · Dict2vec : Learning Word Embeddings using Lexical Dictionaries ·

想法来源:使用词典里面对词的解释,来训练word embedding

价值:证明了这个想法的可行性

方法:在词典对词的解释中,选出与词相关的正样例上下文,使用skip-gram训练词向量。

缺点:直觉上没有完全利用词典的作用。而且,从解释中选出相关词本身就是一个没有理由的做法。

详细方案
定义Strong pair: 在词典中,双方互相出现在对方解释中的词,叫做Strong pair,否则叫Weak。

把Strong 和 Weak都当做正例,利用skip-gram训练但是设置损失函数比例系数,负采样就是正常的负采样。


-c400
-c400

-c400

-c400

数据集
词典是自己做的,从Cambridge, Oxford, Collins and dictionary.com中获取,然后组合。
同时为了比较w2c和fastext,使用了November 2016 English dump from Wikipedia

实验的数据集
MC-30
MEN
MTurk-287
MTurk-771
RG-65
SimVerb-3500
RW
WordSim-353
YP-130
分类
AG-News
DBpedia
Yelp reviews

实验
相似度的实验

image

-c500

-c500

分类实验


image

你可能感兴趣的:(2018 · EMNLP · Dict2vec : Learning Word Embeddings using Lexical Dictionaries)