预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

中文预训练词向量——基于中文维基百科语料训练

英文预训练词向量——斯坦福glove预训练的词向量

百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw

提取码: afhh 

预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载_第1张图片

         维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。

 

中文预训练词向量

2018  Analogical Reasoning on Chinese Morphological and Semantic Relations      (该文章被2018 ACL收录)

        该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。

预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载_第2张图片

下载地址:https://github.com/Embedding/Chinese-Word-Vectors

参考文献引用:

Li S, Zhao Z, Hu R, et al. Analogical Reasoning on Chinese Morphological and Semantic Relations[J]. meeting of the association for computational linguistics, 2018: 138-143.

 

英文词向量预训练 

官方网站:https://nlp.stanford.edu/projects/glove/

预先训练的单词向量。此数据在Public Domain Dedication and License v1.0下提供,其全文可在以下网址找到:http://www.opendatacommons.org/licenses/pddl/1.0/。

  • 维基百科2014 + Gigaword 5(6B令牌,400K词汇,无章,50d,100d,200d和300d载体,822 MB下载):glove.6B.zip
  • 常见爬网(42B令牌,1.9M词汇,无框,300d向量,1.75 GB下载):glove.42B.300d.zip
  • Common Crawl(840B令牌,2.2M词汇,套装,300d载体,2.03 GB下载):glove.840B.300d.zip
  • Twitter(2B推文,27B令牌,1.2M词汇,无框,25d,50d,100d和200d向量,1.42 GB下载):glove.twitter.27B.zip

预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载_第3张图片

 

 

至此结束。

 

你可能感兴趣的:(NLP自然语言处理,预训练词向量,词向量,glove,斯坦福,维基百科)