推荐:腾讯开源的词向量精简版本下载|湾区人工智能

腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题,就是词向量过大,约16g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。


有关词向量和嵌入技术请看这篇文章(图解word2vec(原文翻译))


腾讯AI Lab开源大规模高质量中文词向量数据简介:

https://cloud.tencent.com/developer/article/1356164

原版腾讯词向量下载:

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解压约16g,文末提供百度云下载


如何使用

很多模型需要测试,建议初次测试的时候使用稍小的词向量版本,比如70000个词的版本(133mb),最后再使用原版800万个词的版本,这样可以节省很多实验时间。很多时候,70000个词的词向量已经可以满足要求了。

读取模型

 
   

使用模型

深度学习模式示例

使用LSTM模型,根据豆瓣评论,预测打分。

  • 首先下载豆瓣的数据

豆瓣评论数据149M (文末提供下载

  • 然后下载库对应的分词包。文末提供下载

  • 使用效果

加载70000字典前

640?wx_fmt=png

 加载70000字典后 

640?wx_fmt=png


  • 代码文件见 

Use Tencent Word Embeddings with douban datasets.ipynb文末提供下载

参考:

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL (这位小哥搜集的,希望star下)

https://cloud.tencent.com/developer/article/1356164



    总结和下载

腾讯AI Lab 开源的中文词向量数据,包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,但是有一个很大问题,就是词向量过大,约15g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。并提供各种大小版本的词向量下载。


词向量及相关资料下载:

推荐:腾讯开源的词向量精简版本下载|湾区人工智能_第1张图片


根目录:

  • 5000-small.txt 这个有5000词,可以下下来玩玩

  • 45000-small.txt 这个有4.5w的词,已经能解决很多问题了

  • 70000-small.txt 7w词  133MB

  • 100000-small.txt 10w词 190MB

  • 500000-small.txt 50w词 953MB

  • 1000000-small.txt 100w词 1.9GB

  • 2000000-small.txt 200w词 3.8GB

  • Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量(6.31g),解压后16g

code文件夹

  • doubanmovieshortcomments.zip豆瓣评论数据149M

  • 分词文件(如:8000000-dict.txt等)

  • Use Tencent Word Embeddings with douban datasets.ipynb测试代码)

下载链接:

https://pan.baidu.com/s/1QVuDrGoo46RaaaTTEpmgPw

提取码:bpai


若被和谐,请回复“腾讯词向量”获取最新地址。



欢迎加入免费星球,获取最前沿认知和精英理念


推荐:腾讯开源的词向量精简版本下载|湾区人工智能_第2张图片


扫码领取资料


推荐:腾讯开源的词向量精简版本下载|湾区人工智能_第3张图片





你可能感兴趣的:(推荐:腾讯开源的词向量精简版本下载|湾区人工智能)