简体中文语料库资源汇总(更新至2017/9/21)

  • 搜狗
  • 搜狗实验室数据资源
  • 搜狗20061127新闻语料(包含分类)@百度盘
  • 分词库(语料):包含非常多的各行业词汇
  • 维基百科中文@维基dump
  • 使用:中英文维基百科语料上的Word2Vec实验
  • 维基百科简体中文语料的获取
  • 用wiki百科中文语料训练word2vec模型
  • 中国自然语言开源组织(nlpcn)语料资源

  • 国家语委现代汉语语料库 :现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。古代汉语语料库:提供了分词、词性标注软件、词频统计、字频统计软件

  • 台湾中央研究院:有丰富的语料库

  • BCC语料库

  • 资源下载

参考:
http://blog.just4fun.site/NLP-corpus.html

你可能感兴趣的:(简体中文语料库资源汇总(更新至2017/9/21))