语料库整理(机器翻译等用)

平行语料库

  1. http://www.manythings.org/anki/=
    英语–多国家,其中Chinese - English 21116条

  2. https://cms.unov.org/UNCorpus
    联合国的语料资源,其中中英txt文件1G多
    语料库整理(机器翻译等用)_第1张图片
    注意要科学上网

  3. http://opus.nlpl.eu/
    大多是xml类文件,需要进行解析
    语料库整理(机器翻译等用)_第2张图片

  4. http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
    哈工大信息检索研究室汉英双语语料库,可以下载10%的样例(完整需发邮件申请),中英语料883KB

  5. 个人预处理得到的中英平行语料库,欢迎下载
    https://download.csdn.net/download/weixin_42127182/11522777
    共8万对中英语句,已预处理,中文用jieba分了词,保存于data/en-zh.csv,分隔符是制表符\t。
    句粒度,但是有不少长句,裁剪一下5w对也够用。原始数据集也在包中,其中en-zh_News.tmx有一些问题,(已丢弃了有问题的句子)
    另外附赠我对语料的预处理文件,以及数据集(是pytorch的Dataset)等相关的实现。还是存在一点噪音,如果有可以改善的地方,欢迎留言

你可能感兴趣的:(AI)