【机器翻译】【数据集】WMT2022的第一个生物医药训练集获得

  • 生物医药翻译作为一个单独的翻译任务,公开了大量的多语言数据作为训练集

Biomedical translation Task - ACL 2022 Seventh Conference on Machine Translation (statmt.org)

这篇文章记录下第一个数据集的获得 GitHub - biomedical-translation-corpora/corpora: Parallel corpora for the biomedical domain

【机器翻译】【数据集】WMT2022的第一个生物医药训练集获得_第1张图片

  •  先下载一下这个文件
  • 解压后有4个东西,已经提供了获取数据集的脚本wmtbio22_train_data.py

【机器翻译】【数据集】WMT2022的第一个生物医药训练集获得_第2张图片

  •  解压trainWmt22这个压缩包

  •  修改一下这个脚本,中括号里原本是[0:7],改为[8:15]

【机器翻译】【数据集】WMT2022的第一个生物医药训练集获得_第3张图片

 下面以中文为例:

  • 中文编码问题,还是这个脚本94行加上encoding="utf-8"

  •  运行脚本
  • # 输出目录,需要自己先创建:./en-zh/
    python wmtbio22_train_data.py train22_eng_chi.txt ./en-zh/
  • 结果:

你可能感兴趣的:(python,数据库,机器翻译)