[翻译系统鲁棒性]构建一个noise的翻译数据集合

MTNT: A Testbed for Machine Translation of Noisy Text

第一部分制造数据集

  • 包含的错误类型,因为是直接从reddit上爬的数据,因此数据本身就具有很大的自然状态下的噪音。


  • 对比语料,可以认为是纯净的数据。



  • 对从reddit上面爬下来的数据进行过滤。

  • 然后进行Normalization,这一步骤只是为了检测出有什么noise()即下面的对数据进行分析的步骤,在releasecomments上没有进行Normalization


  • 只保留至少有一个OOV(相比于纯净数据集)的句子

  • 使用Language model选出置信度below 1%100的句子,认为这些数据是有噪音的数据。

  • 然后移除重复的句子,为了让句子的噪声不要太大然后选出LM得分在5-70 percentile的句子,最后随机挑选15000samples

第二部分

接着把这些数据让专业人士翻译,人工清除测试集中的翻译错误。


  • 上面那么多轮筛选,没被选中的句子构成了单语语料


  • 对数据集进行分析


  • 与现有测试集进行对比,发现noise的比例大增,这正是我们所需要的

  • 使用的是最简单的翻译模型加上BPE
  • 实验结果,在noise的训练集上进行finetune也不能在noise的测试集上表现的很好,因此这个数据集是非常有挑战的。
  • 因为要刷榜,作者强烈要求使用sacreBLEU


  • finetune的超参数。

结论

说明自己的数据集是一个好的数据集


你可能感兴趣的:([翻译系统鲁棒性]构建一个noise的翻译数据集合)