Cross-lingual Language Model Pretraining

  • 只能说太牛逼了
  • 为所有的语言使用同一个bpe词表
  • 学习bpe也是有窍门的就是要按照语料数量进行加温度的多项式分布进行采样,温度是0.5,为了避免bpe中语料过的语言占的比重过大。
  • 改进就是原来仅仅是使用无监督方法学出来的embedding来学习词表,现在是直接初始化encoder了和decoder,初始化的方法就是主要是下面的监督预训练任务管用。
  • 而且作者的预训练方法不仅仅在无监督机器翻译德英上超过sota 9个点,而且在有监督机器翻译上提高了4beluRomanian-Englishsota.

你可能感兴趣的:(Cross-lingual Language Model Pretraining)