使用MindStudio进行xlm模型训练

详情请点击:使用MindStudio进行xlm模型训练 - 知乎

本文显示,大规模预训练多语言的预训练导致了在广泛的跨语言转换任务中获得显著的 性能提升。作者在一百种语言上训练了一个基于 Transformer 的屏蔽式语言模型,使用超过 2TB 的CommonCrawl 过滤数据,对一百种语言进行了训练。该模型被称为 XLM-R,在多语种的 BERT

(mBERT)在各种跨语言的我们的模型被称为 XLM-R,在各种跨语言的基准测试中,XLM-R 明显优于多语言 BERT(mBERT),包括在 XNLI 上的平均准确率+14.6%,在 MLQA 上的平均 F1 得分+13%,以及+2.6%。MLQA 上+13%的平均 F1 得分,以及 NER 上+2.4%的 F1  得分。XLM-R、在低资源语言上的表现特别好,在 XNLI 上提高了 15.7%的准确率。与以前的模型相比,斯瓦希里语的 XNLI 准确率提高了 15.7%,乌尔都语提高了 11.4%。作者还提出了一个详细的关键因素的详细实证分析。实现这些收益所需的关键因素,包括

    1. 正向转移和容量稀释之间的权衡

    1. 高资源和低资源语言在规模上的表现。

最后,作者首次展示了在不牺牲单位面积的情况下进行多语言建模的可能性。

XLM-R 在 GLUE 和 XNLI 基准上与强大的单语言模型相比非常有竞争力。在 GLUE 和 XNLI  基准测试中,XLM-R 与强大的单语言模型相比具有很强的竞争力。代码公开在https://github.com/facebookresearch。

你可能感兴趣的:(深度学习,人工智能)