The BELEBELE Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants

本文是LLM系列文章,针对《The BELEBELE Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants》的翻译。

BELEBELE基准:122种语言变体的并行阅读理解数据集

  • 摘要
  • 1 引言
  • 2 背景
  • 3 BELEBELE数据集
  • 4 实验
  • 5 结果
  • 6 讨论
  • 7 结论

摘要

我们提出了BELEBELE,一个包含122种语言变体的多项选择机器阅读理解(MRC)数据集。该数据集显著扩展了自然语言理解(NLU)基准的语言覆盖范围,能够评估高、中、低资源语言的文本模型。每个问题都基于FLORES-200数据集中的一段短文,并有四个选择答案。这些问题经过精心设计,以区分具有不同一般语言理解水平的模型。事实证明,英语数据集本身就很难挑战最先进的语言模型。由于完全并行,该数据集可以直接比较所有语言之间的模型性能。我们使用该数据集来评估多语言屏蔽语言模型(mlm)和大型语言模型(llm)的能力。我们提出了广泛的结果,并发现尽管在以英语为中心的llm中存在显著的跨语言迁移,但在平衡多语言数据上预训练的小得多的mlm仍然理解更多的语言。我们还观察到,在低资源语言上,更大的词汇量和有意识的词汇构建与更好的表现相关。总的来说,BELEBELE为评估和分析NLP系统的多语言能力开辟了新的途径。

1 引言

2 背景

3 BELEBELE数据集

4 实验

5 结果

6 讨论

7 结论

对低资源语言(甚至中等资源语言)语言模型的功能进行合理评估的一个基本限制是有注释基准的可用性。本文介绍了一个庞大的数据集,BELEBELE,由122种语言的文章和选择题组成,评估阅读理解能力。该基准能够对英语和顶级语言的LLM阅读理解能力进行批判性评估。此外,该数据集是许多中等和低资源语言的首个此类数据集,使人们能够前所未有地深入了解语言模型的多语言功能。有了这个数据集的所有评估和实验,我们希望未来的工作能更深入地研究当前的语言模型。我们希望BELEBELE最终能够发现当前的模型架构和训练方法如何处理多语言数据,以及随后如何改进它们。

你可能感兴趣的:(LLM,机器学习,深度学习,人工智能)