mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer

mT5

摘要

研究问题

预训练模型。针对T5只是应用于英语的NLP任务。提出一种多语言版本的T5模型。

主要工作

  • 按照C4数据集的创建方法,创建了一个多语言的数据集mC4。
  • 提出T5的多语言版本mT5。

相关介绍

T5

  • 对所有基于文本的NLP问题使用了统一的“text-to-text”格式。
  • 不适用于分类任务。
  • 它允许对每个任务使用完全相同的训练目标(teacher-forced maximum likelihood)

C4

  • 没有标签的数据集。
  • 收集了750GB的英文文本数据。
  • 只收集英文占比超过99%的文本。
  • 在文档中重复数据删除行,并删除包含坏单词的页面。

mC4

  • 使用cld3来收集超过100种语言的数据。
  • 删除没有以英文终端标点符号结尾的行。
  • 应用一个“行长过滤器(line length filter)”,要求页面包含至少三行包含200个或更多字符的文本。
  • 在文档中重复数据删除行,并删除包含坏单词的页面。

mT5

  • 基于"T5.1.1",使用GeGLU非线性方法来改进T5,同时缩放 d m o d e l d_{model} dmodel d f f d_{ff} dff而不是只缩放 d f f d_{ff} dff
  • 在无标签的数据上预训练时不使用dropout。
  • 通过根据概率( p ( L ) ∝ ∣ L ∣ α p(L) ∝|L|^\alpha p(L)Lα)进行抽样示例来提高低资源语言。其中, p ( L ) p(L) p(L)表示在预训练中从一种给定的语言中采样文本的概率; ∣ L ∣ |L| L是语言示例的个数; α \alpha α是控制如何“提高”对低资源语言进行训练的概率。
  • 将词汇量增加到25万个单词的词汇库。
  • 在预训练模型时使用SentencePiece模型对语言进行采样。

你可能感兴趣的:(论文阅读,NLP,transformer,深度学习,自然语言处理)