【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

文章目录

  • LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding
  • 基本信息
  • 摘要
  • 模型结构
    • Model Architecture
    • Pre-training
      • Multilingual Masked Visual-Language Modeling
      • Text-Image Alignment
      • Text-Image Matching
    • Pre-training Data
  • 实验
  • 总结

LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

基本信息

  • 论文链接:arxiv
  • 发表时间:2021
  • 应用场景:文档信息抽取

摘要

存在什么问题 解决了什么问题
1. 先前的各类用于多语种的文档理解模型往往只用了文本信息,因此在多语种的文档上表现不够好。 1. 提出了一个适用于多语种的文档理解预训练模型LayoutXLM,它是LayoutLMv2模型的一个延伸。
2. 构建了多语种文档理解benchmark,包含7种语言,LayoutXLM在该数据集上达到SOTA。

模型结构

【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding_第1张图片

Model Architecture

模型结构整体沿用LayoutLMv2。

但是初始化权重采用InfoXLM模型的预训练权重,而非bert,这也很好理解,因为InfoXLM是基于多语言的预训练模型,并且针对多语言预训练任务做了很多优化。

Pre-training

预训练任务类型和LayoutLMv2保持一致,但是细节上有一些优化。

Multilingual Masked Visual-Language Modeling

因为不同语言的最小语言单元是不一样的,为了避免针对每种语言都做定制化的预处理等繁杂操作,这里采取一种独立于语言的SentencePiece作为分词器。

首先获取bbox内所有字符的坐标,对bbox内的语句用SentencePiece进行分词,分词后每个token包含了一定数量的字符,将这些字符的bbox做一下merge就得到了这个token的位置信息。

解决了语言上的问题,剩下的都和LayoutLMv2中的MVLM任务保持一致,不再赘述。

Text-Image Alignment

同LayoutLMv2。

Text-Image Matching

同LayoutLMv2。

Pre-training Data

预训练数据集包含了53种语言,其具体分布如下:

【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding_第2张图片

实验

  • Language Specific(同一种语言上的pretrain和finetune),不论是Large还是Base模型,不论是SER还是RE任务,都是SOTA.

    【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding_第3张图片

  • cross-lingual zeor-shot(英语上pretrain,其他所有语言上finetune),验证了XLM能够把从某种语言的数据集上学到的知识迁移到其他语言。

    【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding_第4张图片

  • Multitask fine-tuning(全部8种语言上做pretrain,其他所有语言上finetune),SOTA的同时也是指标最高的一组,验证了不同语种文档的布局不变性对文档理解任务的收益。

    【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding_第5张图片

总结

  1. LayoutLMv2的多语种版本LayoutXLM,在模型、预训练任务上均有针对多语种场景的改进。
  2. 提出了一个多语种文档数据集XFUND,分别从三个不同场景的预训练dataset验证了LayoutXLM在多语种文档信息抽取的优势,并取得了SOTA。
  3. 课外:InfoXLM、SentencePiece。Re任务最后的输出还没搞清楚。

你可能感兴趣的:(文档信息抽取,自然语言处理,深度学习,人工智能)