通用文档智能预训练模型LayoutLM及其应用

通用文档智能预训练模型LayoutLM及其应用

智能文档
分析表单和文档
创建智能搜索索引
自动化业务工作流程
通用文档智能预训练模型LayoutLM及其应用_第1张图片

图解(从你的所有内容中发现潜在的见解)

现实世界中的文档理解
通用文档智能预训练模型LayoutLM及其应用_第2张图片
图解(视觉效果丰富的文档)

文档理解任务
通用文档智能预训练模型LayoutLM及其应用_第3张图片
通用文档智能预训练模型LayoutLM及其应用_第4张图片
相关工作
文本和视觉信息的浅融合
结合预先训练的NLP或CV模型的输出
带标记样本的监督学习
文本和视觉信息的深度融合
对端到端文本和视觉信息进行预训练
用于预训练的大规模未标记数据集
一些贴有标签的样品进行微调
LayoutLM
为何将文本和布局联合训练
现有的研究主要集中在单模态信息或将语境文本嵌入与空间信息简单结合而不进行交互
通用文档智能预训练模型LayoutLM及其应用_第5张图片
文档在布局中的局部不变性
词语的相对位置与其语义表征高度相关
局部不变性
键-值对的布局
左右或自上而下的
表布局
网格/表格
标签数据不足和昂贵
通用文档智能预训练模型LayoutLM及其应用_第6张图片
建模目标
联合建模文本和布局信息:上下文文本嵌入+上下文空间信息

对未标记数据进行预训练,以利用局部不变性,更好地将布局信息与语义表示对齐。

LayoutLMv1 -> LayoutLMv2 -> LayoutXLM
Image

Layout
通用文档智能预训练模型LayoutLM及其应用_第7张图片
建模过程图
通用文档智能预训练模型LayoutLM及其应用_第8张图片
通用文档智能预训练模型LayoutLM及其应用_第9张图片

对layout进行自监督学习
带有掩码机制的的视觉语言模型(下图)
通用文档智能预训练模型LayoutLM及其应用_第10张图片

文档图片分类
通用文档智能预训练模型LayoutLM及其应用_第11张图片
预训练数据
通用文档智能预训练模型LayoutLM及其应用_第12张图片
图解(IIT-CDIP Test Collection 1.0上1100万的文档图片)

下游任务
格式解析
票据的解析
文档图像分类
形式理解

通用文档智能预训练模型LayoutLM及其应用_第13张图片
通用文档智能预训练模型LayoutLM及其应用_第14张图片

图解(实验结果)

票据解析
通用文档智能预训练模型LayoutLM及其应用_第15张图片
通用文档智能预训练模型LayoutLM及其应用_第16张图片

图解(实验结果)

文档图像分类
通用文档智能预训练模型LayoutLM及其应用_第17张图片
通用文档智能预训练模型LayoutLM及其应用_第18张图片

图解(实验结果)

LayoutLMv1 -> LayoutLMv2
Layout
通用文档智能预训练模型LayoutLM及其应用_第19张图片
LayoutMv2框架图
通用文档智能预训练模型LayoutLM及其应用_第20张图片

预训练模型
带掩码的视觉语言模型
Text-Image匹配
Text-Image对齐
通用文档智能预训练模型LayoutLM及其应用_第21张图片
在一些下游任务的结果
通用文档智能预训练模型LayoutLM及其应用_第22张图片

图解(语义实体识别的结果)通用文档智能预训练模型LayoutLM及其应用_第23张图片

图解(文档图像分类的结果)
通用文档智能预训练模型LayoutLM及其应用_第24张图片

图解(文档VQA结果)

LayoutLMv2 -> LayoutXLM
通用文档智能预训练模型LayoutLM及其应用_第25张图片
框架图
通用文档智能预训练模型LayoutLM及其应用_第26张图片
预训练语言的分布通用文档智能预训练模型LayoutLM及其应用_第27张图片
图解(30M文档的图片用来预训练LayoutXLM)
通用文档智能预训练模型LayoutLM及其应用_第28张图片
XFUND基准
8种语言,英语、汉语、日语、西班牙语、法语、意大利语、德语、葡萄牙语

每种语言有199个文档图像(没有重复模板)训练149个,测试50个。标签、头、键、值、其他

通用文档智能预训练模型LayoutLM及其应用_第29张图片
图解(特定语言的微调结果)

通用文档智能预训练模型LayoutLM及其应用_第30张图片
图解(zero-shot transfer 实验结果)
通用文档智能预训练模型LayoutLM及其应用_第31张图片

图解(多任务学习实验结果)

你可能感兴趣的:(自然语言处理,深度学习,人工智能)