LayoutLMv2笔记(理论篇)

LayoutLMV

先从LayoutLMV说起
其根源在于将bert的position embedding扩展到二维的序列上,把文本在文档中的位置建立为坐标,进入position embedding中将其编码,然后输入到transformer中,辅助下游任务。根据其上下文化的能力去建模。
缺陷:只是将layout和text做上下文化,没有将image结合到预训练中做上下文化。
其结构如下:
LayoutLMv2笔记(理论篇)_第1张图片

LayoutLMv2

对于今年4月份写文章的大佬CharlesWu123写的公式最为清晰这里直接引用一下啦!
LayoutLMv2笔记(理论篇)_第2张图片
LayoutLMv2笔记(理论篇)_第3张图片
LayoutLMv2笔记(理论篇)_第4张图片
LayoutLMv2笔记(理论篇)_第5张图片

最终的文本向量是三个向量部分之和。词向量表示词本身,一维位置向量表示字段的索引,片段向量用来区分不同的文本片段。则第 i 个文本向量表示为:
原文作者提出的model结构如下:
将三个模态组合成的信息输入到transformer中。
LayoutLMv2笔记(理论篇)_第6张图片

构建输入

原文中用resnet49作为图像编码器去编码图像信息(Image_encoder)
visual token + bert 512 token作为最大的序列长度。
针对语言部分时采取OCR部分获取token。
图像的位置信息直接用layout的位置去编码。
(补充:resnet49 输出为7*7)

transformer 改动

增加spatial-aware self-attention mechanism形式辅助模型对文档的token进行建模。

LayoutLMv2笔记(理论篇)_第7张图片
论文改进(根据年限):
2017 带权求和方式,其weight就是去通过计算Q和K的相关程度。
2019 改进部分:根据token之间的根据相对位置重要性增加bias即红色部分那个
2020 改进部分:蓝色部分就是将token与token之间空间信息去让transformer自行感知。

Multi-modal Pre-training Tasks

1.Masked Visual-Language Modeling

将图像语言建模(建模方法包含两点)
(1)根据文本布局建模
(2)根据语言进行建模

2.Text-Image Alignment

根据图像细粒度与文本对齐
根据在image中随机化选择文本行将其cover的方法
其实现方法是通过二分类的方法实现文本与图像的对齐关系。
用线性模型就可!

3. Text-Image Matching

将输入的pair(即图像与文本之间的对齐关系)做负采样,然后用CLS去预测其对齐关系是否匹配。

数据集采用 11million scanned document images from IIT-CDIP Test Collection 1.0

实体提取任务实验结果(Entity-level F1)LayoutLMv2笔记(理论篇)_第8张图片

在这里插入图片描述
base model 超过上一个Large model 这个我至今还没有合理的解释,我还在研究中(欢迎大佬们指点迷津!!!)
在使用的四个下游任务中,效果都很好,亲测有效!!!

如有遗漏错误之处,还望不吝赐教!
愿与诸君共勉!
不久之后会出代码篇教程!!!
LayoutLMv2笔记(理论篇)_第9张图片

Happy Birthday!!!
新的一岁,给自己的一份新礼物!

你可能感兴趣的:(transformer,深度学习,人工智能)