From Clozing to Comprehending: Retrofitting Pre-trained Language Model to Pre-trained Machine Reader

From Clozing to Comprehending: Retrofitting Pre-trained Language Model to Pre-trained Machine Reader

**核心:**将PLM的填空训练范式更改为阅读理解的任务范式,通过span extraction,解决问题。

原因:任务上的性能提升了;解释性更强;

贡献: 训练数据集的构建——远程监督维基。统一任务范式为MRC;

Task definition

From Clozing to Comprehending: Retrofitting Pre-trained Language Model to Pre-trained Machine Reader_第1张图片

Wiki Anchor Extraction (WAE), which first classifies whether the context and the query are relevant, and if so, asks the model to extract the answer from the context satisfying the query description

Process

(1)data process

for example,if the anchor is “Silicon”, and the reference article where the anchor is mentioned. We leverage the large
scale of such hyperlink relations in Wikipedia as
the distant supervision to automatically construct
the MRC triplets

用于搜索的anchor,作为以下上下文和查询对的 MRC 答案。鉴于锚点的出现,参考文章中围绕它的句子自然会作为 MRC 上下文。

。表现为图片中的这一种。在图片中,给定一个槽Silicon,然后根据这个槽就可以找到两个对应的reference article。
From Clozing to Comprehending: Retrofitting Pre-trained Language Model to Pre-trained Machine Reader_第2张图片

(2)Training Process

在训练过程之中是需要有正向的训练数据和negative examples。在论文中,positive examples是我们上面构造数据的过程,而对于negative example是将context和一个batch 中的其他query组成pair,构成negative examples。

模型组成
模型由encoder和decoder组成。
输入:X = [[CLS], Q, [SEP], C, [SEP]]
H=Encoder(X)

对于WAE任务中第一个目标,判断context是否包含了query中描述的span。采用的是交叉熵损失 函数。
使用的[CLS]的token embedding计算的。S1:1表示CLS token。

在这里插入图片描述
对于WAE的第二个目标,模型是希望从context中抽取出正确的span作为answer。
Si:j表示tokens[i:j].
在这里插入图片描述
最终的损失函数是:
两个目标下的损失函数之和。

在这里插入图片描述

你可能感兴趣的:(论文记录,语言模型,人工智能,自然语言处理)