论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction

文章目录

    • 1 简介
      • 1.1 动机
      • 1.2 创新
    • 2 方法
      • 2.1 Structured Extraction Language
      • 2.2 Structural Schema Instructor
      • 2.3 Structure Generation with UIE
    • 3 Pre-training and Fine-tuning for UIE
      • 3.1 Pre-training
      • 3.2 On-Demand Fine-tuning
    • 4 实验

1 简介

论文题目:Unified Structure Generation for Universal Information Extraction
论文来源:ACL 2022
组织机构:软件所 百度
论文链接:https://arxiv.org/pdf/2203.12277.pdf
代码链接:https://github.com/universal-ie/UIE

1.1 动机

  • 针对具体任务的信息抽取方法阻碍了信息抽取系统的结构发展、知识共享和跨领域迁移。

1.2 创新

  • 提出了一个统一的text-to-structure生成架构,可以对不同的信息抽取(IE)任务进行建模,自适应地生成目标结构,并从不同的知识资源学习通用的信息抽取能力。是第一个text-to-structure预训练抽取模型。
  • 设计了一个统一的结构生成网络,通过结构抽取语言(structural extraction language)将异构的信息抽取结构编码成统一的表示,并通过结构模式(structural schema instructor)指导机制控制UIE模型的识别、关联和生成。
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第1张图片

2 方法

模型的整体框架如下图,主要包括structural schema instructor和structural extraction language两部分,给定一个具体的预定义的schema s和文本t,模型需要生成一个结构,该结构包含schema s指示的文本t中所需的结构信息。
在这里插入图片描述

2.1 Structured Extraction Language

structured exextraction language (SEL)将异构IE结构编码为统一的表示,包括三种语义结构,示例如下图:

  1. SPOTNAME:表示文本中存在该Spot Name类型的信息片段;
  2. ASSONAME:表示文本中存在与结构中上层 Spot有Asso Name关系的信息片段;
  3. INFOSPAN:表示Spot Name或者Asso Name在文本中的span;
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第2张图片

2.2 Structural Schema Instructor

Structural Schema Instructor(SSI)描述任务的抽取目标,构建一个schema-based prompt。包含三种类型的token:

  1. SPOTNAME:目标的spot name。
  2. ASSONAME:目标的association name。
  3. Special Symbols([spot], [asso],[text]):分别添加在每个spot name、association name和文本前面。
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第3张图片

2.3 Structure Generation with UIE

text-to-SEL生成的过程使用编码-解码结构,结构为Transformer,编码和解码的公式如下:

3 Pre-training and Fine-tuning for UIE

3.1 Pre-training

UIE需要编码文本、将映射文本到结构、解码结构,预训练的数据集包括三种

  1. D p a i r D_{pair} Dpair:文本-结构的平行语料,每个数据包括token序列x和结构记录y,预训练文本到结构的映射能力(UIE),预训练时随机取样一些负例(spots、association),loss公式如下:
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第4张图片
  2. D r e c o r d D_{record} Drecord:结构语料,预训练生成结构的能力(解码器),loss公式如下:
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第5张图片
  3. D t e x t D_{text} Dtext:非结构文本语料,使用masked language model的方式预训练语义表示, loss公式如下:
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第6张图片
    总loss公式如下图,在每个batch中随机选择不同任务的数据。
    论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第7张图片

3.2 On-Demand Fine-tuning

UIE针对不同下流任务进行微调, D t a s k = ( s , x , y ) D_{task}={(s,x,y)} Dtask=(s,x,y),loss为teacher-forcing交叉熵,为了缓解暴露偏差,设置Rejection Mechanism,随机插入一些[NULL]结点作为负例的SPOTNAME和ASSONAME,如下图
论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第8张图片

4 实验

有监督的实验结果如下图:

低资源下的实验结果如下图:

消融实验:
论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第9张图片
论文笔记 ACL 2022|Unified Structure Generation for Universal Information Extraction_第10张图片

你可能感兴趣的:(论文,NLP,信息抽取,自然语言处理)