通用信息抽取UIE论文笔记

一.研究背景与动机

信息抽取

目的

信息抽取旨在从非结构化的自然语言文本中抽取出结构化的信息。

主要任务

  • 命名实体识别
  • 关系抽取
  • 事件抽取
  • 观点抽取

主要设置

  • 全监督
  • 低资源
  • 少样本
  • 零样本

作用场景

  • 医疗
  • 金融
  • 法律
  • 美业
  • 农业
  • 教育

信息抽取现有的问题

任务难度大,落地成本居高不下。
1)不同的信息抽取任务拥有差异较大的输出结构,难以统一化建模:

  • 实体识别任务一般是采用span及其实体类别表示
  • 关系抽取任务一般采用三元组(triplet) 结构表示
  • 事件抽取任务一般采用记录(record)表示
  • 观点抽取任务一般采用三元组(triplet) 结构表示
    通用信息抽取UIE论文笔记_第1张图片

2)不同任务/设置/作用场景,需要设计大量特定模型,极其耗费资源
3)不同的任务有很多本可以共用的知识,但现有技术无法做到共享:

  • 关系抽取需要用到命名实体识别的结果
  • 事件抽取中的论元也是实体

4)不同信息抽取任务之间的独立,导致需要对每个任务都单独进行数据标注,极其耗费时间和人力

二.通用信息抽取UIE

1.简介

为了解决现有信息抽取技术所面临的问题,首个结构化生成式信息抽取预训练语言模型UIE被提出,一统了信息抽取四大任务。

2.结构

通用信息抽取UIE论文笔记_第2张图片

3.主要贡献

1)提出了一种统一的文本到结构(text-to-structure)的生成架构UIE

  • 可以对不同IE任务进行通用建模
  • 自适应地生成目标结构
  • 并从不同的知识源协同学习通用IE能力

2)设计了一种结构化抽取语言(Structural Extraction Language,SEL)将异构的IE结构编码成统一表示,使得模型的输出结构对不同任务都是一致的

3)提出结构化模式指导器(structural schema instructor,SSI)通过prompt指导UIE模型在多任务架构中做指定的任务:

  • 发现(spot)什么
  • 关联(associate)什么
  • 生成(generate)什么

4) 预训练了第一个文本到结构(text-to-structure)的预训练提取模型

  • 由于UIE模型的输出都是符合SEL语法的结构化信息
  • 目前常用的生成式预训练模型如T5、BART都是以生成自然语言为主,直接采用这种预训练模型会影响到UIE模型性能
  • 专门针对text to structure的结构预训练了一个大模型

4.结构化抽取语言SEL

将信息抽取任务的目标拆解成两个原子操作Spotting和Associating,SEL可以对这两个原子操作进行表示,不同的任务只要组合不同的原子操作对应结构即可统一表示:

  • Spotting:指在输入的原句中找到目标信息片段,比如说实体识别中某个类型的实体,事件抽取中的触发词和论元都是原句中的片段。

  • Associating:指找出Spotting输出的信息片段之间的关系,比如关系抽取中两个实体之间的关系,或事件抽取中论元和触发词之间的关系。
    通用信息抽取UIE论文笔记_第3张图片

  • Spot Name:指目标信息片段的类别,在实体抽取中指实体类别,在事件抽取中可以指事件类型和论元类别

  • Info Span:Spotting操作的输出,即原句中的目标信息片段

  • Asso Name:指两个信息片段之间的关系类型,也就是Associating操作的输出

5.结构化模式指导器SSI

有了SEL语法,模型统一了不同任务的输出结构。而SSI则是一种基于Schema的prompt,当输入句子时,在句子前面拼接上对应的prompt,即可让模型做对应的任务。
通用信息抽取UIE论文笔记_第4张图片

用s表示SSI,用x表示需要输入的原始句子,UIE表示由transformer的Encoder和Decoder组成的UIE模型:
在这里插入图片描述

输出y就是采用SEL语法描述的结构化数据:
通用信息抽取UIE论文笔记_第5张图片

将s和x拼接后输入至Encoder,得到每一个token的隐层表示:
在这里插入图片描述

然后使用隐层表示在Decoder端生成目标结构化信息:
在这里插入图片描述

6.预训练

1)预训练数据

主要由Wikipedia、Wikidata和ConceptNet三部分组成,作者通过这三部分数据构造了如下三种形式的预训练数据:

  • D-pair:(token sequence x,structured record y),数据表示为(s,x,y)
  • D-record:只有基于SEL语法的结构性record,数据表示为(None,None,y)
  • D-text:只有无结构的原始文本数据,做masked language model tasks,数据表示为(None,x’,x")

2)预训练任务

Text-to-Structure(D-pair):捕获基本的文本到结构的映射能力
在这里插入图片描述

Structure Generation(D-record):生成由SEL和模式定义的有效结构的能力
在这里插入图片描述

Retrofitting Semantic Representation(D-text):改造UIE的语义表示能力
在这里插入图片描述

最终将三个Loss相加作为UIE最终的Loss:
在这里插入图片描述

3)参数初始化

UIE采用的模型是T5-v1.1-base和T5-v1.1-large作为UIE-base和UIE-large,模型的参数初始化直接使用了T5-v1.1的参数,也就是说直接基于其进行了二次预训练。
通用信息抽取UIE论文笔记_第6张图片

7.实验

全监督

通用信息抽取UIE论文笔记_第7张图片

小样本

通用信息抽取UIE论文笔记_第8张图片

附录

报道:https://mp.weixin.qq.com/s/8Cr4EvN3PscThSTfCseJDQ
论文:https://arxiv.org/pdf/2203.12277.pdf
代码:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

脑图

你可能感兴趣的:(前沿技术paper,自然语言处理,日常随记,自然语言处理,知识图谱,深度学习)