《Unified Structure Generation for Universal Information Extraction》论文阅读笔记

《Unified Structure Generation for Universal Information Extraction》论文阅读笔记

信息抽取大一统
原文链接:https://arxiv.org/pdf/2203.12277.pdf
参考文章:https://zhuanlan.zhihu.com/p/495600185

文章目录

  • 摘要
  • 1. 介绍
    • 1.1 IE面临的挑战
    • 1.2 UIE应运而生
  • 2. 具体方法
    • UIE (SEL + SSL + 预训练)
    • 2.1 SEL(结构扩展语言)
    • 2.2 SSI (结构模式指导器)
    • 2.3 预训练
  • 3. 实验
    • 3.1 实验设置与结果分析
    • 3.2 Low-resource Settings
    • 3.3 消融实验
  • 总结


摘要

问题与挑战 :这篇文章出现之前,我们进行信息抽取时会遇到抽取目标多样、复杂异构结构、领域需求多变等问题难以解决。

本文贡献:提出了一个统一的文本到结构生成框架,即UIE。它可以通用地建模不同的IE任务,自适应地生成目标结构,并从不同的知识源协作学习通用的IE能力。

具体方法:UIE通过结构化提取语言对不同的提取结构进行统一编码,通过基于模式的提示机制(结构模式提示器)自适应生成目标提取(通俗讲就是把任务的schema拼接在文本前面作为提示,比如要做NER的话,就把实体的种类放在文本前面作为提示),并通过大规模预训练的文本到结构模型获得常见的IE能力。

实验结果及分析:在4个IE任务、13个数据集以及所有有监督、低资源和小样本学习数据集上都取得了最先进的性能,对于实体、关系、事件和情感提取任务及这些任务的统一都效果很好。


1. 介绍

本小节介绍了IE的短板和作者新提出的UIE解决现有问题的可行性与大概思路。

1.1 IE面临的挑战

  • 信息抽取(IE)旨在从非结构化文本中识别和构造用户指定的信息。
  • IE的多样化:
targets heterogeneous structure demand-specific schemas
entity, relation, event, sentiment, etc. spans, triplets, records, etc 金融、体育赛事等
  • 如上表所示,可以看到,传统方法由于IE的多样性面临多种限制,targets多样难以实现高效架构开发,复杂的多样化结构限制了有效知识共享,demand-specific schemas限制了快速跨域适配,IE面临的挑战亟待一个更好的方法。

1.2 UIE应运而生

原文作者在图1向读者整体描述了从(a)任务专用IE:不同的任务、不同的结构、不同的模式到(b)通用IE:通过结构生成进行统一建模
《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第1张图片

  • 对于图一,作者是这样解释的:从根本上讲,所有IE任务都可以建模为文本到结构的转换,不同的任务对应不同的结构,例如,“an entity is a named span structure, an event is a schema-defined record structure”.

  • IE中的这些文本到结构的转换可以进一步分解为几个原子转换操作:
    1.第一步是做定位,定位那些想要的span的位置。例如在给定Entity PER的时候,要定位到“Steve”定位,给定sentiment expression要定位到“excited”;
    2.第二步是做关联。把预先定义的schema里的语义角色分配给第一步里得到的span,并通过这种方式把他们关联起来。例如,把“Steve”和“Apple”分配为关系“work for”的参数1和参数2,也就头实体和尾实体。

  • 通过这种方式,就能把所有的信息抽取任务分解为这两个原子任务的排列组合。同时也使得不同的信息抽取模型可以共享相同的底层能力,使多任务联合学习成为可能。

下面两图参考知乎文章:https://zhuanlan.zhihu.com/p/495600185(这篇文章写的很生动,给了我很大的启发)
IE面临的挑战《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第2张图片

本文的大致框架
《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第3张图片

2. 具体方法

UIE (SEL + SSL + 预训练)

《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第4张图片

  • 本文首先设计结构化抽取语言(SEL)来统一编码异构抽取结构,即将实体、关系、事件编码为统一表示。
  • 然后描述了结构模式指导器(SSI),这是一种基于模式的提示机制,用于控制UIE模型,以便为不同的提取设置发现、关联和生成哪个模型。
  • 经过预训练的UIE模型由于学习了一般的IE能力,为不同IE任务之间的知识获取、共享和传递提供了坚实的基础。
  • SEL(结构扩展语言):有效地将不同的IE结构编码为统一的表示形式,以便在相同的文本到结构生成框架中对各种IE任务进行通用建模,(通俗讲就是不管要实现怎样的抽取任务,都能生成由括号和冒号组成的结果),这样就完美应对了IE任务多样性带来的难题。

  • SSL(结构模式指导器):基于模式的提示机制,控制UIE中要发现什么、关联什么和生成什么。这样即使是不同schema的情况下,也能够自适应的控制提取过程。

  • 预训练:作者在从易于访问的web源挖掘的大规模异构数据集上对UIE进行预训练(实际是就是用远程监督生成了一个大规模关系抽取预训练数据集),令模型可以学习通用IE能力,并显著提高了IE在 supervised, low-resource, 以及 few-shot settings这类情况下的性能。

2.1 SEL(结构扩展语言)

  • SEL概括讲就是介绍章节提到的两个原子操作:(1)定位(一般定位的是实体或触发词)(2)关联(一般比如说根据实体对之间的关系或事件及其参数之间的角色来关联不同信息块)

  • 如下图中,蓝色部分代表的是关系抽取任务:person为实体类型,对应了(a)中的Spot Name,work for为关系类型,对应(a)中的Asso Name;表示为(person:Steve(work for:Apple)),这样就通过“work for”这一关系连接起了实体“Steve”和“Apple”。
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第5张图片

  • 在附录部分,作者给出了每个数据集的SEL表达:
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第6张图片

2.2 SSI (结构模式指导器)

  • SSI是在Text前拼接相应的Schema Prompt,作为结构模式指导器。如下图:
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第7张图片

  • 不同任务的的形式是:
    1.实体抽取:[spot] 实体类别 [text]
    2.关系抽取:[spot] 实体类别 [asso] 关系类别 [text]
    3.事件抽取:[spot] 事件类别 [asso] 论元类别 [text]
    4.观点抽取:[spot] 评价维度 [asso] 观点类别 [text]

  • 论文的附录部分给出了每个数据集的SSI,为了更好的可视化,这里用<>替换了[]
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第8张图片

2.3 预训练

  1. Text-to-Structure训练Dpair(SSI,Text,SEL)
    1.)Dpair通过Wikipedia对齐Wikidata,构造text-to-struct的平行语料,其中每个实例都是一个并行对(token序列x,结构化记录y),用于预训练UIE的文本到结构转换能力
    2.)引入了negative schema,构建负样本作为噪声训练。

  2. Structure Generation预训练Drecord(None,None,SEL)
    1.)Drecord是结构数据集,只包含SEL语法结构化record数据,其中每个状态都是结构化记录y,用于预训练UIE的结构解码能力。
    2.)为了具备SEL语言的结构化能力,对Dpair数据只训练 UIE 的 decoder 部分。

  3. Retrofitting Semantic Representation(改进语义表示): Dtext(None,Text’,Text’')
    1.)Dtext是非结构化文本数据集,也就是纯文本,用于预训练UIE的语义编码能力。
    2.)为了具备基础的语义编码能力,对D_text数据进行 span corruption训练。

  • 最终目标是将上述三个任务结合起来:
    论文公式:预训练最终目标

  • 微调
    使用teacher-forcing交叉熵损失对UIE模型进行微调:
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第9张图片

3. 实验

3.1 实验设置与结果分析

  • 本文在4个具有良好代表性的IE任务(包括实体提取、关系提取、事件提取、结构化情感提取)及其组合(如联合实体关系提取)的13个IE基准上进行了实验。对所有提取任务采用端到端设置,将原始文本作为输入,并直接生成目标结构。

  • 使用的数据集包括:
    ACE04(Mitchell et al.,2005)、ACE05(Walker et al.,2006)、
    CoNLL03(Tjong Kim Sang and De Meul-der,2003)、CoNLL04(Roth and Yih,2004)、
    Sci-ERC(Luan et al.,2018)、
    NYT(Riedel et al.,2010)、
    CASIE(Satyapanich et al.,2020)、
    SemEval-14(Pontiki et al.,2014)、SemEval-15(Pontiki et al.,2015)、SemEval-16(Pontiki et al.,2016)

  • 下表为实验结果展示,表格综合来讲体现了以下三点:
    1.UIE借助SEL给我们提供了一个有效的通用框架。即使不进行预训练,性能也达到了最优(结果展示在SEL列)。
    2.对比于baseline,进行了预训练的模型效果最好,F1平均可以提高1.42%(结果展示在UIE列)。
    3.UIE效果好,预训练十分有必要,对所有任务都有提升,SEL这个结构帮助了UIE在不同的信息提取任务中共享学习到的能力和信息,是IE的一种统一的、跨任务可转移的结构化表示。
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第10张图片

3.2 Low-resource Settings

  • 作者对4个任务中对原始训练集的6个不同partitions进行了 low-resource实验 (1/5/10-shot, 1/5/10% ratio),对于训练集中的每个实体/关系/事件/情绪类型抽取1/5/10个句子,用不同的样本重复每个实验10次,给出其平均结果,避免了随机性。

  • 下表为实验结果(T5-v1.1-base是UIE-base的初始模型):

3.3 消融实验

  • 下表为UIE base在四个下游数据集的开发集上的不同学习任务的实验结果【实体(CoNLL03)、关系(CoNLL04)、事件(ACE05 Evt)和情绪(16res)】:
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第11张图片

  • 为了验证谁的作用比较大,作者做了一系列的消融实验,结果如下表所示:
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第12张图片

  • 从表格中可以看出来:
    (1)对于越小的数据集,本文的structure generation预训练任务越有用
    (2)对于需要复杂语义理解的任务,掩码语言模型训练,也就是MLM更重要
    (3)通过LPair映射预训练,模型可以学习扩展能力。


总结

本文:
(1)提出了一个统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。
(2)实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。
(3)发布了一个大规模的预训练文本到结构模型。
(4)展望:对于未来的工作,希望UIE可以扩展到知识库感知的IE任务,如实体链接、文档感知的IE任务,如共同引用等。

  • 正如https://zhuanhz’nlan.zhihu.com/p/495600185中最后引用,UIE或许经过「预训练+大规模多任务学习」拓展更多IE任务,直接具备Zero-shot能力,同时具备更丰富的能力
    《Unified Structure Generation for Universal Information Extraction》论文阅读笔记_第13张图片

你可能感兴趣的:(深度学习,人工智能,知识图谱)