共指消解自我总结-初级

文章目录

  • 入门
    • 定义
    • 术语
    • 分类
    • 面向实体共指消解的机器学习综述
    • 评价指标
    • 应用场景
  • 共指消解任务定义
    • 分析
    • Model
    • Span Representation
    • Practical Implementation
    • Result
  • Methods
    • Hobbs’ naive algorithm (1976)
    • 中心理论
    • Knowledge-based Pronominal Coreference
    • 对数线性模型
    • Simple neural network
    • Mention-Pair Model
    • Mention Ranking
    • End-to-end Neural Coreference Resolution (Lee et al., EMNLP 2017)
    • Last Coreference Approach: Clustering-Bas/最后一种共指方法:聚类Bas
    • A Large Unsupervised Corpus for Coreference Resolution(EMNLP, 2019)
    • BERT for Coreference Resolution: Baselines and Analysis(EMNLP, 2019)
  • 参考文献

入门

定义

共指消解:找出文本中指代同一实体的表述。
CS224N的定义:找到所有指向真实世界中同一entity的mention。
共指消解自我总结-初级_第1张图片上面这个例子中,Barack Obama,his,he均指代Barack Obama,而Hillary Rodham Clinton、secretary of state、her、she、First Lady均指代Hillary Rodham Clinton。

术语

共指消解自我总结-初级_第2张图片
2

  • mention:文档中的实体的不同指代(表述),它可以是代词、也可以是命名实体、还可以是名词短语,其实也可以理解成文档中所有实体,为了和entity加以区别。
  • antecedent:前指(先行词),前面那个mention,前指表示的是具体的实体,图1中 “Sally” 和 “she ” 具有共指关系,它们都表示“Sally”这个人。“Sally” 是具体化的实体,“she"是抽象化实体,即“Sally” 是“she”的前指,图二中"Barack Obama” 和 "he"也是如此。
  • coreferent :共指关系,图中 “Sally” 和 “she ” 具有共指关系,它们都表示“Sally”这个人。
  • cluster :同一mention的簇,就类似聚类中的簇,聚类是将同一类事务聚到一起,共指消解就是将文本中具有共指关系的mention 聚到一起。图中 “Sally” 和 “she ” 为一个簇, “John” 和 “him” 为一个簇, “violin”为一个簇。也比如{Barack Obama,his,he}也是一个簇。
  • anapnoric :回指,回指表示的是抽象化的实体;指代称为照应(anaphor),也就是后面那个mention,图1中“Sally” 是具体化的实体,“she"是抽象化实体,即“she” 是“Sally”的回指,图二中"Barack Obama” 和 "he"也是如此。
  • non-anapnoric:没有回指;即图中"violin"只有具体化的实体(它本身),没有抽象化的实体。
  • span:一个句子中的短语或者子串
  • singleton:没有共指单独出现的 mention,和上面的non-anapnoric是一个意思.
  • Cataphora:下指,和anapnoric 相反

并非所有的回指或下指都是共指关系。

理解mention:
Entity Mention:span of text referring to some entity,具体包括代词(pronouns)、命名实体(named entities)、名词短语(noun phrases)以及其它。
代词:可以通过词性标注工具来获取
命名实体:可以通过NER工具来获取
名词短语:parser,例如 a constituency parser
但是值得注意的是,并不是所有的代词、命名实体以及名词短语都是好的mention,例如:
(1)It is sunny
(2)Every student
(3)No student
(4)The best donut in the world
(5)100 miles
在上述例子中,这些mention指代的是一种抽象概念,而不是具体的事物。对于这些指代,可以通过训练一个分类器来过滤掉,但更常见的方法是将其视为候选指代。

理解span:
比如 小明和小李 这个文本段中,“小明 ” 、“小李” 、小明和小李 这都为mention ,假如这个文本后续的文本中出现 他们 这个mention ,那么 他们 和 小明和小李 就有共指关系。由于不知到具体哪个文本段为mention,所以一般都考虑所有的span(span 也就是序列),比如文本段小明和小李,他的span为 小 、小明 、小明和、小明和小、小明和小李、明。。。一段文本由T个word组成,那么span的数目为 T 2 T^{2} T2,把这些span都当作潜在的mention,这样的话计算量太大,后续需要修剪。

分类

在CS224N中分成 回指下指
下指(Cataphora):指后照应,顺向照应(语言单位由下文加以说明),与回指的区别在于先行词通常在指代词的后面。

回指(anapnoric),即下文的词返指或代替上文的词。其中,被指代的上文中的词称之为先行词(antecedent),指代称为照应(anaphor)。
共指消解自我总结-初级_第3张图片

回指又可以分为两种:代词回指(pronominal anaphora),以及桥接回指(bridging anaphora)。

代词回指:照应通常是代词,需要找到代词对应的先行词。

桥接回指:在桥接回指中,照应和先行词都是具体指代,但是这两个指代之间存在一定的照应,或者说解释关系,例如下文中的“a concert”和“The tickets”:

1
在回指中,照应的解释在一定程度上依赖于先行词,重点在于找到指代对应的先行词;而对于共指,指代的解释取决于指代本身,重点在于判断指代之间是否具有共指关系,如图所示:
共指消解自我总结-初级_第4张图片共指与回指之间存在一定的重叠关系,如图所示:
共指消解自我总结-初级_第5张图片

Four Kinds of Coreference Models/四种共指模式
基于规则的(代词回指解析)\提对\提及排名\聚类

其他文章中的分类解析:

从文强师兄学位论文中可以概括出其在冲突消解方面的主要工作包括:实体共指消解(resolving entity coreference)、模式匹配(schema matching)、宾语冲突消解(object conflicts resolution)。

实体解析(Entity Resolution)与共指消解的定义基本相同,实体匹配(Entity Matching)和实体对齐(Entity Alignment)主要侧重于不同的数据源之间是否指向同一实体。
共指消解可以作为实体链接的一部分:
step1:命名实体识别
step2:共指消解
step3:实体消歧

面向实体共指消解的机器学习综述

本节主要概括Vincent Ng 于2017年发表于AAAI会议的文章:Machine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research. 本节将该论文讲述的利用机器学习解决实体共指的方法概括如下图:共指消解自我总结-初级_第6张图片根据该文所述,Mention—Pair 模型为最具影响力的模型,Neural Models为值得深入研究的模型。

另一个文章“共指消解(一)”对现状的总结:
共指消解自我总结-初级_第7张图片

评价指标

共指消解评价指标

应用场景

  • Full text understanding
    共指消解有助于对文本的全面理解,从而促进信息抽取(information extraction),自动问答(question answering),文本摘要(summarization)
  • 机器翻译(machine translation)
    在不同的语言中,指代词各有特点,因此理解代词的具体指代,有利于提升系统的翻译效果。
  • 对话系统(Dialogue Systems)
    在对话系统,理解不同mention的真实指代,有利于理解用户的真实意图,如图所示:

共指消解任务定义

在“一文详解自然语言处理任务之共指消解”中对共指消解做出了非常有趣且详细的任务分析。可以先看这篇博客便于理解。下面直接按照CS224N对共指消解做任务步骤划分:

分析

共指消解包括两步:Detect the mentions,以及cluster the mentions。前者比较容易,后者则较为困难。
Detect the mentions是要把所有的 mention 都标注出来。

有时 mention 的定义是比较模糊的。一般我们会有一个语料参照(分类器),要把哪些作为 mention,哪些忽略。这些 mention 与 mention 之间,有时候会有边界重叠包含关系。比如“他的拳头”整体是一个 mention,“他”又可以是另外一个 mention。这些 mention 要被分成不同的簇类。相同簇的 mention 指代的对象会是同一个。如果是复数要怎么办呢?一般我们会单独作为新的实体簇来划分。它与 NER 不同在于NER 找的实体几乎不存在交叉。

第一步,针对找出 mention 这个问题,我们需要有一个二分类器。它的输入是一串 tokens 序列,输出是这一串 tokens 是不是 mention。Mention Detection 与分割和填槽有一点点不同。这个二分类器,输入是要一整个 span,决定它是不是 mention。之所以要这么做,是因为在做 mention detection 的时候,mention 之间会有互相包含的关系。假如有一个长度为 N 的序列,我们需要找出 N(N-1)/2 的可能 span 组合输入给模型去分类。这是一个有监督学习。监督信息来自于人工标注的 mention 作为正例,和未标注到的 token 作为负例。

cluster the mentions,是思考哪些 mention 应该要放在同一个类别簇中。这也是用一个二分类器,输入是两个 mention,输出是这两个 mention 有无共指的关系。如果我们有 K 个 mentions,则两两组合有 K(K-1)/2 次分类。

我们可以把上面两个步骤联合起来,只用一个分类器来端对端地训练。输入分类器的是两个 span,若二者是mention 且共指,则分类器输出 1。反之两个 span 任意一个不是 mention,或不共指,则输出0。它的复杂度为 O(N^4)。当 N 稍微大一点时,算法性能就会受限。

Model

共指消解自我总结-初级_第8张图片这个模型实际是怎样的呢?输入序列会先丢给预训练语言模型,得到每个 token 的嵌入。接着,我们会通过一个特别的模块专门把 span 提取出来,聚合成一个向量。接下来,我们会有一个 mention detection 的模块,输入一个向量,输出判断它是不是 mention。与此同时,两个 mention 向量还会输入给一个 mention pair 的模块,判断它们是不是共指。最后我们把三个分数直接加起来,作为最终输出。

Span Representation

共指消解自我总结-初级_第9张图片span extraction 一种常见的做法是,假如一个 span 中有四个 embedding,我们先会把它的开头和结尾取出来,再把四个向量取平均,或把它们两两做自注意力,来做加权平均,得到注意过后的向量。比如湖边小屋,真正决定它是 mention 的词在小屋上。模型通过自动学得在小屋这类词上做更多的关注。从而获得一定的泛化能力,学到海边小屋,街边小屋,森林小屋,都是 mention。

Practical Implementation

共指消解自我总结-初级_第10张图片如果我们要用这种端对端的方式训练,怎样把它的运算量变得更小呢?推断的时候,我们可以先做 mention detection,跑 N(N-1)/2 次,找出 K 个 mention。再去用 K 个 mention 两两分类看是不是共指。由于 K << N,后面的分类计算量大大减小了。另一个技巧是限制 span 的长度,比如最多不超过 10 个 tokens。这样复杂度就成了固定的数值。

Result

共指消解自我总结-初级_第11张图片各式各样抽取词嵌入的方法包括了 GLoVe + LSTM,ELMo 和 BERT。图中,小括号代表一个 mention。颜色越深代表注意的权重越大。模型是能够判断在一段 span 的 tokens 中,最重要的是哪些 token。像 fire 和 blaze 指的是同一个东西。factory 和 building 也指的是同一个东西。不过模型也有些 case 把握的不是很好,比如会把 region 和 area 看成是同一个指代。其中有一些比较难的case,需要模型理解一些常识才能去解。这就不是单纯读这篇文章就可以解决的问题。

Methods

Hobbs’ naive algorithm (1976)

传统代词回指算法,该算法仅用于寻找代词的参考,也可以延伸到其他案例,下面展示的也是代词的参考部分。
共指消解自我总结-初级_第12张图片
共指消解自我总结-初级_第13张图片 1、从名词短语开始,直接支配代词
2、上到第一个NP或S,称之为X,路径为p。
3、横过X以下的所有分支到p的左边,从左到右,宽度优先。提出任何在它和X之间有NP或sb的NP作为先行词
4、如果X是句子中最高的S,则按照最近的顺序遍历前面句子的解析树。从左到右遍历每棵树,宽度优先。当遇到NP时,建议作为先行词。如果X不是最高的节点,则转到步骤5。
5、从节点X到树的第一个NP或S,称之为X,路径p。
6、如果X是NP,并且p到X的路径来自X的非头短语(一个说明符或附加语,如所有格、PP、同位或关联从句),则建议X作为先行词(原话说“没有通过X立即表示的N’”,但宾州树库语法缺少N’节点…)
7、以从左到右、宽度优先的方式将X以下的所有分支移到路径的左侧。提出任何遇到的NP作为前因
8、如果X是S节点,则遍历X的所有分支到路径的右侧,但不要低于遇到的任何NP或S。以NP为前因。
9、转到步骤4
共指消解自我总结-初级_第14张图片上述算法的例子。这是一个很简单、但效果很好的共指消解的基线/基准。

Hobbs’ algorithm: commentary/Hobbs算法述评
“… 这种天真的做法是相当好的。从计算上讲,一个基于语义的算法还需要很长时间才能实现,这些结果为任何其他方法的目标设定了一个非常高的标准。
然而,我们完全有理由追求基于语义的方法。天真的算法不起作用。任何人都可以举出失败的例子。在这些情况下,它不仅失败了,而且没有任何迹象表明它失败了,也无法帮助找到真正的前因。”
-霍布斯(1978),《语言学》,第345页
(直到2010年,设法产生代词回指分辨率的算法(我不知道翻译的对不对)才表现优于Hobbs算法)

中心理论

某语言类书中提及

Knowledge-based Pronominal Coreference

基于知识的代词共指代词
共指消解自我总结-初级_第15张图片第一个例子中,两个句子具有相同的语法结构,但是出于外部世界知识,我们能够知道倒水之后,满的是杯子(第一句it指向的是the cup),空的是壶(第二句it指向的是the pitcher);第二个例子也是相同的(一个是委员会一个是女人)
这被称为Winograd模式,最近被提出作为图灵测试的替代方案。
可以将世界知识编码成共指问题。

这是基于知识的代词共指,在我的理解上是需要推理按照逻辑得到正确的理解。

对数线性模型

某语言类书中提及

Simple neural network

输入层包括word embedding,以及一些额外的分类特征。Word embeddings包括所有mention的Previous two words, first word, last word, head word。其中,Head word是指mention中最重要的word,可以通过一些parser来得到。分类特征包括:distance,document genre,以及speaker information等。共指消解自我总结-初级_第16张图片

Mention-Pair Model

提及对模型
共指消解自我总结-初级_第17张图片

训练一个二元分类器,为每一对 mention 的分配共参的概率在这里插入图片描述
。例如,为了寻找 “she” 的共指,查看所有候选先行词(以前出现的 mention ),并确定哪些与之相关。
共指消解自我总结-初级_第18张图片共指消解自我总结-初级_第19张图片共指消解自我总结-初级_第20张图片二分类,与之相关的mention概率接近1,不相关的概率接近0.
共指消解自我总结-初级_第21张图片

图片内容分别为:
遍历 mentions
遍历候选先行词(前面出现的 mention)
共指 mention 对应该得到高概率,其他应该得到低概率

文章的 N 个mention,如果mi和mj是共指的,则yij=1,否则yij=-1,只是训练正常的交叉熵损失(看起来有点不同,因为它是二元分类)

Mention Pair Test Time/提及配对测试时间
共指解析是一项聚类任务,但是我们只是对mentions对进行了评分……该怎么办?
1选择一些阈值(例如0.5),并将1
在阈值以上的 mentions 对之间添加共指链接
利用传递闭包得到聚类
共指消解自我总结-初级_第22张图片使用传递闭包来获得集群
共指消解自我总结-初级_第23张图片尽管模型没有预测到这种共指链接,但由于及物性,我和我的是共指者
添加这个额外的链接会将所有内容合并到一个大的共指集群中!
共指消解自我总结-初级_第24张图片这是十分危险的,如果有一个共指 link 判断错误,就会导致两个 cluster 被错误地合并了
Mention Pair Models: Disadvantage/提及配对模式:劣势
假设我们的长文档里有如下的mentions
共指消解自我总结-初级_第25张图片许多 mentions 只有一个清晰的先行词,但我们要求模型来预测它们
解决方案:相反,训练模型为每个mention只预测一个先行词,在语言上更合理

Mention Ranking

共指模型:提及排名;根据模型把其得分最高的先行词分配给每个mention,虚拟的 NA mention 允许模型拒绝将当前 mention 与任何内容联系起来(“singleton” or “first” mention),first mention: I 只能选择 NA 作为自己的先行词.
共指消解自我总结-初级_第26张图片共指消解自我总结-初级_第27张图片正例:模型必须给其中一个分配高概率(不一定是两个)。
共指消解自我总结-初级_第28张图片候选先行词的分数上应用softmax,是概率总和为1。
共指消解自我总结-初级_第29张图片只添加得分最高的mention最为she的共指关联。
Coreference Models: Training/共指模型:训练
我们希望当前mention mj与它所关联的任何一个候选先行词相关联,在数学上,我们可能想要最大化这个概率,公式如下:共指消解自我总结-初级_第30张图片

上图内容翻译:
遍历候选先行词集合
对于 yij=1的情况,即mi与mj是共指关系的情况
我们希望模型能够给予其高可能性

这个模型对一个正确的前因产生了0.9的概率,而其他所有的概率都很低,而且总和仍然很大,把它转化为一个loss函数,如下: 共指消解自我总结-初级_第31张图片Mention Ranking Models: Test Time/提及排名模型:测试时间(或者是测试阶段更好)
和mention-pair模型几乎一样,除了每个mention只分配一个先行词
共指消解自我总结-初级_第32张图片How do we compute the probabilities?/我们如何计算概率?
如何决定mi和mj是共同的呢?将会从下面三个方面进行介绍

  • A. Non-neural statistical classifier/非神经统计分类器
  • B. Simple neural network/简单神经网络
  • C. More advanced model using LSTMs, attention/使用LSTM的更高级模型,注意力机制
    A. Non-Neural Coref Model: Features/非神经Coref模型:特征
    经典做法是我们有一大堆功能,基于特征的统计分类器,然后给出分数
    共指消解自我总结-初级_第33张图片使用如下特征进行分类 (可以把这些特征都投入进去训练)
    • 人、数字、性别
    • 语义相容性(类似集团和公司就很相似)
    • 句法约束(例如之前说的Hobbs算法,不同的句法配置有多大可能意味着共同参与)
    • 更近的提到的实体是个可能的参考对象(两个人先后做个一个事情,出现的he更可能是后一个人,如上图对应例子)
    • 语法角色:偏好主语位置的实体(上述对应例子就很能表达出这个意思)
    • 排比(看对应例子…)

B. Neural Coref Model
标准的前馈神经网络,输入层:词嵌入和一些类别特征(彩色部分可能提到了什么是语法关系?这是一个主题吗?它是一个对象吗?是否是共同?额外功能记录了相距有多远及尺寸)
共指消解自我总结-初级_第34张图片Neural Coref Model: Inputs/神经Coref模型:输入
嵌入:每个 mention 的前两个单词,第一个单词,最后一个单词,head word,… 。head word是 mention 中“最重要”的单,—可以使用解析器找到它
例如:The fluffycat stuck in the tree
仍然需要一些其他特征,如下:
距离、 文档体裁、说话者的信息嵌入

End-to-end Neural Coreference Resolution (Lee et al., EMNLP 2017)

这是一个华盛顿大学完成的系统(2017年,Kenton Lee和其他作者完成的),目标是生成一个端到端的共享系统,提出共同的集群,是当前最先进的模型算法(Kenton Lee et al. from UW, EMNLP 2017),是Mention排名模型,改进了简单的前馈神经网络,改进如下:

使用LSTM
使用注意力
端到端的完成 mention 检测和共指
(没有 mention 检测步骤!而是考虑每段文本(一定长度)作为候选 mention们,
例如:a span 是一个连续的序列)

End-to-end Model的步骤
首先将文档里的单词使用词嵌入矩阵和 charCNN embed 为词嵌入
5
接着在文档上运行双向 LSTM
共指消解自我总结-初级_第35张图片接着将每段文本i从start(i) 到end(j)表示为一个向量
共指消解自我总结-初级_第36张图片span 是句子中任何单词的连续子句
General, General Electric, General Electric said, … Electric, Electric said, …都会得到它自己的向量表示
5例如 “the postal service”
共指消解自我总结-初级_第37张图片共指消解自我总结-初级_第38张图片共指消解自我总结-初级_第39张图片共指消解自我总结-初级_第40张图片是span 的注意力加权平均的词向量:5
共指消解自我总结-初级_第41张图片为什么要在 span 中引入所有的这些不同的项?
共指消解自我总结-初级_第42张图片最后,为每个span对打分来决定他们是不是共指mentions
共指消解自我总结-初级_第43张图片打分函数以span representations作为输入
共指消解自我总结-初级_第44张图片共指消解自我总结-初级_第45张图片

Last Coreference Approach: Clustering-Bas/最后一种共指方法:聚类Bas

共指是个聚类任务,让我们使用一个聚类算法吧。特别是我们将使用 agglomerative 凝聚聚类(自下而上的)。开始时,每个mention在它自己的单独集群中,每一步合并两个集群(使用模型来打分那些聚类合并是好的)
所以这里的想法是我们会有段文字:谷歌最近等等(如下)共指消解自我总结-初级_第46张图片到这里我们有一些/四个提及,这四个提及各有自己的集群,我们可能决定两个提及是共同的并把他们合并成一个集群,如下共指消解自我总结-初级_第47张图片共指消解自我总结-初级_第48张图片Clustering Model Architecture/聚类模型体系结构
From Clark & Manning, 2016
之前我们nlp经常用分布式词向量进行表示,这里将超越它并提出了集群表示(如图那样多个词合在一起)共指消解自我总结-初级_第49张图片首先为每个 mention 对生成一个向量。例如,前馈神经网络模型中的隐藏层的输出共指消解自我总结-初级_第50张图片接着将池化操作应用于 mentino-pair 表示的矩阵上,得到一个 cluster-pair 聚类对的表示共指消解自我总结-初级_第51张图片共指消解自我总结-初级_第52张图片

A Large Unsupervised Corpus for Coreference Resolution(EMNLP, 2019)

[Kocijan, et al., EMNLP’19] Vid Kocijan, Oana-Maria Camburu, Ana-Maria Cretu, Yordan Yordanov, Phil Blunsom, Thomas Lukasiewicz, WikiCREM:

BERT for Coreference Resolution: Baselines and Analysis(EMNLP, 2019)

[Joshi, et al., EMNLP’19] Mandar Joshi, Omer Levy, Luke Zettlemoyer, Daniel Weld,

参考文献

  • 2019年CS224N课程笔记-Lecture 16:Coreference Resolution
  • CS224N-共指消解学习笔记
  • 共指消解(Coreference Resolution)论文解读
  • 一文详解自然语言处理任务之共指消解
  • 共指消解评价指标
  • 共指消解(Coreference Resolution)论文解读
  • (2020)指代消解or共指消解任务主要论文
  • 共指消解(一)
  • NLP之共指消解总结
  • 共指消解/指代消解/Coreference Resolution中概念/术语的总结
  • cs224n 笔记15 共指解析

你可能感兴趣的:(知识点总结,自然语言处理)