共指消解:找出文本中指代同一实体的表述。
CS224N的定义:找到所有指向真实世界中同一entity的mention。
上面这个例子中,Barack Obama,his,he均指代Barack Obama,而Hillary Rodham Clinton、secretary of state、her、she、First Lady均指代Hillary Rodham Clinton。
并非所有的回指或下指都是共指关系。
理解mention:
Entity Mention:span of text referring to some entity,具体包括代词(pronouns)、命名实体(named entities)、名词短语(noun phrases)以及其它。
代词:可以通过词性标注工具来获取
命名实体:可以通过NER工具来获取
名词短语:parser,例如 a constituency parser
但是值得注意的是,并不是所有的代词、命名实体以及名词短语都是好的mention,例如:
(1)It is sunny
(2)Every student
(3)No student
(4)The best donut in the world
(5)100 miles
在上述例子中,这些mention指代的是一种抽象概念,而不是具体的事物。对于这些指代,可以通过训练一个分类器来过滤掉,但更常见的方法是将其视为候选指代。
理解span:
比如 小明和小李 这个文本段中,“小明 ” 、“小李” 、小明和小李 这都为mention ,假如这个文本后续的文本中出现 他们 这个mention ,那么 他们 和 小明和小李 就有共指关系。由于不知到具体哪个文本段为mention,所以一般都考虑所有的span(span 也就是序列),比如文本段小明和小李,他的span为 小 、小明 、小明和、小明和小、小明和小李、明。。。一段文本由T个word组成,那么span的数目为 T 2 T^{2} T2,把这些span都当作潜在的mention,这样的话计算量太大,后续需要修剪。
在CS224N中分成 回指 和 下指
下指(Cataphora):指后照应,顺向照应(语言单位由下文加以说明),与回指的区别在于先行词通常在指代词的后面。
回指(anapnoric),即下文的词返指或代替上文的词。其中,被指代的上文中的词称之为先行词(antecedent),指代称为照应(anaphor)。
回指又可以分为两种:代词回指(pronominal anaphora),以及桥接回指(bridging anaphora)。
代词回指:照应通常是代词,需要找到代词对应的先行词。
桥接回指:在桥接回指中,照应和先行词都是具体指代,但是这两个指代之间存在一定的照应,或者说解释关系,例如下文中的“a concert”和“The tickets”:
在回指中,照应的解释在一定程度上依赖于先行词,重点在于找到指代对应的先行词;而对于共指,指代的解释取决于指代本身,重点在于判断指代之间是否具有共指关系,如图所示:
共指与回指之间存在一定的重叠关系,如图所示:
Four Kinds of Coreference Models/四种共指模式
基于规则的(代词回指解析)\提对\提及排名\聚类
其他文章中的分类解析:
从文强师兄学位论文中可以概括出其在冲突消解方面的主要工作包括:实体共指消解(resolving entity coreference)、模式匹配(schema matching)、宾语冲突消解(object conflicts resolution)。
实体解析(Entity Resolution)与共指消解的定义基本相同,实体匹配(Entity Matching)和实体对齐(Entity Alignment)主要侧重于不同的数据源之间是否指向同一实体。
共指消解可以作为实体链接的一部分:
step1:命名实体识别
step2:共指消解
step3:实体消歧
本节主要概括Vincent Ng 于2017年发表于AAAI会议的文章:Machine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research. 本节将该论文讲述的利用机器学习解决实体共指的方法概括如下图:根据该文所述,Mention—Pair 模型为最具影响力的模型,Neural Models为值得深入研究的模型。
共指消解评价指标
在“一文详解自然语言处理任务之共指消解”中对共指消解做出了非常有趣且详细的任务分析。可以先看这篇博客便于理解。下面直接按照CS224N对共指消解做任务步骤划分:
共指消解包括两步:Detect the mentions,以及cluster the mentions。前者比较容易,后者则较为困难。
Detect the mentions是要把所有的 mention 都标注出来。
有时 mention 的定义是比较模糊的。一般我们会有一个语料参照(分类器),要把哪些作为 mention,哪些忽略。这些 mention 与 mention 之间,有时候会有边界重叠包含关系。比如“他的拳头”整体是一个 mention,“他”又可以是另外一个 mention。这些 mention 要被分成不同的簇类。相同簇的 mention 指代的对象会是同一个。如果是复数要怎么办呢?一般我们会单独作为新的实体簇来划分。它与 NER 不同在于NER 找的实体几乎不存在交叉。
第一步,针对找出 mention 这个问题,我们需要有一个二分类器。它的输入是一串 tokens 序列,输出是这一串 tokens 是不是 mention。Mention Detection 与分割和填槽有一点点不同。这个二分类器,输入是要一整个 span,决定它是不是 mention。之所以要这么做,是因为在做 mention detection 的时候,mention 之间会有互相包含的关系。假如有一个长度为 N 的序列,我们需要找出 N(N-1)/2 的可能 span 组合输入给模型去分类。这是一个有监督学习。监督信息来自于人工标注的 mention 作为正例,和未标注到的 token 作为负例。
cluster the mentions,是思考哪些 mention 应该要放在同一个类别簇中。这也是用一个二分类器,输入是两个 mention,输出是这两个 mention 有无共指的关系。如果我们有 K 个 mentions,则两两组合有 K(K-1)/2 次分类。
我们可以把上面两个步骤联合起来,只用一个分类器来端对端地训练。输入分类器的是两个 span,若二者是mention 且共指,则分类器输出 1。反之两个 span 任意一个不是 mention,或不共指,则输出0。它的复杂度为 O(N^4)。当 N 稍微大一点时,算法性能就会受限。
这个模型实际是怎样的呢?输入序列会先丢给预训练语言模型,得到每个 token 的嵌入。接着,我们会通过一个特别的模块专门把 span 提取出来,聚合成一个向量。接下来,我们会有一个 mention detection 的模块,输入一个向量,输出判断它是不是 mention。与此同时,两个 mention 向量还会输入给一个 mention pair 的模块,判断它们是不是共指。最后我们把三个分数直接加起来,作为最终输出。
span extraction 一种常见的做法是,假如一个 span 中有四个 embedding,我们先会把它的开头和结尾取出来,再把四个向量取平均,或把它们两两做自注意力,来做加权平均,得到注意过后的向量。比如湖边小屋,真正决定它是 mention 的词在小屋上。模型通过自动学得在小屋这类词上做更多的关注。从而获得一定的泛化能力,学到海边小屋,街边小屋,森林小屋,都是 mention。
如果我们要用这种端对端的方式训练,怎样把它的运算量变得更小呢?推断的时候,我们可以先做 mention detection,跑 N(N-1)/2 次,找出 K 个 mention。再去用 K 个 mention 两两分类看是不是共指。由于 K << N,后面的分类计算量大大减小了。另一个技巧是限制 span 的长度,比如最多不超过 10 个 tokens。这样复杂度就成了固定的数值。
各式各样抽取词嵌入的方法包括了 GLoVe + LSTM,ELMo 和 BERT。图中,小括号代表一个 mention。颜色越深代表注意的权重越大。模型是能够判断在一段 span 的 tokens 中,最重要的是哪些 token。像 fire 和 blaze 指的是同一个东西。factory 和 building 也指的是同一个东西。不过模型也有些 case 把握的不是很好,比如会把 region 和 area 看成是同一个指代。其中有一些比较难的case,需要模型理解一些常识才能去解。这就不是单纯读这篇文章就可以解决的问题。
传统代词回指算法,该算法仅用于寻找代词的参考,也可以延伸到其他案例,下面展示的也是代词的参考部分。
1、从名词短语开始,直接支配代词
2、上到第一个NP或S,称之为X,路径为p。
3、横过X以下的所有分支到p的左边,从左到右,宽度优先。提出任何在它和X之间有NP或sb的NP作为先行词
4、如果X是句子中最高的S,则按照最近的顺序遍历前面句子的解析树。从左到右遍历每棵树,宽度优先。当遇到NP时,建议作为先行词。如果X不是最高的节点,则转到步骤5。
5、从节点X到树的第一个NP或S,称之为X,路径p。
6、如果X是NP,并且p到X的路径来自X的非头短语(一个说明符或附加语,如所有格、PP、同位或关联从句),则建议X作为先行词(原话说“没有通过X立即表示的N’”,但宾州树库语法缺少N’节点…)
7、以从左到右、宽度优先的方式将X以下的所有分支移到路径的左侧。提出任何遇到的NP作为前因
8、如果X是S节点,则遍历X的所有分支到路径的右侧,但不要低于遇到的任何NP或S。以NP为前因。
9、转到步骤4
上述算法的例子。这是一个很简单、但效果很好的共指消解的基线/基准。
Hobbs’ algorithm: commentary/Hobbs算法述评
“… 这种天真的做法是相当好的。从计算上讲,一个基于语义的算法还需要很长时间才能实现,这些结果为任何其他方法的目标设定了一个非常高的标准。
然而,我们完全有理由追求基于语义的方法。天真的算法不起作用。任何人都可以举出失败的例子。在这些情况下,它不仅失败了,而且没有任何迹象表明它失败了,也无法帮助找到真正的前因。”
-霍布斯(1978),《语言学》,第345页
(直到2010年,设法产生代词回指分辨率的算法(我不知道翻译的对不对)才表现优于Hobbs算法)
某语言类书中提及
基于知识的代词共指代词
第一个例子中,两个句子具有相同的语法结构,但是出于外部世界知识,我们能够知道倒水之后,满的是杯子(第一句it指向的是the cup),空的是壶(第二句it指向的是the pitcher);第二个例子也是相同的(一个是委员会一个是女人)
这被称为Winograd模式,最近被提出作为图灵测试的替代方案。
可以将世界知识编码成共指问题。
这是基于知识的代词共指,在我的理解上是需要推理按照逻辑得到正确的理解。
某语言类书中提及
输入层包括word embedding,以及一些额外的分类特征。Word embeddings包括所有mention的Previous two words, first word, last word, head word。其中,Head word是指mention中最重要的word,可以通过一些parser来得到。分类特征包括:distance,document genre,以及speaker information等。
训练一个二元分类器,为每一对 mention 的分配共参的概率
。例如,为了寻找 “she” 的共指,查看所有候选先行词(以前出现的 mention ),并确定哪些与之相关。
二分类,与之相关的mention概率接近1,不相关的概率接近0.
图片内容分别为:
遍历 mentions
遍历候选先行词(前面出现的 mention)
共指 mention 对应该得到高概率,其他应该得到低概率
文章的 N 个mention,如果mi和mj是共指的,则yij=1,否则yij=-1,只是训练正常的交叉熵损失(看起来有点不同,因为它是二元分类)
Mention Pair Test Time/提及配对测试时间
共指解析是一项聚类任务,但是我们只是对mentions对进行了评分……该怎么办?
选择一些阈值(例如0.5),并将
在阈值以上的 mentions 对之间添加共指链接
利用传递闭包得到聚类
使用传递闭包来获得集群
尽管模型没有预测到这种共指链接,但由于及物性,我和我的是共指者
添加这个额外的链接会将所有内容合并到一个大的共指集群中!
这是十分危险的,如果有一个共指 link 判断错误,就会导致两个 cluster 被错误地合并了
Mention Pair Models: Disadvantage/提及配对模式:劣势
假设我们的长文档里有如下的mentions
许多 mentions 只有一个清晰的先行词,但我们要求模型来预测它们
解决方案:相反,训练模型为每个mention只预测一个先行词,在语言上更合理
共指模型:提及排名;根据模型把其得分最高的先行词分配给每个mention,虚拟的 NA mention 允许模型拒绝将当前 mention 与任何内容联系起来(“singleton” or “first” mention),first mention: I 只能选择 NA 作为自己的先行词.
正例:模型必须给其中一个分配高概率(不一定是两个)。
候选先行词的分数上应用softmax,是概率总和为1。
只添加得分最高的mention最为she的共指关联。
Coreference Models: Training/共指模型:训练
我们希望当前mention mj与它所关联的任何一个候选先行词相关联,在数学上,我们可能想要最大化这个概率,公式如下:
上图内容翻译:
遍历候选先行词集合
对于 yij=1的情况,即mi与mj是共指关系的情况
我们希望模型能够给予其高可能性
这个模型对一个正确的前因产生了0.9的概率,而其他所有的概率都很低,而且总和仍然很大,把它转化为一个loss函数,如下: Mention Ranking Models: Test Time/提及排名模型:测试时间(或者是测试阶段更好)
和mention-pair模型几乎一样,除了每个mention只分配一个先行词
How do we compute the probabilities?/我们如何计算概率?
如何决定mi和mj是共同的呢?将会从下面三个方面进行介绍
B. Neural Coref Model
标准的前馈神经网络,输入层:词嵌入和一些类别特征(彩色部分可能提到了什么是语法关系?这是一个主题吗?它是一个对象吗?是否是共同?额外功能记录了相距有多远及尺寸)
Neural Coref Model: Inputs/神经Coref模型:输入
嵌入:每个 mention 的前两个单词,第一个单词,最后一个单词,head word,… 。head word是 mention 中“最重要”的单,—可以使用解析器找到它
例如:The fluffycat stuck in the tree
仍然需要一些其他特征,如下:
距离、 文档体裁、说话者的信息嵌入
这是一个华盛顿大学完成的系统(2017年,Kenton Lee和其他作者完成的),目标是生成一个端到端的共享系统,提出共同的集群,是当前最先进的模型算法(Kenton Lee et al. from UW, EMNLP 2017),是Mention排名模型,改进了简单的前馈神经网络,改进如下:
使用LSTM
使用注意力
端到端的完成 mention 检测和共指
(没有 mention 检测步骤!而是考虑每段文本(一定长度)作为候选 mention们,
例如:a span 是一个连续的序列)
End-to-end Model的步骤
首先将文档里的单词使用词嵌入矩阵和 charCNN embed 为词嵌入
接着在文档上运行双向 LSTM
接着将每段文本i从start(i) 到end(j)表示为一个向量
span 是句子中任何单词的连续子句
General, General Electric, General Electric said, … Electric, Electric said, …都会得到它自己的向量表示
例如 “the postal service”
是span 的注意力加权平均的词向量:
为什么要在 span 中引入所有的这些不同的项?
最后,为每个span对打分来决定他们是不是共指mentions
打分函数以span representations作为输入
共指是个聚类任务,让我们使用一个聚类算法吧。特别是我们将使用 agglomerative 凝聚聚类(自下而上的)。开始时,每个mention在它自己的单独集群中,每一步合并两个集群(使用模型来打分那些聚类合并是好的)
所以这里的想法是我们会有段文字:谷歌最近等等(如下)到这里我们有一些/四个提及,这四个提及各有自己的集群,我们可能决定两个提及是共同的并把他们合并成一个集群,如下Clustering Model Architecture/聚类模型体系结构
From Clark & Manning, 2016
之前我们nlp经常用分布式词向量进行表示,这里将超越它并提出了集群表示(如图那样多个词合在一起)首先为每个 mention 对生成一个向量。例如,前馈神经网络模型中的隐藏层的输出接着将池化操作应用于 mentino-pair 表示的矩阵上,得到一个 cluster-pair 聚类对的表示
[Kocijan, et al., EMNLP’19] Vid Kocijan, Oana-Maria Camburu, Ana-Maria Cretu, Yordan Yordanov, Phil Blunsom, Thomas Lukasiewicz, WikiCREM:
[Joshi, et al., EMNLP’19] Mandar Joshi, Omer Levy, Luke Zettlemoyer, Daniel Weld,