Distant Supervision for Relation Extraction beyond the Sentence Boundary

本文只是简单记录,看论文笔记的请移步这里

1. 介绍

本文基于远程监督的跨句关系抽取在生物医学文章提取药物与基因关系方面应用。
本文提到长尾特征使远程监督成为扩大学习的选择,需要看一下长尾问题。
通过矩阵因式分解或知识库嵌入,将远程监督扩展到获取隐含推理 (Riedel et al., 2013;
Toutanova et al., 2015; Toutanova et al., 2016)。

2. 模型:DISCREX(Distant Supervision for Cross-Sentence Relation Extraction)
2.1 远程监督

知道关系的共现实体对作为正例。在相关实体相对较少的假设下,随机抽样不知道关系的共现的实体对作为负例。

2.2 两个实体对之间句子间隔距离的选择

单句中共现的实体对被认为是正例,但在跨句中这将引入大量错误例子。当单句内有共现实体对,相邻句子中也有该共现实体对,本文选择距离近,距离通过两个实体之间连续句子的数量来衡量,并且认为距离为3适合推理关系。

2.3 文档图

下图中,弧线表示句内依存关系,NEXTSENT表示句间关系(有因果,条件关系等),并没有给出文中所说的相邻词的边。

在远程监督(Koch et al., 2014; Augenstein et al., 2016)和监督 (Hajishirzi et al., 2013; Durrett and Klein, 2014)的关系抽取中利用共同指代(可以减小两个实体间的距离,增强联系,提高识别率),本文采用Stanford coreference systems (Lee et al., 2011; Recasens et al., 2013; Clark and Manning, 2015)。
使用 discourse parser (Wang and Lan, 2015)来识别discourse relations。

2.4 特征

依赖路径是关系抽取的重要特征。DISCREX通过在document graph上定义特征模板来实现,其包括各种交错的边(依赖关系、词相邻、句相邻关系、语篇关系等)。虽然这样会产生解析错误,但是可以通过增加邻接词之间的边允许实体之间的多条路径策略来缓解。

  • 全路径特征:每个全路径抽取四个二元指示特征,节点ni用词汇性质表示,这样做能带来高精度但是低召回率。
  • n-gram路径特征:提高鲁棒性和可概括性,对每个路径使用滑窗。
2.5 多路径

最短路径只有在正确解析的时候才有用,不然对结果有很差影响。当使用连续的词法和句法特征时,真实数据会存在大量噪声。采用多条路线来进行特征提取, 可以缓解错误并提高鲁棒性。文章并没有细讲。

2.6 评估

远程监督的评估主要有两种:

  • 将训练集中未使用的作为测试集,这会导致将错误示例认为是正确。
  • 从所有未标记文本中提取关系的数量,或使用人工标记的数据集。

你可能感兴趣的:(Distant Supervision for Relation Extraction beyond the Sentence Boundary)