Distant supervision for relation extraction without labeled data论文理解

Distant supervision for relation extraction without labeled data论文理解

论文作者:Mike Mintz, Steven Bills, Rion Snow, Dan Jurafsky

核心词汇:multiclass logistic regression classifier 多类逻辑回归分类器

named entity tagger 命名实体标记器

lexical 词汇的

syntactic 词法的

语义特征那里不是很明白

1、远程监督的思想

这篇论文首先回顾了关系抽取的监督学习、无监督学习和Bootstrapping算法的优缺点,进而结合监督学习和Bootstrapping的优点,提出了用远程监督做关系抽取的算法。

远程监督算法有一个非常重要的假设:对于一个已有的知识图谱(论文用的Freebase)中的一个三元组(由一对实体和一个关系构成),假设外部文档库(论文用的Wikipedia)中任何包含这对实体的句子,在一定程度上都反映了这种关系。基于这个假设,远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注,因此是一种半监督的算法

具体来说,在训练阶段,用命名实体识别工具,把训练语料库中句子的实体识别出来。如果多个句子包含了两个特定实体,而且这两个实体是Freebase中的实体对(对应有一种关系),那么基于远程监督的假设,认为这些句子都表达了这种关系。于是从这几个句子中提取文本特征,拼接成一个向量,作为这种关系的一个样本的特征向量,用于训练分类器。

2、预测方法

从数据库中提取包含目标关系对应的一个实体对的全部句子,分别计算这些句子的所有特征并拼接,然后再使用多类逻辑回归分类器训练判断。这样可以在一定程度上消除误差(并不是包含这两个实体就能体现这种关系)。

Distant supervision for relation extraction without labeled data论文理解_第1张图片

因为远程监督算法可以使用大量无标签的数据,Freebase中的每一对实体在文档库中可能出现在多个句子中。从多个句子中抽出特征进行拼接,作为某个样本(实体对)的特征向量,有两个好处:

一是单独的某个句子可能仅仅包含了这个实体对,并没有表达Freebase中的关系,那么综合多个句子的信息,就可以消除噪音数据的影响。

二是可以从海量无标签的数据中获取更丰富的信息,提高分类器的准确率。

此处可能存在误差,因此后续需要引入PCNN或CNN-RL等模型来消除误差。

原文描述:

3、分类器需要添加的特征

1、词法特征
Distant supervision for relation extraction without labeled data论文理解_第2张图片

2、句法特征

Distant supervision for relation extraction without labeled data论文理解_第3张图片

示意图如下:

Distant supervision for relation extraction without labeled data论文理解_第4张图片

其中最短依存路径这个概念并不是很熟悉。

3、命名实体标签特征
Distant supervision for relation extraction without labeled data论文理解_第5张图片

最终处理时需要将三种特征合并起来,由分类器自己训练得到权重。

主要参考博文链接:https://www.cnblogs.com/dhName/p/11727895.html

原论文地址:https://www.aclweb.org/anthology/P09-1113.pdf

你可能感兴趣的:(NLP)