关系抽取--远程监督

在关系抽取这个领域有很多方法包括监督学习方法和半监督学习方法,本文介绍的远程监督是属于半监督学习的一种方法,远程监督是为了解决标注语料少这个问题而产生的,远程监督最早是由M Mintz 于 ACL2009 上提出,随着人工智能的发展,近些年来远程监督也通过机器学习而进一步得到了发展。

  我们知道大量的人工标注的语料是很难得到的,所以远程监督采取的是通过KB去对齐朴素文本的标注方法。KB当中有很多三元组代表着实体和其之间的关系,就是类似(周瑜,小乔,夫妻)这样的关系元组,我们大胆的假设只要在一句话中出现了关系实体对那么就将这个句子的关系归到实体对所对应的关系上,例如在句子“周瑜很爱小乔”中我们识别到了实体“周瑜”和“小乔”并且可以和KB中的元组对应我们就把这句话当中的关系规定为“夫妻”。

  那么随即而来这样也产生了一些问题比如这样的归类太过于绝对,很多句子中的实际关系和KB中所定义的关系是不一样的,比如“乔布斯爱吃苹果”这句话中乔布斯和苹果之间的关系就与KB中乔布斯和苹果(公司)的关系不同,这样会影响最终结果的精度,这就是所谓的噪声问题。

  通常情况下为了解决噪声问题我们采取的是多示例学习的方法,多示例学习就是将每一个关系三元组打成一个包,包里包含着所有含有两个实体的句子,我们认为这一个包里的句子至少有一个表示着三元组中的关系,起初的学习过程是给每个句子打分选择分数高的句子来作为关系的代表。之后有学者提出用句子级Attention机制来综合考量每个句子对关系的贡献程度,取得了比之前更好的效果。

  在这里只是简单地介绍一下远程监督的原理,之后还会介绍关于远程监督的发展和一些实现。

你可能感兴趣的:(远程监督,远程监督,关系抽取,NLP)