NER --关系抽取总结

1、关系抽取概述

NER --关系抽取总结_第1张图片

2、关系抽取分类

NER --关系抽取总结_第2张图片

3、常用关系抽取方法

NER --关系抽取总结_第3张图片

关系抽取面临的挑战
NER --关系抽取总结_第4张图片

(1)基于规则的关系抽取
NER --关系抽取总结_第5张图片

命名实体标签:
NER --关系抽取总结_第6张图片
人工规则优缺点:
NER --关系抽取总结_第7张图片

(2)有监督关系抽取
NER --关系抽取总结_第8张图片
常用特征工程:
NER --关系抽取总结_第9张图片
词汇特征:
NER --关系抽取总结_第10张图片
句法特征和其他特征:
NER --关系抽取总结_第11张图片

**基于Bootstrapping的关系抽取 **
关系抽取可能存在以下问题(大部分情况适用):
1)没有足够标注数据
2)可能有一些种子 实体对
3)可能有一些非常好的pattern
基于以上情况,由以下主要流程进行关系抽取:
NER --关系抽取总结_第12张图片
示例1:
NER --关系抽取总结_第13张图片
示例2:
NER --关系抽取总结_第14张图片
主要步骤如下:
步骤一:
NER --关系抽取总结_第15张图片
步骤二:
NER --关系抽取总结_第16张图片
NER --关系抽取总结_第17张图片
步骤三:
NER --关系抽取总结_第18张图片
步骤四:
NER --关系抽取总结_第19张图片

Bootstrapping关系抽取中容易出现语义漂移,再迭代过程中会引入噪音实例和模版。所以每一步都需要人工参与。
NER --关系抽取总结_第20张图片

Bootstrapping-语义漂移解决办法:
NER --关系抽取总结_第21张图片

远程监督概述
基本假设:若一个实体对再知识库中存在某个关系,那么包含该实体对的所有句子都以某种方式表达该关系。
如果要用远程监督的方法,首先看数据库中的数据是否满足这样的前提。
例如:
NER --关系抽取总结_第22张图片
远程监督构造过程:
NER --关系抽取总结_第23张图片
优点:
(1)减少人工标注代价
(2)可扩展性:可以使用大量未标记的数据
缺点:
(1)训练语料库含有大量标错的噪声
(2)没有严格合理的负样本用于训练

基于远程监督的关系抽取方法:
NER --关系抽取总结_第24张图片
实例一:
NER --关系抽取总结_第25张图片
实例二:(注意力机制)
NER --关系抽取总结_第26张图片

4、开放式关系抽取

基本方法:
NER --关系抽取总结_第27张图片
步骤:(三步)
NER --关系抽取总结_第28张图片
实例:
NER --关系抽取总结_第29张图片

你可能感兴趣的:(NLP)