关系抽取简介

序言

关系抽取 (Relation Extraction, RE) 是从自然语言文本中抽取实体及其之间关系的信息技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。关系抽取任务涉及命名实体识别、指代消解、关系分类等复杂技术,极具挑战性。

什么是关系抽取

信息抽取是从海量的非结构外的文本中抽取出有用的信息,并结构化成下游工作可用的格式。关系抽取是其重要的子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。
举例
{
“text”: “《邪少兵王》是冰火未央写的网络小说连载于旗峰天下”,
“spo_list”:
[{“predicate”: “作者”,
“object_type”: {"@value": “人物”},
“subject_type”: “图书作品”,
“object”: {"@value": “冰火未央”},
“subject”: “邪少兵王”}]
}
上述是百度2020年语言与智能技术竞赛:关系抽取任务中的一个例子,通过给定的文本,识别出其中的主实体为邪少兵王,客实体为冰火未央,主实体和客实体的关系为作者,s的p是o,则抽取出上述的spo三元组。

如何进行关系抽取

第一步 数据分析

首先对拿到的数据进行数据分析,包括统计每个句子的长度及三元组数量,每种关系的数量分布情况。
举例:对百度关系抽取比赛进行数据分析得到三元组的数量分布和三元组关系分布
关系抽取简介_第1张图片
关系抽取简介_第2张图片

第二步 序列标注模型

预测句子中的实体,我们将句子中的主体和客体作为实体,分别标注为SUBJ和OBJ,标注体系采用BIO。一个简单的标注例子如下:
关系抽取简介_第3张图片
BIO标注:将每个元素标注为“B-X”,“I-X”或“O”。
“B-X”:表示此元素所在的片段属于X类型并且此元素在此片段的开头。
“I-X”:表示此元素所在的片段属于X类型并且此元素在此片段的中间位置。
“O”:不属于任何类型。

第三步 关系分类模型

实体加上句子,进行分类,预测实体间的关系,最后形成有效的三元组。

你可能感兴趣的:(NLP)