1.概述
该论文是哈尔滨工业大学硕士生刘安安的硕士学位论文,写作时间是2013年6月份,通过分析实体关系抽取的研究现状,提出中文实体关系抽取的意义重大,且提出了两种开放式中文实体关系抽取的方法,分别是面向句子的和面向互联网的,针对不同方法采用不同技术来实现,最后结合两者探索自动构建关系类型体系的相关方法。
论文正文目录如下:
第 1 章 绪论
1.1 课题来源
1.2 课题背景
1.3 研究目的和意义
1.4 关系抽取的研究现状
1.4.1 预测实体对之间的关系
1.4.2 挖掘特定关系的实体对
1.4.3 开放式实体关系抽取
1.5 本文的主要研究内容
第 2 章 面向句子的开放式中文实体关系抽取
2.1 引言
2.2 语料构建
2.3 有指导的开放式实体关系抽取
2.3.1 语料分析
2.3.2 先识别实体对的方法
2.3.3 先识别关系指示词的方法
2.4 实验结果及其分析
2.4.1 先识别实体对的方法
2.4.2 先识别关系指示词的方法
2.4.3 实验结果分析
第 3 章面向互联网的开放式中文实体关系抽取
3.1 引言
3.2 无指导的开放式实体关系抽取
3.2.1 预处理
3.2.2 生成候选三元组
3.2.3 生成关系指示词词表
3.2.4 后处理
3.3 实验结果及其分析
3.3.1数据及评价方法
3.3.2 结果及分析
3.3.3 错误分析
第 4 章开放式中文实体关系类型体系自动构建
4.1 引言
4.2 基于聚类的开放式实体关系类型体系自动构建
4.2.1 相似度计算
4.2.2 聚类
4.3 实验结果及其分析
4.3.1 数据与评价标准
4.3.2 结果与分析
第 5 章开放式中文实体关系抽取平台设计与实现
5.1 引言
5.2 句子级开放式实体关系抽取系统
5.3 开放式实体关系三元组查询系统
2.中英文摘要和关键词
实体关系是描述实体之间语义关系的重要途径。实体关系抽取是信息抽取任务中的重要环节,也有着广泛的应用前景。随着 Web2.0 的迅猛发展,人们对实体关系抽取提出了新的要求,以适应从快速增长的海量互联网文本中迅速准确地获取对用户有价值的信息。
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的。开放式实体关系抽取技术通过使用关系指示词描述关系的方法解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少。因此,针对不同的应用场景,本文提出了两种不同的开放式实体关系抽取法,并且探索自动构建关系类型体系的相关方法。
针对句子的开放式实体关系抽取问题,本文提出基于有指导的开放式实体关系抽取方法。首先,制定开放式实体关系抽取语料标注规范,并且构建开放式实体关系抽取语料库;然后,通过分析语料中的语言现象,制定了先识别实体对和先识别关系指示词两套方法,并且设计了泛化能力强的特征抽取方案。在开放式实体关系语料上测试的 F 值达到 61.41%。
针对互联网的开放式实体关系抽取问题,本文提出面向大规模网络文本的无指导开放式中文实体关系抽取(Un CORE:Unsupervised Chinese Open Entity Relation Extraction for the Web)方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对候选关系三元组进行过滤得到最终的关系三元组。在获取大量关系三元组的同时,还保证了 80%以上的微观平均准确率,满足实用要求。
本文使用基于关系指示词聚类的方法自动构建关系类型体系。基于 RNN-LM的关系指示词相似度计算方法和基于 How Net 的关系指示词相似度计算方法,尝试使用近邻传播聚类算法和层次聚类算法对关系指示词进行聚类。在 PER-PER实体对类型的关系指示词集合上实验,平均 F 值最高达到 64.25%。
最后,为了把本文的相关研究成果展示给研究人员,搭建了两个演示系统:面向句子的开放式实体关系抽取系统和开放式实体关系三元组查询系统。面向句子的开放式实体关系抽取系统从用户输入的自然语言文本中抽取关系三元组,并且把抽取结果以网页的形式展现。开放式实体关系三元组查询系统对从互联网文本中挖掘的大量关系三元组构建索引,用户输入查询的实体,系统返回该实体相关的关系三元组,并且以清晰直观的方式展示关系三元组。
关键词
开放式;实体关系抽取;关系三元组;关系指示词;关系类型体系
Entity relationship is an important way to describe the semantic relationships between entities. As one of the most important subtask of information extraction, entity relation extraction has wide application prospects. With the rapid development of the Web2.0, people put forward new requirements on the entity relation extraction to accommodate quickly and accurately obtaining valuable information on the rapid growth of massive web text for user.
Traditionally, Entity Relation Extraction (RE) methods required a pre-defined set of relation types. But it’s difficult to build a well-defined architecture of the relation types. Open Entity Relation Extraction (ORE) is the task of extracting relation triples from natural language text without pre-defined relation types. We propose two ORE methods to solve relation extraction on different application scenarios, and explore solutions to automatically build relation types.
This paper presents a supervised method to solve sentence-level ORE problem. The detailed criterion of annotation is established and a corpus which contains 1000 documents is annotated. By analyzing the linguistic phenomenon of the corpus, we design a domain-independent program to extract features. The average F-measure achieves 61.64% on the corpus.
This paper presents Un CORE (Unsupervised Chinese Open Entity Relation
Extraction for the Web), an unsupervised ORE method which is to discover relation triples from large-scale web text. Un CORE exploits word distance and entity distance constraints to generate candidate relation triples, and then adopts global ranking and domain ranking methods to discover relation words from the relation triple candidate. Finally Un CORE filters them by using the extracted relation words and some sentence rules. Results show that Un CORE extracts large scale relation triples at precision higher than 80%.
This paper proposes the relation-words-clustering-based method to build the relation types. First, we calculate the similarity between relation words based on RNN-LM or How Net, and then cluster the relation words by AP or HAC. Finally, we build a well-defined relation types.
At last, we design and implement a demonstration platform for users to extract relation triples from sentence and to search relation triple.
Keywords
Entity Relation Extraction, Relation Triple, Relation Word, Relation Types
3.结论
文章结论与个人总结
本文的主要创新点和贡献包括以下几个方面:
4.主要参考文献
- [1] 车万翔,刘挺,李生. 实体关系自动抽取. 中文信息学报. 2005,19(2):1-6.
- [2] 董静,孙乐、冯元勇. 中文实体关系抽取中的特征选择研究. 中文信息学报. 2007,21(4):80-91.
- [3] 王莉峰.领域自适应的中文实体关系抽取研究. 哈尔滨:哈尔滨工业大学硕士论文,2011.
- 论文下载
作者:Jasonhaven.D
链接:http://www.jianshu.com/u/ed031e432b82
來源:
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。