Relation Extraction : A Survey论文笔记

从产生的大量文本中获取信息,信息提取技术可以应用到question answering,

Question Answering, Information Retrieval would benefit from this information. 

实体组成信息的基本单元,实体之间通过关系进行连接。如下所示:

关系提取的任务自动的识别出上述关系。

RE(Relation Extration)

本篇论文,主要论述了监督,半监督,非监督的RE技术

信息提取:
信息提取的目标是从给定的文档库中提取中特定种类的信息,然后输出到一个结构库中(例如关系表或者XML文件)。

信息提取(information extraction)包括

Relation Extraction : A Survey论文笔记_第1张图片

用户从文档中提取的信息主要包括以下三类:

(1) named entities, (2) relations and (3) events.

本篇论文集中于关系。

A named entity (NE) is often a word or phrase that represents a specific real-world object.例子如下:
Barack Obama is a NE,

and it has one specific mention in the following sentence: Barack Obama is visiting India in January, 2015.. 

A NE mention in a particular sentence can be using the name itself (Barack Obama), nominal
(US President), or pronominal (he).

NE可以被分为以下种类:

人,组织,位置,数据,时间,电话,

其他通用的NE包括:电影标题、书名等,在精细的NER中,问题是要识别出具有层次结构的通用的NES;例如,人可以分为政治家、科学家、运动员、电影明星、音乐家等。
Domain-specific NE :

Named entity recognition(NER):命名实体识别(NER)是识别所有在给定的文件中提到(出现)一个特定的网元类型。

NER是一个在信息提取中重要的子问题。

关系表示在两个或更多的NE之间定义好的关系

关系的例子有:人与组织之间的成员隶属关系、产品与特征之间的关系、人与书名之间的作者关系等。例子:
关系提取的定义:Successful RE requires detecting both the argument mentions, along with their entity types chaining these mentions to their respective entities, deter- mining the type of relation that holds between them

关系提取面临的挑战:
首先,可能的关系有很多种,它们因领域而异。非二元关系面临着特殊的挑战。监督机器学习技术应用于重新面对缺乏足够训练数据的常见困难。关系的概念本质上是模棱两可的,关系的“含义”往往存在固有的模棱两可,这通常反映在注释者之间的高度分歧中。由于一种关系的表达在很大程度上依赖于语言,所以它使RE的任务也依赖于语言。我们调查的大多数工作都与英语有关,将这些技术扩展到非英语语言并不总是容易的。

 

你可能感兴趣的:(Relation Extraction : A Survey论文笔记)