Discovering Relations among Named Entities from Large Corpora

Hasegawa T, Sekine S, Grishman R. Discovering relations among named entities from large corpora. In: Proc. of the Meeting on Association for Computational Linguistics. 2004. 415.

这篇文章是自然语言处理的经典文章之一,在 ACL 会议上首次提出了一种无监督的命名实体之间关系抽取方法. 读下老论文,补充下基础

Abstract:

1、意义:发现实体间重要关系的重要性
2、当前方法的缺点:需要大量的注释语料库,这需要花费大量时间和精力
3、解决方法:提出无监督的方法进行关系抽取
4、核心思路:根据介于命名实体间的上下文词的相似度对命名实体对进行聚类
5、效果:不仅命名实体之间的关系可以以高召回率和精确度被检测,而且可以为这些关系自动提供适当的标签

Conclusion

前面的一大段和abstract一样
优化方向:通过将本文的方法和Bootstrapping算法结合来发现出现频率较低的命名实体对的关系,并通过调整参数来改进本文的方法

Bootstrapping算法,指的就是利用有限的样本资料经由多次重复抽样,重新建立起足以代表母体样本分布的新样本。bootstrapping的运用基于很多统计学假设,因此采样的准确性会影响假设的成立与否。

Introduction

1、解决的问题:互联网搜索引擎不能给我们复杂问题的答案
2、例子:a list of recent mergers and acquisitions of com-panies” or “current leaders of nations from all overthe world”.
3、方法:If many rela-tions such as “Company A merged with CompanyB” embedded in those documents could be gathered and structured automatically, it would be very useful,not only for information retrieval but also for question answering and summarization.
4、个人理解:文本信息呈一定的规律结构可以实现自动收集构建,目前来看,感觉和类似基于规则的提取类似,没有提之后是如何聚类
5、缺点:领域限制。
6、本文方法的优点:不需要大量的注释语料库,不需要关系示例作为弱监督学习的初始信息
7、需要使用的东西:we only need a named entity (NE) tagger to focus on the named entities which should be the arguments of relations.
named entity (NE) tagger是这个玩意:

在这里插入图片描述

Prior Work

谈了下以前方法的局限性,这篇文章已经够老了2004年的,我就不看这部分了

Relation Discovery

基本思路:

1、在文本语料库中标记命名实体
2、获取命名实体及其上下文的同现对
3、度量命名实体对之间的上下文相似性
4、创建命名实体识别的集群
5、标记每个命名实体对的集群
Discovering Relations among Named Entities from Large Corpora_第1张图片
重要概念解释
We define the co-occurrence of NE pairs as follows:two named entities are considered to co-occur ifthey appear within the same sentence and are sep-arated by at most N intervening words.

命名实体同现(共现):如果两个命名实体出现在同一个句子中,并且被最多N个中间单词隔开,则它们被认为是共现的。
相似度计算:向量空间模型和余弦相似度,计算的对象事相同的命名实体类型,例如 one PERSON– GPE pair and another PERSON – GPE pair.

生成上下文向量之前,要进行消除停用词平行表达式中的词以及特定源文档特有的表达式。原因:这些表达式在计算相似性时会引入噪声

上下文向量的组成:命名实体同现对中间所有单词组成的一个单词组()
上下文向量的每个单词的权重:通过TF-IDF进行加权

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

相同的命名实体类型通过单词的顺序来检测关系的方向

通过设置阈值来解决如果上下文向量a的范数|a|由于缺乏内容词而非常小,则向量与其他向量之间的余弦相似度可能不可靠的问题

Discovering Relations among Named Entities from Large Corpora_第2张图片R查全率,P查准率,余弦相似度=1是两向量最相似,这张图俩向量的夹角a从180度到0度,cosa=0的时候a是90度,当a越小,两向量越相似,p越大,其他类推。F的最佳测量值就率高于0。

文章主要的东西感觉就这些吧,后面到时候看多了文章可以再过一遍,看看还有什么重要东西

conclusion

我们提出了一种从大型语料库中发现关系的无监督方法。其核心思想是根据命名实体之间上下文词的相似性对命名实体对进行聚类。使用一年的报纸进行的实验表明,不仅能够以高召回率和精确度检测命名实体之间的关系,而且能够自动为这些关系提供适当的标签。在未来,我们计划通过将我们的方法与引导相结合来发现频率较低的命名实体对,并通过调整参数来改进我们的方法

你可能感兴趣的:(深度学习,elasticsearch,大数据,big,data)