【论文笔记】Liberal Entity Extraction: Rapid Construction of Fine-Grained Entity Typing Systems

文章目录

    • Introduction
    • Approach Overview
      • Representation Generation
        • General Entity representation
        • Specific context representation
        • Knowledge representation
      • Joint Linking, Hierarchical Typing, and Naming
        • Hierarchical typing

#Liberal Entity Extraction: Rapid Construction of Fine-Grained Entity Typing Systems

没有预先定义entity类型,能够自动的识别并标注entity的类型是比较大的挑战,现有的工作有场景限制。

本文提出无监督的entity标注框架。学习以下三种信息

  • 通用的语义表征
  • 特殊的上下文表征
  • 基于知识库的知识表征

开发的框架 使用hierarchical clustering和linking算法去typing这些mention。

不需要标注的数据,预定义的type范式,或者特征。

Introduction

主要就是讲述了IE,现有的IE主要集中在closed domain的IE。需要改变成open domain的IE。

先前的open-domain IE主要集中在一小堆粗粒度的类型。例如MUC-7

缺乏拓展能力和方便。

考虑到这些,开发了Liberal IE模型,输入为随意的corpus,输出包含一个可变的type hierarchy,有多级粒度,并且针对输入的语料库做了定制化处理(不同语料库不同呗)。

Liberal IE可以自动发现细粒度的entity类型

文章针对不同的情况,作出了不同的假设:

1. 常见entity type被general的语义表示

2. 不常见的类型被特定的context表征

3. 领域特定的entity极度依靠领域内的知识

Approach Overview

基于entity linking和分布的语义表征。能够自动发现细粒度的entity types

学习上述所说的三种类型的表征,并对每一个mention输出他的类型。

【论文笔记】Liberal Entity Extraction: Rapid Construction of Fine-Grained Entity Typing Systems_第1张图片

这篇文章可能写的也比较的liberal。

Representation Generation

General Entity representation

基于general lexical embedding(不就是word embedding吗…

Continues Skip-gram 模型训练出的 unlabeled in-domain的数据集。

Specific context representation

需要用到特定上下文的信息来进行句子中的语义表征。

所以这里使用Abstract Meaning Representation(AMR) 对句子进行解构,获取出一些特殊的句子成分,挑选8个句子成分之后,使用这些成分的general word embedding进行一个encoder和decoder。最终得到specific的representation。

【论文笔记】Liberal Entity Extraction: Rapid Construction of Fine-Grained Entity Typing Systems_第2张图片

Knowledge representation

这一部分主要是使用领域和语言无关的entity linking系统,去将mention链接到KB上,从而决定哪一个知识表征是合理的。

用的是graph embedding Line的那一篇文章,在这里我将其理解为一个存储了链接信息的一个embedding,不是word embedding。

如果一个mention不能被链接,那么会随机生成一个vector,并且将所有相似的mention都设置为这个vector。

Joint Linking, Hierarchical Typing, and Naming

Hierarchical typing

有了上述的三种encoding,concate起来之后,接下俩用X-means进行聚类,X-means可以看作K-means的拓展,有这些好处:

  1. 速度比较快
  2. 自动估计聚类数量

具体的聚类方法是通过linkable mentions来进行聚类,

聚类好了之后,通过linkable的mention的type path,来选择最佳的fine-grained的entity type

根本就不是全新的发现的type,还是在别的KB里面找过来的。佛了。

所以作者的意思应该是,针对这一个specific的corpus,我们从别的KB中找到了对应的type。然后和hierarhical聚类算法对应的type从上到下,组建了一个type hierarchy。

我直接昏厥

你可能感兴趣的:(深度学习,神经网络,自然语言处理)