信息抽取的初步认识

关于信息抽取的初步认识

  • 信息抽取概述
    • 1任务
      • 1.1 命名实体识别
      • 1.2 实体消歧
      • 1.3 关系抽取
      • 1.4 事件抽取
    • 2 趋势

信息抽取概述

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。粗浅的来说它的任务是从大量数据中准确、快速地获取目标信息,并将其以结构化的形式储存起来,方便以后的分析和处理,从而提高信息的利用率概率。模型/分类器可以帮助实现这些任务。

1任务

  • 命名实体识别
  • 实体消歧
  • 关系提取
  • 事件抽取

1.1 命名实体识别

命名实体识别是信息抽取的基础,是第一步,也是必须的一步。
命名实体识别的主要任务是识别出待处理文本中七类命名实体,分别为人名、机构名、地名、时间、日期、货币和百分比。
在这七类当中,时间、日期、货币、百分比相对而言其构成具有很明显的规律,识别起来相对容易,但是剩下的三类由于用字灵活,所以识别难度很大。命名实体的内部构成和外部语言环境具有一些特征,无论何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征。

1.2 实体消歧

命名实体的过程中不免会出现一个实体对应多个实体的现象,简单的来说就是一个词语对应多个含义。实体消歧就是为了确定实体指称项所指向真实的实体。
针对方法的不同可以分为基于聚类的实体消岐和基于实体链接的实体消岐。

1.3 关系抽取

实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之问的语义关系,提取出有效的语义知识。其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。
其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。

1.4 事件抽取

作为自然语言处理中信息抽取的子任务, 事件抽取旨在从非结构化的文本中识别出预先定义的事件, 并判断其类型及参与者。由此产生的语义理解可应用于自动文摘、个性化新闻系统和金融分析等。
事件抽取通常被划分成两个子任务。即:事件触发词识别/分类及事件元素识别/分类。事件触发词识别/分类的目标是从候选文本中识别出触发事件的核心词 (通常为动词或者名词) 并判断其类型和子类型;事件元素识别/分类的目标则是从已识别的事件中标注事件的参与者及属性 (包括事件发生的时间、地点和人物等信息) 。

2 趋势

由于中文和英文的差异性,例如:中文词语在不同的语境中有不同的词性,以及复杂的句子结构,都导致在研究中文文本信息抽取的过程中无法将英语中信息抽取的那套方法直接移植过来应以中文处理分词和句法结构。基于单个句子的字符关系的判断总是不够准确。

注:这是本人第一次写博客,算是自己的学习笔记吧。本文的摘自多篇综述,加上了一些自己的叙述,如有侵权,或者叙述不当,请告知,非常感谢!!

你可能感兴趣的:(自然语言处理)