NLP学习——信息抽取

信息抽取

自动从半结构或无结构的文本中抽取出结构化信息的任务。常见的信息抽取任务有三类:实体抽取、关系抽取、事件抽取。

1、实体抽取

从一段文本中抽取出文本内容并识别为预定义的类别。

NLP学习——信息抽取_第1张图片
实体抽取任务中的复杂问题:
  1. 重复嵌套,原文中多个实体之间共享片段
  2. 不连续,一个实体由多个不连续片段组成

2、关系抽取

从文本中抽取一对实体和预定义的关系类型。
传统的关系抽取任务实现方案是先进行实体抽取,再输入头尾实体与原文进行关系分类。

简单关系抽取解码设计
NLP学习——信息抽取_第2张图片
关系抽取任务中的复杂问题:
  • 关系重叠,一个实体属于多个关系
  • 实体对组合,实体对有多重组合方式
针对关系重叠问题的解码设计
NLP学习——信息抽取_第3张图片
针对实体对组合问题的解码设计
NLP学习——信息抽取_第4张图片
综合解决上述问题的解码设计
NLP学习——信息抽取_第5张图片

3、事件抽取

从一段文本中抽取出预定义的事件触发词和事件要素。
在实际使用的过程当中,我们可以把除了关系以外的所有复杂信息全部拆解成关系抽取来解决事件抽取问题。

事件抽取是信息抽取的难点问题

事件抽取依赖实体抽取和关系抽取;
目前对事件还没有统一的定义,在不同领域针对不同应用不同人对事件有不同的描述;

信息抽取中事件的定义

事件:是发生在某个特定的时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事件或者状态的改变。
事件类型: 不同动作或者状态的改变代表不同类型的事件;
事件元素: 同一类型的事件中不同的时间、地点、元素代表了不同的时间实例;

参考:
1、https://blog.csdn.net/qq_40671063/article/details/123693613
2、https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedType=1&sharedUserId=151203&ts=1675913362694

你可能感兴趣的:(NLP基础,学习)