命名实体识别系列(一)NER任务介绍

前言

博主为某校研究生,目前研二,经历过两段NER工作的实习,也投了一篇NER相关的论文。准备在今年(2021)开一个关于NER的系列博客,分专题由浅入深地从实践需求和学术论文等方面对NER做一个体系梳理。因个人能力和水平有限,并非该领域的资深专家,难免有不少疏漏和不妥甚至错误之处,恳请同行批评指正。注:以边学边做,边学边写的方法,对某些问题的理解会出现变化,因此所有文章都可能会随时更新调整。

命名实体识别任务

Q1:什么是命名实体识别?

首先需要对任务的相关概念、任务的目标有一个清晰的认识才能考虑解决的方法。

实体是什么?命名实体是什么?

实体(entity)指客观存在、并可相互区别的事物(https://baike.baidu.com/item/%E5%AE%9E%E4%BD%93/422661)。实体可以是具体的人、事、物,也可以是概念。

命名实体就是以名称为标识的实体。简单来说,如果我们听到一个名字,就能知道这个东西是哪一个具体的事物,那么这个事物就是命名实体。

在生活和生产中,到处有实体。如表1-1,是我们的生产和生活中经常遇到的命名实体和实体的类型。实体的类型是根据需求,人为定义的一种概念,用来区分命名实体的类别,以便区别对待和使用,常见的实体类型有人名、地名(有时候分为地理地名和政治地名两部分)、组织名、时间、产品名等等。

命名实体识别系列(一)NER任务介绍_第1张图片

在上述概念的基础上,命名实体识别(NER)就是要在文本中识别出命名实体。(挑战:为什么一定要在文本中?是不是所有的序列数据比如DNA序列都可以?或者视频也可以?)

命名实体识别主要分类,一般包括 3 大类(实体类、时间类和数字类)和 7 小类(人名、地名、组织名、机构名、时间、日期、货币和百分比)。但随着 NLP 任务的不断扩充,在特定领域中会出现特定的类别,比如医药领域中,药名、疾病等类别。同时,实体类型是根据需求人为定义的,这种定义可以是有层次的。例如,产品类是一个大类,下面可能会包含手机类、电脑类、照相机类等等。这种定义就是本体建模。本体是从schema的角度来定义(自上向下),而知识图谱则是从数据层(自底向上)来构建。对于领域或垂直行业的知识图谱,一般都需要有本体层。而实体可以定义为本体的某个概念的实例。有点像是类和对象的概念。

Q2:命名实体识别有哪些应用场景?

命名实体识别NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。

在搜索场景下,NER是深度查询理解(Deep Query Understanding,简称 DQU)的底层基础信号,主要应用于搜索召回、用户意图识别、实体链接等环节,NER信号的质量,直接影响到用户的搜索体验。

在问答系统中,当用户提出一个问题,要理解 query 的意图,NER也是必须的。

NER也可用于开发推荐系统的算法,自动过滤我们可能感兴趣的相关内容,并据此指导我们根据以前的行为发现相关和未访问的相关内容。这可以通过提取与我们的历史或以前活动中的内容相关联的实体,并将它们与分配给其他未公开内容的标签进行比较,以筛选相关的实体来实现。

在基于知识图谱的应用中,NER是基础工具。例如基于知识图谱的疾病智能诊断,需要使用NER工具识别出疾病名称、症状名称,然后系统才能进行推理诊断。

另外,作为基础的信息抽取工具,NER也可以直接用于抽取实体信息。举例来说,某用户发布的书籍推荐的视频,浏览者希望不观看就提取出视频中的书籍名称,这时候就需要用到NER工具识别书名。

 


 

 

 

你可能感兴趣的:(自然语言处理,命名实体识别,nlp,知识图谱)