命名实体识别(Named Entity Recognition,NER)

命名实体识别(Named Entity Recognition,NER)

命名实体识别(NER)其目的是识别语料中人名、地名、组织机构名等命名实体,识别文本中具有特定意义的实体。它是自然语言处理实用化的重要内容,在信息提取、句法分析、机器翻译等应用领域中具有重要的基础性作用。命名实体识别一 方面要识别实体边界,另一方面要识别实体类别(人名、地名、机构名或其他)。就汉语系统来讲,确定实体边界主要和分词相关,发现命名实体的基本方法,一般 首先找一些与定义相关的特征词,例如:什么是XX,XX是什么,这是XX。找到具有这样模式的查询串后,即可以在查询日志中通过频率统计等方法,找到命名 实体。这里重点讨论第二方面的内容,即类别识别。

之所以会用查询日志来进行命名实体的类别识别,是因为命名实体的类别并非是一个封闭集,而是一个不断变化着的集合。一个命名实体,随着时间的变化, 往往会具有不同的属性。以大家熟悉的"哈利·波特"为例,它开始是一部小说,然后又推出了同名的电影,后来还出了游戏,而这一过程是随着时间变化的,也就 是说在不同时间段,这些类别在用户查询需求中受关注程度是不一样的。(摘自博客)


跨语言命名实体识别(Cross-lingual Named Entity Recognition)

根据论文2017 EMNLP中“Learning how to Active Learn: A Deep Reinforcement Learning Approach”,基于强化学习设计主动学习算法,解决NLP中数据标记问题,由于Low-resource language标记十分难以获取,所以该算法先在源语言上学习选择策略,再转换到目标语言。使用跨语言命名实体识别来证明该算法。


你可能感兴趣的:(NLP)