从0基础入门NLP自然语言处理系列之命名实体识别(一)

什么是命名识别识别?

命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。

比如识别出下面句子中的人名(PER),地点(LOC),组织(ORG)

公开训练数据集
首先让我们来看看常见公开数据集

CoNLL 2003(https://www.clips.uantwerpen.be/conll2003/ner/)
这个数据集包括1393篇英语新闻文章和909篇德语新闻文章。英语语料库是免费的,德国语料库需要收钱(75美元)。英语语料实际上是RCV1(Reuters Corpus, Volume)

数据集的使用方式以及如何进行NER训练将下一章节《从0基础入门NLP自然语言处理系列之命名实体识别(二)》详细描述。

关注公众号“源码评测”,获取更多开源实战项目

你可能感兴趣的:(AI)