Ubuntu16.04下基于BERT预训练的中文命名实体识别

开始之前,需要先明确中文命名实体识别这个任务是在做什么,以及数据集标注的格式。

命名实体识别(英语:Named Entity Recognition,简称NER,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等,以及时间、数量、货币、比例数值等文字。

以数据标注来举例:

美	B-LOC
国	E-LOC
的	O
华	B-PER
莱	I-PER
士	E-PER

我	O
跟	O
他	O
谈	O
笑	O
风	O
生	O 

它的每一行由一个字及其对应的标注组成,标注集采用BIOES(B表示实体开头,E表示实体结尾,I表示在实体内部,O表示非实体),句子之间用一个空行隔开。 

项目地址:

https://github.com/ProHiryu/bert-chinese-ner (预训练的bert当作特征提取器,然后直接分类)

 

 

 

你可能感兴趣的:(编程学习)