NER文本数据集标注爬坑

文章目录

  • 一. 数据标注方式
    • 1. BIO标注
    • 2. BIOES
  • 二. NER数据标注工具推荐
    • 1. Brat
    • 2. YEDDA
  • 更多标注工具
  • 注意

写在前面:本篇博客记录自己的研究方向在老板的乱七八糟的指挥下踏进了NLP的坑,并且在一段时间调研后发现老板定的方向没有公开数据集(呵呵呵呵~),然后自己苦逼的开始边学技术边搞数据,标数据真是苦不堪言…

一. 数据标注方式

目前,常用的序列标注方式有BIO和BIOES,两者形式上比较相近。

1. BIO标注

BIO方式主要将实体X标注为B-X,I-X,O的格式,B-表示实体的起始位置,I-表示实体的中间或结尾,O-表示不属于实体。

2. BIOES

BIOES近似于BIO的改进,主要将多元实体X标注为B-X,I-X,E-X的格式,B-表示实体的起始位置,I-表示实体的中间或结尾;一元实体则标记为S-X,;O-X表示X不属于实体。

二. NER数据标注工具推荐

这里推荐两个标注工具,一个是Brat,另一个是YEDDA。两个工具各有所长,可以按需选择。

1. Brat

Brat安装配置方式在我之前的博客( 标注工具Brat安装(本地) )中有讲过。
Brat的优点是可以在其可视化界面上对所需的实体类别及实体间关系进行标注,操作方便,标注快捷。但是,不足之处是,Brat仅支持Linux系统,该工具只能生成.ann后缀的标注文件,如需转换为上述常用的两种标注格式,则需要自己通过代码得到。

2. YEDDA

YEDDA(以前的SUTDAnnotator)开发用于在文本(几乎所有语言,包括英语,中文)快捷方式注释,可以非常有效地手动注释文本。用户只需选择文本范围并按快捷键,跨度将自动注释。它还支持命令注释模型,该模型批量注释多个实体。
个人觉得最方便的地方是YEDDA不仅可以导出如Brat中的.ann文件,而且默认支持将带注释的文本直接导出为BIO格式的序列文本,还可以通过配置导出其他标注格式的文本。而且该工具兼容所有主流操作系统,包括Windows,Linux和MacOS。

更多标注工具

见《推荐 | 中文文本标注工具Chinese-Annotator(内附多个开源文本标注工具)》,这篇文章附录提供了多种标注工具。

注意

不论哪种标注工具,导出的格式文档中难免会有一些错误,如标点符号的分割,换行的位置等。所以,大家在标注一部分数据后尽量都先冷静地检查一下数据中的错误,避免数据导入模型后效果不理想或出现未知的错误!!!

你可能感兴趣的:(自然语言处理,文本标注)