开源NLP标注工具及NLP数据集

https://www.i4k.xyz/article/weixin_44532659/105126051

开源NLP标注工具技术分享
数据堂 AI-Lab

一、什么是标注平台
自然语言处理标注工具是指通过可视化界面,以清晰、快捷的方式对文本数据进行标注的工具,该工具通常以系统形式展现,包含前端展示、后端系统与数据库三部分组成。

二、自然语言标注平台能做什么
文本分类(对文本类型进行划分,如情感分类、企业类型分类等)
命名实体识别(对文本实体进行标注,如人名、地名、实体名等等)
关系抽取任务(对文本中词关系,如主谓宾等,或因果关系等)
机器翻译任务(通过平行语料,构建翻译对)
其他NLP相关任务

三、标注工具汇总
doccano
Doccano是一个针对标注员的开源文本注释工具。它提供了文本分类、序列标记和序列到序列任务的标注功能。因此,您可以为情感分析、命名实体识别、文本摘要等创建带标签的数据。该标注工具支持多种语言,不会因为语言造成数据难以读取等问题,还能够自动进行线下学习

Doccano平台优势
合作标注:可以进行多人合作,分配标注任务。
语言独立性:你可以对任何语言的文本进行标注。在使用doccano的人群中,已知有英语,中文,日语,阿拉伯语,印度尼西亚语。
自动标注:对一个文本进行了一部分标注后,后台通过学习,能自动对文本进行标注,提高标注效率。

环境依赖:
Python 3.6
Django 2.0.5+
Google Chrome(highly recommended)

地址:https://github.com/chakki-works/doccano

YEDDA
YEDDA是一个针对实体类的开源文本注释工具。它提供了序列标记的标注功能。该标注工具一个轻量级但高效的文本边界(span)注释的开源工具。YEDDA为文本跨度标注提供了一个系统的解决方案,从协作用户标注到管理员评估和分析。它克服了传统文本注释工具效率低下的问题,通过命令行和快捷键对实体进行注释,这些实体可配置自定义标签。

该标注工具的优势在于
高效:它支持快捷方式和命令行模式,以加速注释过程。
智能化:为用户提供实时系统建议,减少重复标注。
为客户端程序,减少部署系统难度

环境依赖:
Python 3.4+

地址:https://github.com/jiesutd/YEDDA

Chinese-Annotator
该平台有几大特性,标注过程背后含有智能算法,将人工重复劳动降到最低此外,标注界面显而易见地友好,让标注操作尽可能简便和符合直觉。标注框架如下图所示,是一个较为完整的系统,包括前端、后台与数据库。

该标注工具的优势在于
主动学习算法,能够通过在线学习完成预识别工作
标注界面清晰明了,操作简便

环境依赖:
python3.6
virtualenv
mongodb

地址:https://github.com/deepwel/Chinese-Annotator

IEPY
IEPY是一个专注于关系提取的信息提取开源工具。举一个关系提取的例子,如果我们试图在以下位置找到出生日期:“约翰·冯·诺伊曼(John von Neumann,1903年12月28日至1957年2月8日)是匈牙利和美国的纯数学和应用数学家,物理学家,发明家和数学家。”IEPY的任务是将“John von Neumann”和“December 28, 1903”识别为“was born in”关系的主题和客体

该标注工具的优势在于
系统较为完整,有用户管理功能
主动学习算法,能够通过在线学习完成预识别工作

环境依赖:
Ubuntu
Python
Stanford CoreNLP
Java

地址:https://github.com/machinalis/iepy

DeepDive
Deepdive与IEPY类似,也是针对信息抽取类型任务的开源标注工具,deepdive非常适合信息抽取,是构建知识库的利器。能够基于词性标注、句法分析等通过各种文本规则实现实体之间关系的抽取,同时可面向异构、海量的数据。

该标注工具的优势在于
界面比较简洁,适合于大量关系抽取任务

环境依赖:
Ubuntu
Python
Stanford CoreNLP

地址:http://deepdive.stanford.edu

BRAT
NLP基本上都是监督学习,而监督学习需要海量人工标注的语料,越多越好。而标注文本是一个很繁琐的工作,有一个好用的工具会帮助很多。brat可以用于各种NLP任务,该工具是为实体识别和关系抽取设计的。brat服务器是一个Python程序,默认情况使用Ubuntu系统,网页浏览器使用谷歌Chrome。

该标注工具的优势在于
标注实体的同时可以进行关系的标注

环境依赖:
Ubuntu
Python
apache2

地址:https://github.com/nlplab/brat

标注工具对于数据生产任务至关重要,一个好的标注工具能够大大减少标注过程中出现的问题,减少标注人员出现的错误,提高数据生产效率与数据质量。

四、NLP数据

1万中文新闻语料标注
1 万条中文新闻事件标注数据,每篇新闻均包含一个或多个事件,对每个事件进行了标注。数据以xml格式存储,该数据可用于自然语言理解等任务。

27亿条社交评论类内容数据
社交评论类内容数据,总计约 27 亿条左右;其中会有部分重复内容;该数据可用于自然语言理解等任务。

5万条中文社交评论类句法标注数据
5万条中文社交评论类句法标注数据,进行依存句法标注,覆盖娱乐、财经、科技、时尚、体育、文化、社会等不同类别,数据可用于自然语言理解研究等任务,该数据可用于自然语言理解等任务。

你可能感兴趣的:(笔记,工具,NLP实战项目,自然语言处理,知识图谱,人工智能)