Doccano是一种用于文本标注的开源工具,旨在简化和加速标注任务的进行。它提供了一个直观的用户界面,使标注人员能够轻松地对文本数据进行标注,并创建高质量的训练数据集用于机器学习和自然语言处理任务。
以下是Doccano的一些主要特点和功能:
doccano的安装:
pip install doccano
doccano的初始化配置:
# 初始化数据库
doccano init
# 创建超级用户,改成自己的用户名和密码
doccano createuser --username admin --password 123456
# 启动web服务端
doccano webserver --port 8000
打开网页,输入网址:
http://127.0.0.1:8000/
登录:使用刚才创建的账号密码来登录
创建项目时选择序列标注任务,并勾选Allow overlapping entity及Use relation Labeling。适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务。
导入数据
NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,UIE定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。
上传文件:将文件拖入,点击左下角导入。
注意:导入文件的过程中,碰到一直在加载中的问题。
解决方法:再开一个窗口,输入命令doccano task,开启任务窗口即可。
上传完成后我们可以看到文本已经被添加到项目中去,现在我们对文本进行打标:
抽取式任务包含Span与Relation两种标签类型
以下为添加标签的界面:添加标签即填写名字,key:选择快捷键,最后选择颜色。
任务标注:点击右侧按钮开始进行标注。
实体标注:直接用鼠标选取文本即可标注实体。
数据导出: 数据导出,选择文件类型为JSONL。
导出数据如下图所示:
{"id":1,"text":"深大到双龙28块钱4月24号交通费","entities":[{"id":1,"label":"出发地","start_offset":0,"end_offset":2},{"id":2,"label":"目的地","start_offset":3,"end_offset":5},{"id":3,"label":"费用","start_offset":5,"end_offset":9},{"id":4,"label":"时间","start_offset":9,"end_offset":14}],"relations":[],"Comments":[]}
参考文章:
GitHub.
如何使用文本标注工具——doccano?.
参考文档.
真的好热。