文本标注工具doccano安装及使用

介绍

doccano是documment anotation的缩写,是一个开源的文本标注工具,我们可以用它为NLP任务的语料库进行打标。它支持情感分析,命名实体识别,文本摘要等任务。
它的操作非常便捷,在小型语料库上,只要数小时就能完成全部的打标工作。

安装与配置(windows环境下)

在命令行窗口输入如下命令,即可安装doccano:

pip install doccano

初始化数据库:

doccano init

初始化数据库时,可能会出现一些错误,所以需要先确认如下信息:

  • python版本
    若python版本低于3.8,初始化数据库时将会出现以下报错,typing.Literal仅适用于 Python 3.8 及更高版本。
ImportError: cannot import name 'Literal' from 'typing'

解决办法:

  1. 更新python版本到3.8
  2. 安装typing_extensions:
pip install typing_extensions

在models.py文件中做如下修改

#文件路径:python安装路径/Lib/site-packages/backend/api/models.py
#原:
from typing import Literal
#修改为:
from typing_extensions import Literal
  • django版本
    若django版本低于3.1.0,初始化数据库时会出现以下报错:
AttributeError: module 'django.db.models' has no attribute 'JSONField'

解决方法:

  • 更新django版本到3.1.0
pip install --upgrade django==3.1.0
  • 缺少psycopg2包
ModuleNotFoundError: No module named 'psycopg2'

安装psycopg2包即可

pip install psycopg2
  • 其他问题
    完成上述操作后,初始化数据库仍有如下报错,主要是因为SQLite不支持JSONFields
api.AutoLabelingConfig: (fields.E180) SQLite does not support JSONFields.

在sqlite官网下载对应的DLL压缩包,用压缩包内的sqlite3.dll替换如下路径的sqlite3.dll:

python安装路径/DLLs/sqlite3.dll

再次尝试初始化数据库

doccano init

创建一个超级用户:

# admin为用户名,可自行修改
# pass为密码,可自行修改
doccano createuser --username admin --password pass

启动doccano

在一个命令行窗口启动webserver:

doccano webserver --port 8000

在另一个命令行窗口,启动任务队列:

doccano task

doccano的使用

在浏览器地址栏输入localhost:8000即可访问
使用教程参考:如何使用文本标注工具doccano

你可能感兴趣的:(序列标注,机器学习)