Doccano部署踩坑

项目地址:https://github.com/doccano/doccano

部署地址:http://:8901/

简介

doccano is an open source text annotation tool for humans. It provides annotation features for text classification, sequence labeling and sequence to sequence tasks. So, you can create labeled data for sentiment analysis, named entity recognition, text summarization and so on. Just create a project, upload data and start annotating. You can build a dataset in hours.

简单来说目前支持三种类型的标注:

  • 文本分类
  • 机器翻译
  • NER

下面截图中的Text to sql是被当作了一种机器翻译任务来做,但是实际中如果对于多个表格进行SQL标注可能会有很多不方便的地方

demo.gif

测试用用户名及密码

admin

  • 用户名:testadmin
  • 密码:testadmin_1432

普通用户

  • 用户名:test_user_1

  • 密码:test_password_1

  • 用户名:test_user_2

  • 密码:test_password_2

使用感受

  • 目前一个项目不能够对不同的标注着分配不同的任务,网友给出了一个二次开发示例(link)
  • 看issue比较活跃,目前是1.0版本,目测bug还是蛮多的,不过用起来还算流畅,而且界面比较美观

使用

注册新用户

需要设置正确的邮箱才能注册成功,测试公司的邮箱似乎收不到注册邮件,可以用其他的试试,然后会收到确认邮件,点击链接即可完成激活

image.png

项目管理界面(注:只有管理员权限的可以)

image.png

创建新项目

image.png

这里:

  • document classification对应文本打标签/文本分类
  • sequence labeling对应NER任务
  • sequence to sequenec对应机器翻译、Text to SQL等任务
  • speech to text

数据管理页面(以文本分类任务为例)

上传数据
image.png

注:这里可以直接选择Plain上传txt格式的数据,并且可以多次上传

标签管理
image.png
分配人员
image.png

数据标注

image.png

安装与配置踩坑记录

说明:已在个人服务器http://:8901/ 启服务,但是当时没有相关记录,因此重新在笔记本ubuntu子系统中进行配置并记录,有些内容则采用服务器的进行截图

ubuntu子系统:

DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=18.04
DISTRIB_CODENAME=bionic
DISTRIB_DESCRIPTION="Ubuntu 18.04.2 LTS"

通过python解释器启动

  1. 下载:doccano-master.zip,或通过git clone https://github.com/doccano/doccano.git

  2. 按照以下操作进行

    $ cd doccano/app
    $ pip install -r requirements.txt
    $ python manage.py migrate
    $ python manage.py create_roles
    $ python manage.py create_admin --noinput --username "admin" --email "[email protected]" --password "password"
    $ python manage.py runserver
    

一些坑

  1. 此项目是基于python3,python2会有一些包的版本冲突问题
  2. 在pip requirements的时候安装psycopg2遇到报错:Error: pg_config executable not found
    image.png

,则执行sudo apt-get install libpq-dev(参考link)

  1. (接上一步)再次pip会遇到这个问题src/pyodbc.h:56:10: fatal error: sql.h: No such file or directory:!

    image.png

    ,因此执行sudo apt install unixodbc-dev(参考link),然后再次进行pip

  2. 按照文档提示执行python manage.py 等指令后,在最后一步runserver起来服务后,访问127.0.0.1:8000会产生报错:

    image.png

    ,在终端也会显示报错FileNotFoundError: [Errno 2] No such file or directory: '/mnt/e/MyGitCode/doccano-master/app/server/static/webpack-stats.json',实际上我们还没有启动前端的服务...因此,我们需要进入doccano/app/server/static/中,执行npm install,完毕后我们需要执行npm run build,然后执行npm start,然后再启动mangage

  3. 如果遇到一个Error: Can't resolve 'vue-chartjs/es/mixins/reactiveProp'的错误,这时候我们需要执行npm install vue-chartjs chart.js --save(参考link)

  4. (重要)接4:为了让外部可以访问链接,可能需要修改:

    1. app/server/static/webpack.config.js的这些地方:

      image.png

    2. app/app/settings.py的这些地方:

      image.png

  5. 执行python manage.py runserver 0.0.0.0:8901,此时可以通过此url进行访问

  6. 如果在注册页面出现decode error,可能将/app/authentification/views.py的43行后面的.decode()注释掉

  7. 注册新用户需要邮箱认证,因此需要设置发送邮件的邮箱信息,在/app/settings.py的这里进行配置:

    image.png

    (参考:link, link)

你可能感兴趣的:(Doccano部署踩坑)