Doccano是一款开源的标注工具,用于自然语言处理和机器学习任务。它提供了用户友好的界面,使用户能够轻松地标注文本、序列标注、文本分类和文本配对等任务。doccano支持多种标注格式,并且可以方便地与其他机器学习工具集成。它的简单性和灵活性使得它成为研究人员和开发者的理想选择。下面我们来看下如何使用工具~
Github-doccano
我们可以通过拉取docker镜像快速完成部署
docker pull doccano/doccano
docker container create --name doccano \
-e "ADMIN_USERNAME=admin" \
-e "[email protected]" \
-e "ADMIN_PASSWORD=password" \
-v doccano-db:/data \
-p 8090:8000 doccano/doccano
docker container start doccano
可以看到后台已经正常运行起来
docker ps
http://xx.xx.xx.xx:8090
使用上文中设置的账号密码就行登录
如果没有数据可以下载
CLUE Fine-Grain NER
的数据集 。这个数据集是在清华大学开源的文本分类数据集THUCTC基础上,选出部分数据进行细粒度命名实体标注,原数据来源于Sina News RSS.下载链接如下
样例数据下载
导入json数据
查看待标注数据
因为我需要做用户个人信息的识别,所以生成了
银行卡
、身份证
、QQ号
等信息
滑动文本标注内容,接下来就是漫长的达标工作。