文本标注工具BRAT的安装与配置

文本标注工具BRAT的安装与配置

因此博客是安装完成之后回顾下写的,所以没有配图说明,仅记录下安装步骤及出现的一些问题,具体安装路线如下:

1.win10下VirtualBox与Ubuntu的安装

BRAT安装须在unix-like环境下,而本机为win10系统,所以首先在win10下安装VirtualBox虚拟机与Ubuntu系统,此步骤无大坑。

[1]: 参考博客如下:在Windows系统下安装VirtualBox与Ubuntu的详细教程 https://blog.csdn.net/zcooa/article/details/80615743

2.BRAT的安装与使用

完成VirtualBox与Ubuntu安装后,在虚拟机中下载BRAT进行安装,链接如下:http://weaver.nlplab.org/~brat/releases/brat-v1.3_Crunchy_Frog.tar.gz

  • 1.解压(可手动,可命令行:tar -xzf brat-v1.3_Crunchy_Frog.tar),
  • 2.转到解压后的文件目录:cd brat-v1.3_Crunchy_Frog.tar
  • 3.运行安装程序:./install.sh –u
  • 4.接下来会要求你输入BRAT的登陆名、登陆密码、联系邮箱。
  • 5.安装完成后运行:python2 standalone.py(据说不能用python3,这个没试过)
  • 6.此时brat服务已经启动,在ubuntu中,直接用浏览器访问127.0.0.1:8001进入BRAT系统界面,点击右上角login输入之前步骤4中定义的登录名、密码,点击左上角collection选取要标注的文件即可进行标注,若标注中文还需如下操作:。
  • 为了让BRAT支持中文标注,在./server/src/projectconfig.py文件的第163行处,加上:

n = re.sub(u'[^a-zA-Z\u4e00-\u9fa5<>,0-9_-]', '_', n) 以支持中文。

  • 然后在配置文件annotation.conf中自定义垂直领域的各实体、关系等即可(原标注所定义的实体、关系等均为通用领域,故垂直领域(医疗、金融等)下需自定义类别)。

  • 此后每次启用BRAT时,只需在终端输入python2 standalone.py开启服务,然后用浏览器访问127.0.0.1:8001进入BRAT系统界面即可。

注意1:在导入要进行标注的txt文件时,必须符合:文件名.txt和文件名.ann 一一对应的格式,即每个原始文件都对应一个相应的.ann文件,可将包含txt数据集的文件夹放置到安装文件下一个data的目录下,然后使用如下命令:

find 文件夹名称 -name '*.txt'|sed -e 's|.txt|.ann|g'|xargs touch

意思是对文件夹下每个txt文件都创建一个空的标引文件.ann,因为BRAT是要求的collection中,每个txt文件都必须有一个对应的.ann文件,方便放置标引内容。

注意2:在BRAT安装使用期间,曾在终端报出如下错误:UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position 10: ord,解决方案是找到各个报错的.py文件,均在代码前添加如下代码即可:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

[2]: 参考博客如下:中文文本标注工具调研以及BRAT安装使用: https://blog.csdn.net/u014028063/article/details/89329306
Brat标注系统说明:
http://ws.nju.edu.cn/blog/2018/06/brat%E6%A0%87%E6%B3%A8%E7%B3%BB%E7%BB%9F%E8%AF%B4%E6%98%8E/

3.安装 virtualbox 增强功能以实现虚拟机与主机间文件共享:

网上有两种方法安装 virtualbox 增强功能:

方法1:使用虚拟机自带功能 - 安装增强功能来安装镜像

这种方法通过点击虚拟机最上部菜单栏中的 设备——安装增强功能 来实现增强功能的自动安装,但我在使用中总是出现 未能加载虚拟光盘 D:\VirtualBox\VBoxGuestAdditions.iso 到虚拟电脑 的错误,于是选用第二种方法,手动加载镜像。

方法2:手动选择虚拟光盘加载镜像

点击上部菜单栏的 设备——分配光驱——选择虚拟盘
选择virtualbox目录下的 VBoxGuestAdditions.iso,然后VBoxLinuxAdditions.run被自动mount到/media/wzx/VBox_GAs_6.0.8目录下,接下来复制文件:

cp /media/wzx/VBox_GAs_6.0.8/VBoxLinuxAdditions.run /tmp/VBoxLinuxAdditions.run

运行镜像安装脚本VBoxLinuxAdditions.run
转到temp目录: cd /tmp
运行安装命令:sh VBoxLinuxAdditions.run
此时我这里出现错误,跟参考博客上成功的示例不同,里边有一句报错: Please install the gcc make perl packages from your distribution.
搜索到的解决方案是输入命令:yum install gcc perl make
但报错:

没有已启用的仓库。
执行 "yum repolist all" 查看您拥有的仓库。
您可以用 yum-config-manager --enable <仓库名> 来启用仓库

原因:yum是centos中使用才可以,我这里使用的是Ubuntu,ubuntu默认软件包管理器不是yum,而是dpkg,安装软件时用apt-get,命令改为代码:sudo apt-get install gcc perl make即可,若执行命令时缺东西报错,按照提示下载安装即可。
再次运行命令 sh VBoxLinuxAdditions.run,此时安装脚本执行成功,提示重启虚拟机系统,在重启之前配置好共享文件夹,点击菜单栏 设备——共享文件夹——共享文件夹——添加共享文件夹,指定文件夹路径,文件夹名称最好为英文,我设置的文件夹为“commonfile”,选择自动挂载,固定分配,保存即可

重启虚拟机,此时发现虚拟机桌面上多了一个sf-commomfile,即代表共享文件夹配置完成。

但打开该文件夹提示 没有操作该文件夹的权限,原因为:从共享文件夹属性中可以看到,其所有者是root,所有组是vboxsf,所以文件管理去无法访问是正常的,解决方法是把你自己加入到vboxsf组里面命令如下:

sudo adduser wzx vboxsf

若操作需要root权限,转至root下执行即可
至此,virtualbox 增强功能安装成功,可实现虚拟机与主机间文件共享。以便BRAT标注文件在主机与虚拟机间的导入导出

[3]: 参考博客如下:安装 virtualbox 增强功能:
https://blog.csdn.net/qq_21165007/article/details/80344810
linux下 如何切换到root用户:
https://www.cnblogs.com/xinjie10001/p/6295020.html

你可能感兴趣的:(文本标注工具BRAT的安装与配置)