介绍| 深度学习数据集标注工具

一、NLP标注工具BRAT

BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行命名实体识别任务的标注例子。 
WeTest舆情团队在使用:http://wetest.qq.com/bee/ 
使用案例:http://blog.csdn.net/owengbs/article/details/49780225

介绍| 深度学习数据集标注工具_第1张图片

介绍| 深度学习数据集标注工具_第2张图片 

.


二、VS标注工具——LabelImg

1、PyQt

用 PyQt 写的, 很轻量, Linux/macOS/Windows 全平台均可运行. 
工具github网址:https://github.com/tzutalin/labelImg 
知乎介绍网址:有图像标注工具推荐或者分享吗? 
介绍| 深度学习数据集标注工具_第3张图片

介绍| 深度学习数据集标注工具_第4张图片

2、Vatic

参考:人工智能AI工具-视频标注工具vatic的搭建和使用 
视频标注工具vatic,Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频,支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。

网址:http://web.mit.edu/vondrick/vatic/

Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频,支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。除此之外,其还有很多实用的特性: 
1.简洁使用的GUI界面,支持多种快捷键操作 
2.基于opencv的tracking,这样就可以抽样的标注,减少工作量 
具体使用时,可以设定要标注的物体label,比如:水果,人,车,等等。然后指派任务给到众包平台(也可是自己的数据工程师)。现阶段支持的标注样式是框(box)。一个示例,下图标注了NBA直播比赛中的运动员 
 

.3、BBox-Label-Tool

介绍| 深度学习数据集标注工具_第5张图片
.

4、图像标注VS2013项目

有人自己写了一个版本: 
打框的代码(c++)我封装成了dll,下载地址:图像标注VS2013项目 (我的环境是win7vs2013旗舰版,win8 win10好像不能运行)

别人封装的opencv动态库,现在修改为opencv2.4.10,64位,vs2013,按网上教程配置好opencv,资源地址: 
图像标注EXE-2016-10-18 
上面的代码好像忘写操作说明了,这里写一下: 
(1)图片显示出来后,输入法切换到英文; 
(2)在目标的左上角按下鼠标左键,拉一个包围框到目标右下角,然后键盘输入标签(一个字符) 
(3)继续(2)操作,直到框完该张图片上的目标; 
(4)按n进入下一张,esc退出。 
注意:标签只能输入一个字符,你可以在生成的txt文件中替换成你实际的标签。 
.

5、Yolo_mark

YOLO V2 准备数据的图形界面目标边界框标注工具 AlexeyAB/Yolo_mark 
.

6、视频标注工具

CDVA(compact descriptor for video analysis),主要是基于CDVS中的紧凑视觉描述子来做视频分析,之前是紧凑视觉描述子主要应用在图像检索领域。需要制作新的数据集,对视频帧进行标注,所以根据网上一个博主的标注工具进行了一定的修改,实现的功能是在每一帧中将需要标注的区域用鼠标选取4个点,顺序是顺时针。因为四边形的范围更广,之前的一些人直接标注了矩形,但是在一些仿射变换中,往往矩形的定位效果不好,矩形定位应该比较适合于人脸定位和行人定位之中。 
http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html

.


三、Amazon’s Mechanical Turk 离线工作框架

一个开源的Amazon’s Mechanical Turk 离线工作框架,基于Django搭建的 
github网址:https://github.com/hltcoe/turkle 
.


四、用已训练来进行图像标注

《使用深度学习和Fisher向量进行图片标注》(paper)

主讲人Lior Wolf,特拉维夫大学的教员在一次伦敦深度学习会议上的一次公开演讲: 
为了实现图像标注和搜索,他们最开始用CNNs将图片转换成向量,用Word2Vec将词语转换成向量。大部分研究工作都集中于如何将词语向量结合到语句向量之中,由此产生了基于Fisher向量的模型。一旦他们得到了语句向量,他们使用典型相关分析(CCA)将图片表示和语句表示投射到同一空间里,使图像和句子可以匹配,找到最近邻的部分。

参考自博客:2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享 
.

五、snape

人工数据集生成工具,来看一段有趣的独白:

Snape is primarily used for creating complex datasets that challenge 
students and teach defense against the dark arts of machine learning.

专门是针对机器学习领域自动生成数据集。 
安装: 
Via Github

  1. git clone https://github.com/mbernico/snape.git

  2. cd snape

  3. python setup.py install

你可能感兴趣的:(深度学习)