数据的获取与准备(笔记一)

一、开源数据集

常用数据集:

1.PASCAL VOC

2.COCO

3.CIFAR

4.MNIST

Minist 数据集为入门的手写识别数据集,一般作为入门练习用,堪称深度学习的“Hello World".Cifar 是专门用于分类的数据集,有两个版本,一个是10分类,另一个是100分类。VOC和COCO都可以用于分类、检测和分割。这两个数据集偏日常生活场景。

自动驾驶数据集:

1.Udacity

2.BDD100k

3.KITTI

4.Apollo Scape

百度刚开源的阿波罗数据集类别目前最丰富,适合中国道路实际场景。

各大领域公开数据集汇总:http://zhuanlan.zhihu.com/p/25138563

二、数据的爬取

爬虫部分分为图片爬虫和视频爬虫,首先说关于图片的爬虫,介绍三个爬虫,这三个爬虫将涉及Google、Bing、百度、微博上图片的爬取,以下是git地址:
(1)https://github.com/sczhengyabin/Image-Downloader
(2)https://github.com/kong36088/BaiduImageSpider.git

(3)https://github.com/yAnXImIN/weiboPicDownloader.git

先说第一个(1)https://github.com/sczhengyabin/Image-Downloader,这个爬虫的功能是可以爬取百度、Bing、Google上的图片,并且提供了GUI方便操作。使用起来也很方便,只需要根据该项目的readme配置适合自己电脑的环境就可以使用。使用方法是:python image_downloader_gui.py

三、数据标注平台与工具

所谓的标注就是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理(如标识发音人性别,判断噪音类型等),转换为机器可识别信息的过程。

下面介绍两个数据标注平台:一个是数据堂众包,另一个是亚马逊众包,都可对语音、图片、文本、视频进行加工处理,满足不同需求。

(1)数据堂众包

(2)精灵数据标注:

        与 Labelme 本质差不多,工具支持图像、文本和视频等多种标注形式:图像分类、矩形框、多边形、曲线定位、3D 定位文本分类、文本实体标注、视频跟踪等多个任务。另外可以通过插件形式支持自定义标注,满足不同需求,也可以导出主流数据集格式,PascalVoc 和 CoreNLP 等,一样是全平台支持。

四、数据清洗

数据清洗:把脏数据清洗掉,提高数据质量。 
Data cleansing, Data cleaning, Data scrubbing三种表达方式都可以,意思都是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声。 
数据清洗分为有监督清洗和无监督清洗两类。

  • 有监督清洗:在领域专家的指导下,收集分析数据,手工去除明显的噪声数据和重复记录,填补缺值数据等清洗动作;
  • 无监督清洗:根据一定的业务规则,预先定义好数据清洗算法,由计算机自动执行算法,对数据集进行清洗,然后产生清洗报告。
  • 一般都是先无监督清洗,产生清洗报告,再让专家根据清晰报告对清洗的结果进行人工整理


你可能感兴趣的:(数据的获取与准备(笔记一))