机器学习_数据获取

文章目录

  • 数据获取
    • 1.一些常见的机器学习现成数据集
    • 2.从哪获取数据集
    • 3.生成数据
    • 4.其他方法

数据获取

1.一些常见的机器学习现成数据集

MNIST:手写数据集
ImageNet:图片数据集,从图片搜索引擎上获得
AudioSet:音频数据集,youtube上的音频切片
Kinetics:人类行为数据集,youtube上的视频切片
KITTI:无人驾驶数据集,被相机记录到的一些交通场景
Amazon Review:评论数据集,亚马逊网站上的一些用户评论
SQuAD:问答数据集
LibriSpeech:有声读物数据集

2.从哪获取数据集

1.Paperswithcodes Datasets
2.Kaggle Datasets
3.Google Dataset search
4.tensorflow、sklearn
5.各种会议、公司的机器学习竞赛
6.Open Data on AWS
7.自己公司或者组织的data lakes

优点 缺点
学术数据集 干净、难度适中 选择太少,太简单,通常规模很小
竞赛数据集 接近真实的机器学习应用 简单,只有一些热点话题的数据集
原始数据集 灵活性很强 需要花费很大力气进行处理

3.生成数据

  1. 使用生成对抗网络
  2. 数据增强
    对数据PS,例如:加噪音,旋转等

4.其他方法

  1. 爬虫
  2. 去现实生活中采集

你可能感兴趣的:(深度学习和机器学习(一些笔记),机器学习,人工智能,深度学习)