1.2-跟李沐学Al【斯坦福21秋季:实用机器学习中文版】

1.2 数据获取

  • 1、找数据和融合不同数据
    • 寻找哪些数据可用
    • 常见机器学习数据集来源
    • 去哪找数据?
  • 2、数据融合
  • 3、数据生成
  • 总结

1、找数据和融合不同数据

寻找哪些数据可用

大的深的神经网络需要更大数据集。
做产品并不会有很多现成数据集,这就需要搜集数据,进行数据采集。

常见机器学习数据集来源

MNIST:手写数据集
ImageNet:从图片搜索引擎搜集的数据集
AudioSet:YouTube声音片段数据集
Kinetics:YouTube视频片段数据集
KITTI:无人驾驶数据集
Amazon Review:亚马逊用户评论
SQuAD:来自维基百科的问答
LibriSpeech:有声读物

去哪找数据?

Paperwhithcodes Dataests:学术数据集,经过清洗难度适中,选择面小不适合做产品
Kaggle Datasets:数据科学家提供的数据集
Google Dataset search: 数据搜索引擎
工具包数据集:tensorflow,huggingface
各种会议/公司ML竞赛开放数据
Oen Data on AWS:很大的原始数据

2、数据融合

  • 将来自多个数据源的数据合并到一个一致的数据集
  • 产品数据通常存储在多个表中,例如房屋信息表、销售数据表、销售代理数据表
  • 通过键连接表
  • 关键问题:识别ID、缺失行、冗余列、值冲突

3、数据生成

  • GAN
  • 数据增强(Data augmentation)

总结

  • 找到正确的数据是一个挑战
  • 工业数据VS学术数据
  • 数据集结合了多个数据源的数据
  • 数据增强很常见
  • 数据合成越来越流行

你可能感兴趣的:(跟李沐学AI2021机器学习,深度学习,机器学习)