深度学习数据集怎么找?

人工智能的无名英雄就是数据,许多许多标注或未标注的数据。研究部门和公司也都认识到数据民主化是加快人工智能的必要步骤。事实上,我们很难用一篇文章来说明哪些开放数据集是有用的,那么深度学习数据集怎么找?本文介绍了我在深度学习科研中(不是工程实践)寻找数据集的方法。仅供参考,欢迎指正。

深度学习数据集怎么找?

这个问题可以等价为:如何判断一个数据集是否合适使用?

深度学习数据集怎么找?_第1张图片

通常“找数据集”和“找课题、方向”是相辅相成的(如果希望自己的代码有横向对比)

1.确定大致方向

2.浏览一下该方向最知名的数据集的形式

3.确定一个具体方向,并保证至少有一个数据集可用

  • 何为可用?
  • 数据量是否够大
  • 数据集是否够新(5年内,除非是理论研究)
  • 是否足够多人使用(论文)
  • 数据采集是否合理
  • 标注格式是否好用
  • 问题场景是否满足研究要求
  • 数据是否可以下载

4.寻找更多的数据集,当有3个或更多数据集的时候

  • 判断其他课题是否已经使用其中的数据集,尽量选择共同数据集
  • 判断数据集的标注是否支持更多的任务,尽量选择多任务数据集
  • 判断实验室的算力和自己算法的性能是否可以驱动这个数据集
  • 判断哪个的问题场景最贴切
  • 判断数据集近年来的指标上升速度是否够快(10%+/年是理想状态,5%+/年则可做,新数据集也可做)

免费分享一些我整理的人工智能学习资料给大家,包括一些AI常用框架实战视频、图像识别、OpenCV、NLQ、机器学习、pytorch、计算机视觉、深度学习与神经网络等视频、课件源码、国内外知名精华资源、AI热门论文、行业报告等。

为了更好的系统学习AI,推荐大家收藏一份。

下面是部分截图,文末附免费下载方式。

一、人工智能课程及项目

二、国内外知名精华资源

三、人工智能论文合集

四、人工智能行业报告

学好人工智能,要多看书,多动手,多实践,要想提高自己的水平,一定要学会沉下心来慢慢的系统学习,最终才能有所收获。

点击下方名片,扫码免费下载文中资料。

你可能感兴趣的:(深度学习DL,人工智能,数据挖掘,深度学习,AI)