怎么寻找数据集

1、paperswithcodes datasets:一个网站,论文的代码实现以及在各个数据集上面的表现,也有一些论文常见的数据集

2、Kaggle datasets:一个竞赛的网站,有常见数据集,也有用户上穿的数据集,用户上传的数据集质量参差不齐,需要自己判断

3、Google dataset search:一个数据集的搜索引擎,可以在上面搜索需要的数据集,返回结果是各种网站相应的数据集

4、也有各种各样集成的工具数据集,比如tensorflow、huggingface

5、从各种竞赛或者公司中发布的数据集,一般来说质量较高,而且比较新

6、Open data on aws:100多个很大的原始数据集,数据量极大,而且没有经过任何处理,详细可以自己搜索一下

大概可以分为以下三类:

怎么寻找数据集_第1张图片

学术数据集:优点是比较干净,难度适中,因为很多论文都已经验证过了,你也知道其他人对这个数据集的结果,方便对比;缺点是可选择性低,就那么多数据集,通常是常见的机器学习的数据集,不是很适合来做产品

竞赛的数据集:优点是更接近应用的数据集;缺点是仍然是经过处理的数据集,而且一般都是比较热门领域的数据集

原始数据集:优点是比较灵活,基本上你任何的数据都能找到;缺点是你需要很多的精力去用于数据集的预处理

你可能感兴趣的:(数据获取与处理,数据库)