数据科学 - 各类数据集收集 (持续更新

最近更新时间 2021-12-15


计算机视觉

MNIST
一个手写数字的数据集,它包含60000个训练图像和10000个测试图像,是一个适合新手用于实现图像分类的数据集

IRIS
IRIS数据集是一个简单的和适合初学者的数据集,包含了有关花瓣和萼片宽度的信息。数据分为三个类,每个类有50行,它通常用于分类和回归建模

VisualData
按类别搜索计算机视觉数据集;允许搜索查询

ImageNet
最大的计算机视觉图像数据集

google open images
来自谷歌人工智能的一个巨大的数据集,包含超过1000万张图片

城市景观数据集
这是一个用于计算机视觉项目的开源数据集,它包含在50个不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深层神经网络来了解城市场景

imdbwiki
imdbwiki数据集是带有性别和年龄标签的人脸图像数据,是最广泛的开源数据集之一。图片数据来自IMDB和Wikipedia,有五百万多个标签图像

颜色检测数据集
数据集包含一个CSV文件,其中有865个颜色名称及其相应的RGB(红色、绿色和蓝色)值

斯坦福狗数据集
包含20580张图片,120个不同品种的狗

自然语言处理

HotspotQA
问答数据集,包含了大量的自然且多转折陈述的问题,而且对事实进行严格监督,以实现更易于解释的问答系统

亚马逊评论
来自亚马逊的庞大数据集,包含超过4500万条亚马逊评论

烂番茄评论
超过48万的评论档案(新鲜或腐烂)

IMDB评论
大型电影评论数据集,包括了来自IMDB网站的电影评论,其中超过25000条评论为训练集,25000条评论为测试集

安然电子邮件
包含超过150个用户的大约50万封电子邮件

UCI Spambase
将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍而有用的任务。该数据集包含4601封电子邮件和57封有关电子邮件的元信息,你通过该数据集建立模型来过滤垃圾邮件

推荐系统

MovieLens
它包含来自MovieLens网站的分级数据集

Jester
包含了来自73421个用户中100个笑话的410万个连续评级(-10.00到+10.00), 主要用于协同过滤

Youtube标签视频数据集
Youtube标签视频数据集包括来自4800个可视化实体的800万个YouTube视频ID和相关标签. 具有数十亿帧的预计算的, 最先进的视觉功能

Million Song Dataset
百万首歌数据集是一个收集了一百万首当代流行音乐歌曲的音频功能和元数据的集合

Social Network Influencer
该数据集由Peerindex提供,包含一个标准的成对偏好学习任务。每个数据点描述两个人。为每个人提供基于twitter活动(如互动量、关注者数量等)的预先计算的标准化功能

Free Music Archive
免费音乐档案(FMA)是一个高质量的,合法的音频下载的音乐分析的集合

LastFM
该数据集包含来自Last的一组2K用户的社交网络、标记和音乐艺术家收听信息。调频在线音乐系统

Steam Video Games
Steam游戏数据集是用户行为的集合,如购买和玩游戏,用户id,游戏名称,行为名称和价值

数据集网站汇总

UC Irvine Machine Learning Repository
UCI是加州大学欧文分校开放的经典数据集,是机器学习领域最有名的数据存储库。包含各种数据集,比如经典的泰坦尼克号幸存预测到最新的数据(如空气质量和GPS轨迹)

阿里天池
阿里巴巴旗下的大数据竞赛网站,提供了很多比赛数据集可以练手

Kaggle
kaggle dataset不多说

科赛网
提供了不少数据集可以免费下载,而且还有一些数据项目的比赛,不过整体来说项目的难度比较低,奖金也不是很多,学生比较多

Quandl
这是一个包含经济与金融数据的仓库。其中的部分信息是免费的,但是大部分数据集需要购买,数据可以用来构建经济指标预测或者股价分析模型等

CMU库
通过CMU收集的数据集, 可以用来发现高质量的数据集

Julian McAuley, UCSD dataset
Julian McAuley lab收集的数据集

AWS Public Data Sets
亚马逊在其亚马逊网络服务平台上提供大型数据集

数据世界
data.world 将自己描述为“数据人的社交网络”,但更准确的说法是“数据的 GitHub”。它是您可以搜索、复制、分析和下载数据集的地方

数据集搜索引擎

Google Dataset Search
google 数据集搜索引擎, 与Google Scholar的工作方式类似,Dataset Search 可以让你在任何托管的地方找到数据集, 超过2500万个数据集

你可能感兴趣的:(数据科学,#,机器学习,机器学习,深度学习,推荐系统,计算机视觉,数据集)