人工智能数据集(资源篇)(更新于2020.04.19)

收藏:全网最大机器学习数据集,视觉、NLP、音频都在这了
280万分割掩码,谷歌Open Images数据集再更新
从图像中检测和识别表格,北航&微软提出新型数据集TableBank
人类穿着数据集3DPeople发布,微软建立人工智能商学院 | AI一周学术
数据集查找神器!100个大型机器学习数据集都汇总在这了 | 资源
【收藏】8款大型机器学习数据集顶级资源

计算机视觉

自然语言处理

语音
Piano-midi.de: 古典钢琴曲
Nottingham : 超过 1000 首民谣
MuseData: 古典音乐评分的电子图书馆
JSB Chorales: 四部协奏曲
2000 HUB5 English:最近在 Deep Speech 论文中使用的英语语音数据,从百度获取。
LibriSpeech:包含文本和语音的有声读物数据集。由多个朗读者阅读的近 500 小时的各种有声读物演讲内容组成,包含带有文本和语音的章节。
VoxForge:带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的案例。
TIMIT:英语语音识别数据集。
CHIME:嘈杂的语音识别挑战数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个扬声器在 4 个嘈杂位置的近 9000 个录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。
TED-LIUM:TED 演讲的音频转录。1495 个 TED 演讲录音以及这些录音的文字转录。
Google Audioset:扩展了 632 个音频分类样本,并从 YouTube 视频中提取了 2,084,320 个人类标记的 10 秒声音片段。

无人驾驶
Uber 2B trip data:首次展示 2 百万公里的出行数据。
Google-Landmarks-v2:谷歌开源的最大地标数据集包含500万张图片和200000个地标。
Uber 2B trip data:首次展示 2 百万公里的出行数据。
本田公布104小时驾驶行为数据集:本田最近与波士顿大学合作,公布了在旧金山湾区采集的104小时**驾驶行为数据集,总体积大约150GB。收集了包括GPS、图像、激光雷达、汽车导航、司机驾驶行为等方面的信息。
DBNet数据集:厦门大学 SCSC 实验室李军教授团队与上海交大 MVIG 实验室卢策吾教授团队联合发布大规模驾驶行为数据集。DBNet 是专为研究驾驶行为的策略学习而设置的。DBNet 数据集记录了视频、激光雷达点云,以及对应的资深驾驶员(驾龄超过 10 年)的真实驾驶行为。
KITTI:由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中最多达15辆车和30个行人,还有各种程度的遮挡与截断。整个数据集由389对立体图像和光流图,39.2 km视觉测距序列以及超过200k 3D标注物体的图像组成,以10Hz的频率采样及同步。
comma2k19:comma.ai 发布了 comma2k19, 这是加利福尼亚280高速公路上超过33小时通勤的数据集。 这意味着在加利福尼亚州圣何塞和旧金山之间20公里的高速公路上行驶了2019段,每段1分钟。 comma2k19是一个完全可重现且可扩展的数据集。 数据采用comma EONs收集,其传感器类似于任何现代智能手机,包括道路相机,手机GPS,温度计和9轴IMU。 此外,EON还使用comma grey panda捕获原始GNSS测量值和汽车发送的所有CAN数据。
Berkeley DeepDrive BDD100k:这是目前最大的自动驾驶 数据集。里面有超过 1,100 多个小时驾驶体验的视频,包含10 万个在一天中不同时段以及在不同天气条件下的数据。
百度 Apolloscapes:大型数据集,定义了26种不同的语义项,如汽车,自行车,行人,建筑物,路灯等。
Comma.ai:超过7个小时的高速公路驾驶视频。里面的数据包括汽车的速度、加速度、转向角和GPS坐标。
城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。
CSSAD数据集:包含自动车辆的感知和导航等数据,但着重于发达国家的道路。
麻省理工学院AGE实验室(MIT AGE Lab:):在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。
LISA:智能和安全汽车实验室,加州大学圣地亚哥分校数据集:该数据集包括交通标志,车辆检测,交通信号灯和轨迹模式。
博世小型交通灯数据集(Bosch Small Traffic Light Dataset):用于深入学习的小交通灯数据集。
LaRa交通灯识别(LaRa Traffic Light Recognition):巴黎交通灯的数据集。
WPI 数据集:交通灯、行人和车道检测的数据集。
牛津的机器人汽车:这个数据集来自牛津的机器人汽车,它于一年时间内在英国牛津的同一条路上,反反复复跑了超过100次,捕捉了天气、交通和行人的不同组合,以及建筑和道路工程等长期变化。
KUL比利时交通标志数据集:来自比利时法兰德斯地区数以千计的实体交通标志的超过10000条注释。
MIT AGE Lab:在AgeLab收集的1,000多小时多传感器驾驶数据集的样本。

医疗
COVID-CT 数据集:加州大学圣地亚哥分校UCSD、Petuum的研究者构建了一个开源的 COVID-CT 数据集,其中包含 275 个 COVID-19 检测呈阳性的 CT 图像,有助于使用深度学习方法分析病人的 CT 图像并预测其是否患有新冠的相关研究和开发。
欧盟传染病监测图集:
默克分子活动挑战:
Musk dataset: Musk dataset 描述了以不同构造出现的分子。每个分子都是 musk 或 non-musk,且其中一个构造决定了这一特性。
Health Data:可搜索的主题包括医疗设备、环境卫生、药物滥用、精神健康等等。
头部 CT 扫描数据集:491 次扫描的 CQ500 数据集。
CheXpert:斯坦福发布,内含224316X光胸部图片,共涉及65,240名患者。数据量级和标注精准度都非常高。标注了 14 种常见的胸部放射影像观察结果。
吴恩达医学影像数据集:含有4万张人体上肢端的X光片的数据集MURA,并用这个数据集训练CNN寻找并定位X光片的异常部分。数据集要等到2月才会公布,可以持续关注Stanford ML
MIMIC-CXR:斯坦福与麻省理工学院的联合发布,内含371,920张带标签的胸部X射线图片,数据量级和标注精准度都非常高
慢性病数据(Chronic disease data):美国各地慢性病指标的数据。
MIMIC-III:MIT计算生理学实验室的公开数据集,标记了约40000名重症监护患者的健康数据,包括人口统计学、生命体征、实验室测试、药物等维度。

金融和经济
Quandl: 里面有很多经济和金融数据,你可以使用这些数据建立预测经济指标或股价的模型。
世界银行开放数据(World Bank Open Data):涵盖世界各地人口统计、大量经济和发展指标的数据集。
国际货币基金组织的数据(IMF Data):国际货币基金组织公布关于国际金融、债务率、外汇储备、商品价格和投资的数据。
英国金融时报金融时报市场数据(Financial Times Market Data:):里面有来自世界各地的最新金融市场信息,包括股票价格指数、商品和外汇。
谷歌趋势(Google Trends):观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。
美国经济协会(AEA):这这里你可以找到美国宏观经济的相关数据。

公共政府数据集
Data USA: 最全面的可视化美国公共数据。地址:
欧盟性别统计数据库:
荷兰国家地质研究数据 :
联合国开发计划署项目:
免费图像:免费图像来源列表以及列表中的所有数据
GitHub 上的 BuzzFeed News:提供了来自 Buzzfeed 的数据。如果你想了解 2016 年至 2018 年期间的假新闻,那么这个就是你的最佳选择。
Group Lens:很多关于书籍和电影的信息。
Five Thirty Eight:有关于政治、体育、科学、健康、经济和文化方面的数据。
Bureau of Labor Statistics:有关美国劳动力市场活跃度、工作条件和价格变化的数据。
Centers for Disease Control and Prevention:包括各种健康主题,可让你访问大量可浏览和可搜索的数据。
Pew Internet:社会学数据。
NASA 的 Earth Data:地球观测系统数据和信息系统包含了美国宇航局的地球观测数据,其中包含如 NC 地表温度和碳通量等信息。
Reddit:可以搜索数据集并查找提供信息和请求信息的人。总的来说,Reddit 也是一个寻找信息并了解行业趋势的好地方。
National Center for Environmental Information:涵盖地球物理学、大气和海洋数据。他们目前是世界上最大的气候和天气信息提供商。
Open Corporates:全球最大的公司开放数据集,可让你访问超过 1 亿家公司的信息。你可以按公司或高级职员进行搜索,并在需要的时候限制你的搜索范围。
Altmetric:提供每年发布的最具热度的前 100 篇文章。
The World Factbook:该数据集包含 267 个国家和地区的信息,这是一个数据宝库,每周更新一次有关全球的信息。
欧盟开放数据门户:
美国政府数据:
新西兰政府数据集:
印度政府数据集:
首个官方气象数据集公开,已训练出20多个“青出于蓝”的AI
Data.gov:在这里可以下载到多个美国政府机构的数据。从政府预算到学校成绩。但要注意的是,很多数据还有待进一步研究。
食品环境地图集(Food Environment Atlas):当地的食物选择如何影响美国饮食的数据。
学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查。
美国国家教育统计中心(The US National Center for Education Statistics):来自美国和世界各地的教育机构和教育人口统计数据。
英国数据服务:英国最大的社会、经济和人口数据收集机构。
数据美国(Data USA):全面的、可视化的美国公共数据。
国家统计局

CMU 动作抓取数据集:
Brodatz dataset:纹理建模。
来自欧洲核子研究中心的大型强子对撞机(LHC)的 300TB 高质量数据。
纽约出租车数据集:由 FOIA 请求而获得的纽约出租车数据,导致隐私问题。
Uber FOIL 数据集:来自 Uber FOIL 请求的纽约 4.5M 拾取数据。
Criteo 点击量数据集:来自欧盟重新定位的大型互联网广告数据集。
Deep Vs Shallow Comparison ICML2007:为实证评估深层架构而生成的数据集。
MnistVariations:在 MNIST 中引入受控变化。
RectanglesData:区分宽矩形和垂直矩形。
ConvexNonConvex:区分凸形和非凸形状。http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
BackgroundCorrelation:嘈杂 MNIST 背景下相关度的控制地址:
Arcade Universe:一个人工数据集生成器,图像包含街机游戏 sprite,如 tetris pentomino / tetromino。该生成器基于 O. Breleux 的 bugland 数据集生成器。
以 Baby AI School 为灵感的数据集集合。
Baby AI Shapes Dataset:区分 3 种简单形状。
NEXRAD:美国大气层的多普勒雷达扫描图。
Landsat8:整个地球表面的卫星视角图,每隔几周更新一次。
OpenStreetMap:免费提供整个星球的矢量数据。它包含(旧版)美国人口普查局的数据。
微软恶意软件数据集:每一行数据都对应着一个MachineIdentifier,相当于设备ID,也都包含一个代表着真实值的标签HasDetections,显示这台设备有没有感染恶意软件。
Github 上的优秀公共数据集:
Data Portal:
Open Data Monitor:
Quandl Data Portal:

来源
[1] https://mp.weixin.qq.com/s/NjJRSim8DLvKoI01PMkNfw

你可能感兴趣的:(数据集)