完全免费不用积分!我发现了一个公开数据集宝贝平台

计算机视觉 CV(computervision)指的是用摄像机和电脑及其他相关设备,对生物视觉的一种模拟。它的主要任务是让计算机理解图片或者视频中的内容,就像人类和许多其他生物每天所做的那样。目前此项技术已经广泛应用到安防、自动驾驶、医疗、消费等,也是目前人工智能技术中落地最广的技术之一。

据预测,计算机视觉产品市场将在2022年达到全新的高度,最大的增长将出现在智能驾驶,工业视觉检测紧随其后预计营收可达98亿美元,安防可达37.9亿美元,医疗行业为23亿美元,文娱为20亿美元,零售业和农业增长最低分别为6.55亿美元和1.97亿美元。

为验证和比较各种算法而收集的公开可用数据集对于计算机视觉领域(以及许多其他数据分析分支)的发展起着非常重要的作用。 标准数据集对于客观比较解决同一问题的不同方法是必要的。 数据对于开发基于机器学习的算法至关重要。但是对于从哪里可以下载高质量数据集的这个问题,很多科研人员感到头疼。这是由于很多科研人员本身主要是从事算法相关研究工作,对于如何寻找数据集并且能够很好下载使用并擅长。此外,即便是擅长寻找数据的行业从业者,他们也会在数据集上花费大量的时间。Google Research 的一篇文章就指出:

从整个AI开发的时间上来看,研究员们80%的时间都花在数据处理的相关工作上,尤其是数据清洗、数据标注、数据整合上等。只有20%的时间真正的花在做模型迭代、代码编写、模型部署上线等环节。

下过数据的朋友们都知道,在绝大数据数据集平台下载数据集,要么收费,要么用积分,要么网速巨慢,下数据常常让人下到崩溃。直到最近,抢注君找到一个数据集获取神器OpenDataLab,几乎解决了我所有的数据集下载需求。

OpenDataLab是什么呢?

按照官方的说法,浦数人工智能开放数据平台汇聚了海量的数据资源,包括覆盖800多种任务类型的3000多个数据集,并提供便捷检索和快速下载服务。OpenDataLab还和OpenXLab的各个开源算法体系紧密衔接,通过一个简单的命令行工具,即可实现一键部署、开箱即用。

 

我在使用过程中发现,这个网站只需要登陆,就可以免费下载,没有任何套路,不需要付费,不需要积分。而且由于服务器部署在境内,所以下载速度几乎可以飚满。

我发现这个网站不仅免费,而且收录的数据集还在不断地增多,数据类型、任务类型、标注类型都在完善,目前已经覆盖了绝大多数热门行业的头部数据集。具体如下图。

完全免费不用积分!我发现了一个公开数据集宝贝平台_第1张图片

 完全免费不用积分!我发现了一个公开数据集宝贝平台_第2张图片

 完全免费不用积分!我发现了一个公开数据集宝贝平台_第3张图片

 

这里我们列举几个知名的CV类数据集,看一看OpenDataLab的收录情况,由于每个数据集都有不同的版本,所以我主要附上搜索的链接:

1.KITTI

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。

数据集链接:https://opendatalab.org.cn/?keywords=Kitty&source=Y3Nkbg%3D%3D

完全免费不用积分!我发现了一个公开数据集宝贝平台_第4张图片

 

2.COCO

COCO数据集是微软团队提供的⼀个可以⽤来进⾏图像识别的数据集,包含了大型的物体检测、分割和字符的数据集。它有大约80类图像和大约250000个人物实例。

数据集链接:https://opendatalab.org.cn/?keywords=COCO&source=Y3Nkbg%3D%3D

完全免费不用积分!我发现了一个公开数据集宝贝平台_第5张图片3.Cityscapes

Cityscapes是一个较为新的大规模数据集,它包含50个不同城市的街道场景中记录的各种立体视频序列,除了一组较大的20 000弱注释帧外,还具有5,000帧的高质量像素级注释。

数据集链接:https://opendatalab.org.cn/?keywords=CityScapes&source=Y3Nkbg%3D%3D

这里我只举了3个例子,更多的例子靠大家去探索啦。

更重要的是,大家可以在右下角进行反馈,反馈自己所需要的数据集,位置如图:

完全免费不用积分!我发现了一个公开数据集宝贝平台_第6张图片

 

可以看到,OpenDataLab基本上能帮助大家找到所需的数据集了,如果再找不到你就只能问老师师兄师姐是否能提供相应帮助了。

- END -

你可能感兴趣的:(人工智能,算法)