机器学习数据神器-UCI

很多人现在开始选择人工智能或者机器学习,但是让初学者发愁的是:我们怎么去获得大量的数据来进行学习了?下面介绍一个机器学习领域的数据神器

UCI机器学习库介绍

UCI

介绍

UCI机器学习库是机器学习领域的一个神器。对于初学者和进阶学习者来说,它就像一家商店。

它将数据库、业务知识以及用于机器学习算法实证分析的数据生成器集中在一起。1987年,加州大学欧文分校的David Aha和他的学生以ftp档案的形式创建了该网站

image

影响

全世界的学生、教育工作者和研究人员将其作为机器学习数据集的主要来源。作为文档影响的一个标志,它已被引用超过1000次,使其成为计算机科学中引用率最高的100篇“论文”之一。

数据

数据集

每年UCI中都会引入新的数据集。在官网上还可以看到,最受欢迎的数据集

  • 鸢尾花数据集

  • 红酒数据集

image

数据集信息

iris数据集为例

  • 数据大小

  • 属性个数

  • 是否存在缺失值

  • 主要用途:分类

  • 数据集的时间、日期等

image-20200115140038785

数据使用

有时候我们并不想把数据从网上下载下来再进行使用,那么我们可以使用pandas库中的read_csv方法来实现,以鸢尾花iris数据为例

import pandas as pd
data = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
data.head()  # 前5行数据
image

上面的文件路径为http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

image

其他的数据集使用方法也是类似,只需要将文件路径改成相应的即可。

你可能感兴趣的:(机器学习数据神器-UCI)