生物信息神奇网站系列(十二):机器学习数据集

天天都被媒体的大数据,机器学习,人工智能忽悠,但是常言道“巧妇难为无米之炊”,要实现这些,数据才是重点;有时候想测试一些算法,手头没有现成的测试数据也比较麻烦。不过,加州大学欧文分校提供了一个机器学习的数据集,可以从中下载大量数据,用于机器学习研究。

十二:加州大学欧文分校机器学习数据集 

http://archive.ics.uci.edu/ml/index.php

1、登录网站,可以看到“Welcome to the UC Irvine Machine Learning Repository!”。下面是对网站的一些介绍,目前收入418个数据集。

2、这些数据集可以根据多个维度进行分类,例如分析类型,数据类型,研究领域,属性,文件类型等,并且每个分类数据的数量。


3、我们可以使用Life Science分类下的数据,目前已经收录97个数据集。

4、这其中乳腺癌的数据集Breast比较常用,在多个利用机器学习进行诊断的案例中都会用到。点击Breast的连接就会看到这个数据集相关的内容。包括数据介绍以及FTP下载目录。

http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29

5、页面中会给出页面详细的介绍。

6、点击Download: Data Folder,链接到数据下载ftp页面,直接点击文件就可以下载了。


7、也可以鼠标右键点击,直接复制下载链接,直接在程序中进行下载,例如在R中,直接利用read.table()函数下载即可。

---------- END ----------

欢迎订阅我们的微信公众号:基因学苑

你可能感兴趣的:(生物信息神奇网站系列(十二):机器学习数据集)