R的内置数据集存在于各个包中。R基础包datasets中提供了100多个数据集,使用代码可以查看:
// An highlighted block
data(packages="datasets")
我们以iris数据集为例,首先查看iris数据集的描述信息:
// An highlighted block
?iris
加载iris数据集:
// An highlighted block
data(iris)
ps:如果使用的数据集为别的包,我们需要安装了对应的包之后并加载,才能成功调用目标数据集。
针对数值模拟,R提供了一些函数,示例如下。
生成服从正态分布的函数:
// An highlighted block
r1<-rnorm(n=100,mean=0,sd=1)#生成100个均值为0,标准差为1的服从正态分布的数
生成服从均匀分布:
// An highlighted block
r1<-runif(n=1000,min=0,max=100)#生成1000个[0,100]上服从均匀分布的数
生成二项分布的数:
// An highlighted block
r1<-rbinom(n=80,size=100,prob=0.1)#生成80个
生成泊松分布的数:
// An highlighted block
r1<-rpois(n=50,lambda=1)#生成50个lambda=1的服从泊松分布的数
txt:假设我们已经创建了数据文件“abc.txt”,我们再当前工作空间中可以直接读取:
// An highlighted block
data<-read.table("abc.txt",head=TRUE)
csv:有文件abc.csv
// An highlighted block
data<-read.csv("abc.csv",head=TRUE)
R在读取xls与xlsx需要借助第三方包,我们常用的有openxlsx、rwadxl、gdata。本文以openxlsx为例,这个包还需要借助java,因此除了需要安装openxlsx外,还需要安装java。
使用install.packags(‘openxlsx’)
在java官网下载java安装即可(安装所需空间不大)
上述准备工作完成后,可以进行xls文件的读取。
xls:设有文件abc.xls
// An highlighted block
library(openxlsx)
data<-read.xls("abc.xls",sheet=1)
如果数据文件没有保存在当前的工作空间下,我们需要在文件名称前添加该文件的存放路径
eg: data<-read.xls(“C:/user/ABC/abc.txt”,sheet=1),才能将文件成功读取