R可以处理的数据类型(模式)包括数值型、字符型、逻辑型( TRUE/FALSE)、复数型(虚数)和原生型(字节)。
a <- c(1, 2, 5, 3, 6, -2, 4)
b <- c("one", "two", "three")
c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)
#标量是只含一个元素的向量
f <- 3
g <- "US"
h <- TRUE
#同一向量中无法混杂不同模式的数据
矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix()创建矩阵。
myymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns, byrow=logical_value, dimnames=list( char_vector_rownames,char_vector_colnames))
#其中vector包含了矩阵的元素, nrow和ncol用以指定行和列的维数, dimnames包含了可选的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)还是按列填充( byrow=FALSE),默认情况下按列填充。
我们可以使用下标和方括号来选择矩阵中的行、列或元素。 X[i,]指矩阵 X中的第i行,X[,j]指第j列,X[i, j]指第i行第j个元素。选择多行或多列时,下标 i和j可为数值型向量
数组(array)与矩阵类似,但是维度可以大于2。
数组可通过array函数创建
myarray <- array(vector, dimensions, dimnames)
#其中vector包含了数组中的数据, dimensions是一个数值型向量,给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。
mydata <- data.frame(col1, col2, col3,...)
#其中的列向量 col1、col2、col3等可为任何类型(如字符型、数值型或逻辑型)。每一列的名称可由函数names指定。
选取数据框中元素的方式有若干种。你可以使用前述(如矩阵中的)下标记号,亦可直接指定列名。
> patientdata[1:2]
patientID age
1 1 25
2 2 34
3 3 28
4 4 52
> patientdata[c("diabetes", "status")]
diabetes status
1 Type1 Poor
2 Type2 Improved
3 Type1 Excellent
4 Type1 Poor
> patientdata$age
[1] 25 34 28 52
attach(mtcars)
summary(mpg)
plot(mpg, disp) plot(mpg, wt)
detach(mtcars)
#函数attach()可将数据框添加到R的搜索路径中。
#函数detach()将数据框从搜索路径中移除。
#detach()并不会对数据框本身做任何处理。
当名称相同的对象不止一个时,这种方法的局限性就很明显了。
> mpg <- c(25, 36, 47)
> attach(mtcars)
The following object(s) are masked _by_'.GlobalEnv':
mpg
> plot(mpg, wt)
Error in xy.coords(x, y, xlabel, ylabel, log) :
'x' and 'y' lengths differ
> mpg [1] 25 36 47
#这里,在数据框mtcars被绑定(attach)之前,你们的环境中已经有了一个名为mpg的对象。在这种情况下,原始对象将取得优先权,这与你们想要的结果有所出入。由于mpg中有3个元素而disp中有32个元素,故plot语句出错。
with(mtcars, {
print(summary(mpg))
plot(mpg, disp)
plot(mpg, wt)
})
#在这种情况下,花括号 {}之间的语句都针对数据框 mtcars执行,这样就无需担心名称冲突了。如果仅有一条语句(例如summary(mpg)),那么花括号 {}可以省略。
函数with()的局限性在于,赋值仅在此函数的括号内生效。如果你需要创建在 with()结构以外存在的对象,使用特殊赋值符(<<-)替代标准赋值符(<-)即可,它可将对象保存到 with()之外的全局环境中。
在病例数据中,病人编号(patientID)用于区分数据集中不同的个体。在R中,实例标识符(case identifier)可通过数据框操作函数中的rowname选项指定。
patientdata <- data.frame(patientID, age, diabetes, status, row.names=patientID)
diabetes <- c("Type1", "Type2", "Type1", "Type1")
#语句diabetes <- factor(diabetes)将此向量存储为 (1, 2, 1, 1),并在内部将其关联为 1=Type1和2=Type2(具体赋值根据字母顺序而定)。
status <- c("Poor", "Improved", "Excellent", "Poor")
status <- factor(status, ordered=TRUE)
#会将向量编码为 (3, 2, 1, 3),并在内部将这些值关联为 1=Excellent、2=Improved以及3=Poor。
#对于字符型向量,因子的水平默认依字母顺序创建。通过指定levels选项来覆盖默认排序。
status <- factor(status, order=TRUE, levels=c("Poor", "Improved", "Excellent"))
#数值型变量可以用 levels和labels参数来编码成因子。如果男性被编码成1,女性被编码成2,则以下语句:
sex <- factor(sex, levels=c(1, 2), labels=c("Male", "Female"))
列表就是一些对象(或成分, component)的有序集合。列表允许你整合若干(可能无关的)对象到单个对象名下。
某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。
mylist <- list(object1, object2, ...)
mylist <- list(name1=object1, name2=object2, ...)
#可以通过在双重方括号中指明代表某个成分的数字或名称来访问列表中的元素。
R中的函数edit()会自动调用一个允许手动输入数据的文本编辑器
(1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致;
(2) 针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中。
mydata <- data.frame(age=numeric(0), gender=character(0), weight=numeric(0))
mydata <- edit(mydata)
#类似于age=numeric(0)的赋值语句将创建一个指定模式但不含实际数据的变量。
#注意,编辑的结果需要赋值回对象本身。函数edit()事实上是在对象的一个副本上进行操作的。如果你不将其赋值到一个目标,你的所有修改将会全部丢失!
mydata <- edit(mydata)的一种简捷的等价写法是fix(mydata)
此外,你可以直接在你的程序中嵌入数据集
> mydatatxt<-"
+ age gender weight
+ 25 m 166
+ 30 f 115
+ 18 f 120"
> mydata <- read.table(header=TRUE, text=mydatatxt)
> mydata
age gender weight
1 25 m 166
2 30 f 115
3 18 f 120
#在Rstudio中似乎不行,在R中可行