R语言基础--数据类型之因子

参考：R语言笔记之数据类型2因子|RVDSD的个人笔记本

1.1 因子

因子(factor)：是名义型变量或有序型变量，比较特殊。一个因子不仅包括分类变量本身还包括变量不同的可能水平（即使它们在数据中不出现）。

1.2 factor()用法

factor(x = character(), levels, labels = levels,
       exclude = NA, ordered = is.ordered(x), nmax = NA)
#factor (x,levels=sort(unique(x),na.last=TRUE), labels=lebels, exclude=NA, ordered=is.order (x))

其中，levels用于指定因子的可能水平；labels用于定义水平的名字；exclude指从向量x中剔除的水平值；ordered指因子的水平是否要排序，例如:

a <- factor(1:3)
a
## [1] 1 2 3
## Levels: 1 2 3

从上面的结果可以看出，这组数据中有3个数据，3个水平，分别为1，2，3。还有一种情况是，水平数大于实际的数据数，如下所示：

b<-factor(1:3,levels=1:5);b
## [1] 1 2 3
## Levels: 1 2 3 4 5

这组数据中有3个数据，有5个水平（其中两个水平没出现）。

1.3 factor数据的名称

c<-factor(1:3,labels=c("a","b","c"))
c
## [1] a b c
## Levels: a b

str函数

str(c) #str即structure，紧凑的显示对象内部结构，即对象里有什么

# Factor w/ 3 levels "a","b","c": 1 2 3
 #c有三个水平，名字分别为a,b,c

1.4 将factor转化为其它类型

1.4.1 数值型

d<-c(1,10) #建立向量a,值为1,10
d
## [1]  1 10
fac<-factor(d)
fac #提取向量a的因子数，并赋给fac
## [1] 1  10
## Levels: 1 10
fac_value<-as.numeric(fac) #将fac转化为数值
fac
## [1] 1  10
## Levels: 1 10

1.4.2 字符型

e<-c("Male","Female")
e  #建立向量e，为字符型
## [1] "Male"   "Female"
fac_e<-factor(e);fac_e #提取向量b的因子，并且赋给fac_e
## [1] Male   Female
## Levels: Female Male
fac_e_value<-as.numeric(fac_e)#将fac_e转化为数值型
fac_e_value
## [1] 2 1

1.4.3 将factor转换为数值

as.numeric(as.character(fac))
## [1]  1 10

上述命令将fac(1,10)先转化为字符型，接着将字符型转化为数值型，如果直接将factor转换为numeric，容易出错，一般情况下就是先看factor转换为character，再转换为numeric。

1.5 将其它数据转换为factor

1.5.1 将字符转换为因子

a <- c("green","blue","green","yellow")
a <- factor(a)
levels(a) <- c(1,2,3,4)
ff <- factor(c("A","B","C",labels=c(1,2,3)))
ff
##  labels1 labels2 labels3 
##  A   B   C    1   2    3 
## Levels: 1 2 3 A B C

1.5.2 将数值转换为因子

b <- c(1,2,3,1)
b <- factor(b)
b
## [1] 1 2 3 1
## Levels: 1 2 3

1.5.3 提取可能的factor

ff <- factor(c(2,4),levels=2:5)
ff
## [1] 2 4
## Levels: 2 3 4 5
levels(ff)
## [1] "2" "3" "4" "5"

1.5.4 将连续型数据转换factor

以PlantGrowth数据集为例说明，先看一下这个数据集：

pg <- PlantGrowth[c(1,2,11,21,22),]
pg
# weight group
# 1    4.17  ctrl
# 2    5.58  ctrl
# 11   4.81  trt1
# 21   6.31  trt2
# 22   5.12  trt2

在这个案例中，我们使用cut()函数把一个连续型变量weight转化为分类变量wtclass，如下所示：

pg$wtclass <- cut(pg$weight,breaks=c(0,5,6,Inf))
pg
# weight group wtclass
# 1    4.17  ctrl   (0,5]
# 2    5.58  ctrl   (5,6]
# 11   4.81  trt1   (0,5]
# 21   6.31  trt2 (6,Inf]
# 22   5.12  trt2   (5,6]

我们为三个类设定了四个边界值，边界值可以包括正无穷(Inf)和负无穷(-Inf)，如果一个值落在我们规定的区间外，它的类别将被设定为NA（缺失值），cut()函数的结果是一个因素，并且因子水平的名称是以生成的区间命名的，如下所示：

 str(pg)
'data.frame':   5 obs. of  3 variables:
 $ weight : num  4.17 5.58 4.81 6.31 5.12
 $ group  : Factor w/ 3 levels "ctrl","trt1",..: 1 1 2 3 3
 $ wtclass: Factor w/ 3 levels "(0,5]","(5,6]",..: 1 2 1 3 2

但是这个区间名称明显不太方便，我们可以更改一下，如下所示：

pg$wtclass <-cut(pg$weight,breaks=c(0,5,6,Inf),
                labels=c("Small","Medium","Large"))
# > pg
# weight group wtclass
# 1    4.17  ctrl   Small
# 2    5.58  ctrl  Medium
# 11   4.81  trt1   Small
# 21   6.31  trt2   Large
# 22   5.12  trt2  Medium

cut()函数生成的区间是左开右闭的，换句话说，它们不会包含最小值，但是它们包含了最大值，对于值最小的一类，可以通常设置参数include.lowest=TRUE来实现，这样它们就能同时包含最小值和最大值了，如果要让生成的区间是左闭右开的，需要设定参数right=FALSE，如下所示：

pg$wtclass <- cut(pg$weight,breaks=c(0,5,6,Inf),right=FALSE)

如果要更改不同因子的名称，例如将Small改为A，Medium改为B，Large改为C，那么就需要car中的recode函数，如下所示：

head(pg)
# weight group wtclass
# 1    4.17  ctrl   Small
# 2    5.58  ctrl  Medium
# 11   4.81  trt1   Small
# 21   6.31  trt2   Large
# 22   5.12  trt2  Medium
library(car)
pg$wtclass <- recode(pg$wtclass,"'Small'='A';'Medium'='B';'Large'='C'")
head(pg)
# weight group wtclass
# 1    4.17  ctrl       A
# 2    5.58  ctrl       B
# 11   4.81  trt1       A
# 21   6.31  trt2       C
# 22   5.12  trt2       B

1.5.5 生成指定的factor

seq()

在R的向量笔记中，提到了seq()函数用来生成某一条件的向量，这个函数在生成特定因子方面也有很重要的作用，用法为seq(length=, from=, to=)，其中，length:指定生成个数，from:是指开始生成的点，to:截止点。

如下所示：

seq(length=10,from=10,to=100) # 生成从10到100的向量，一共10个
##  [1]10  20  3040  50  6070  80  90 100
# 上述命令等价于
seq(10,100,10)
##  [1]10  20  3040  50  6070  80  90 100
seq(1,10,by=2)
## [1] 1 3 5 7 9
seq(1,10,length=6)
## [1]  1.02.8  4.6  6.48.2 10.0
sequence(2:3) #产生以 2 和 3 结尾的序列数据
## [1] 1 2 1 2 3
rep()

用法：rep(P，N)，表示重复生成P值N次，例如rep(a1:a2,a1:a2) #重复a1到a2，按a1产生a1次，按a2产生a2次，当rep(a1:a2,a1:a2)这种结构，后边的a1:a2要小于前者 如下所示：

rep(1,10)
##  [1] 1 1 1 1 1 1 1 1 1 1
rep(1:5,each=2, times=2) #重复1到5，每个元素重复二次，整个数列重复两次
##  [1] 1 1 2 2 3 3 4 4 5 5 1 1 2 2 3 3 4 4 5 5
rep(1:3,1:3) # 1重复1次，2重复2次，3重复3次
## [1] 1 2 2 3 3 3

gl函数

生成规则的因子序列，gl(k,n)：k为水平数据，n是每个水平重复的次数。如下所示：

gl(3,5) #生成5个1，5个2，5个3，
##  [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
## Levels: 1 2 3
gl(3,5,length=30) #生成5个1，5个2，5个3，循环到30个，即：
##  [1] 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3
## Levels: 1 2 3
gl(2,6,label=c("Male","Female")) #生成Male与Female两个因子，各6个，共12个数据：
##  [1] Male Male   Male   Male Male   Male   Female Female Female Female
## [11] Female Female
## Levels: Male Female

1.6 有序因子

因子没有顺序，但也可以人为指定顺序。例如糖尿病类型Diabetes(Type1,Type2)，就是2种类型没有顺序，但病人状态status(Poor,Imporved,Excellent)是有顺序的。案例如下：

patientID<-c(1,2,3,4)
age<-c(25,34,28,52)
diabetes<-c("Type1","Type2","Type1","Type1")
status<-c("Poor","Improved","Excellent","Poor")
diabetes<-factor(diabetes) #提取不同糖尿病类型的因子
status<-factor(status,order=TRUE) # 提取因子，并且有序
patientdata<-data.frame(patientID,age,diabetes,status)
patientdata
##   patientID age diabetes    status
## 11  25    Type1Poor
## 22  34    Type2Improved
## 33  28    Type1 Excellent
## 44  52    Type1Poor

注：字符型向量的因子水平默认依字母顺序创建。但在实际情况中并不常用，而是通过levels选项来指定因子顺序，使用factor(status, order = TRUE, levels = c(“Poor”, “Improved”, “Excellent”))，各个水平的赋值就为1 = Poor, 2 = Improved, 3 = Excellent。

或者是通过下面代码实现：

factor(status, ordered = TRUE, levels = c("Poor", "Improved", "Excellent"))
## [1] Poor      ImprovedExcellent Poor     
## Levels: Poor < Improved < Excellent
str(patientdata)#显示数据框的结构
## 'data.frame':    4 obs. of  4 variables:
##  $ patientID: num  1 2 3 4
##  $ age      : num25 34 28 52
##  $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 1
##  $ status   : Ord.factor w/ 3 levels "Excellent"<"Improved"<..: 3 2 1 3
summary(patientdata)
##    patientID         age         diabetes       status 
##  Min.   :1.00Min.   :25.00   Type1:3Excellent:1  
##  1st Qu.:1.75   1st Qu.:27.25   Type2:1Improved :1  
##  Median :2.50   Median :31.00             Poor     :2  
##  Mean   :2.50Mean   :34.75                          
##  3rd Qu.:3.25   3rd Qu.:38.50                          
##  Max.   :4.00Max.   :52.00

1.7 factor的统计

如果一组数据有多个重复值，例如美国的每一个州都位于4个区域的中某一个，分别为东北，南、中北和西，则我们看一下内置的state数据集：

head(state.region)
## [1] South West  West  South WestWest 
## Levels: Northeast South North Central West
table(state.region)
## state.region
##Northeast         South North Central          West 
##9            16            12            1

R语言基础--数据类型之因子-2019-06-26

R语言基础--数据类型之因子

1.1 因子

1.2 factor()用法

1.3 factor数据的名称

1.4 将factor转化为其它类型

1.4.1 数值型

1.4.2 字符型

1.4.3 将factor转换为数值

1.5 将其它数据转换为factor

1.5.1 将字符转换为因子

1.5.2 将数值转换为因子

1.5.3 提取可能的factor

1.5.4 将连续型数据转换factor

1.5.5 生成指定的factor

seq()

gl函数

1.6 有序因子

1.7 factor的统计

你可能感兴趣的:(R语言基础--数据类型之因子-2019-06-26)