1、安装和加载R包
1) 配置Rstudio的下载镜像
2) 安装:install.packages(“包”)
或者 BiocManager::install(“包”)
取决于你要安装的包存在于CRAN网站还是Biocductor,可以谷歌搜到。
3)加载:library(包)
或者require(包)
【以dplyr为例】
dplyrinstall.packages("dplyr")
library(dplyr)
2、学习dplyr五个基础函数
示例数据直接使用内置数据集iris的简化版:test <- iris[c(1:2,51:52,101:102),]
注意,井号开头的是代码运行记录。可以和自己的运行结果做对比
1)mutate()
:新增列
mutate(test, new = Sepal.Length * Sepal.Width)
:在表格最后新增一个叫“new“的列= Sepal.Length * Sepal.Width(这两列的数值相乘)
2)select()
:按列筛选
①按列号筛选:
select(test,1)
:选出第一列
select(test,c(1,5))
:选出第一和第五列
②按列名筛选:
select(test, Petal.Length, Petal.Width)
:选出“Petal.Length”列和“Petal.Width”列
vars <- c("Petal.Length", "Petal.Width") select(test, one_of(vars))
:同上
3)filter()
:筛选行
filter(test, Species == "setosa")
:选出“Specis”列下行名为“setosa”的行
filter(test, Species == "setosa"&Sepal.Length > 5 )
:选出选出“Specis“”列下,行名为“setosa”且“Sepal.Length”列 > 5的行
filter(test, Species %in% c("setosa","versicolor"))
:选出“Species ”列下行名为"setosa"或"versicolor"的行
4)arrange()
:按某1列或某几列对整个表格进行排序
①arrange(test, Sepal.Length)
:将Sepal.Length列按从小到大排序
②arrange(test, desc(Sepal.Length))
:将Sepal.Length列按从大到小排序
5)summarise()
:对数据进行汇总操作,结合group_by使用实用性强
summarise(test, mean(Sepal.Length), sd(Sepal.Length))
:计算Sepal.Length的平均值和标准差
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
:先按照Species分组,然后计算每组Sepal.Length的平均值和标准差
3、dplyr两个实用技能
1)管道操作:%>%
(cmd/ctr + shift + M)
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
表示一直在操作test这个变量,不用变量来回转换
不用管道操作就需要写成:
group_by(test, Species)
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))
2)count统计某列的unique值
’count(test,Species)`:计算“Spcies”列下行名相同的行各有几行。
4、dplyr处理关系数据
即将2个表进行连接,注意:不要引入factor
Factor就是因子,它属于一种比较特殊的数据类型,通常会给初学者带来一些不必要的烦扰,所以说我们没有把它作为一个必修的内容放在课程里面,而是先让大家避开他,如果安装的是4.0以上版本的R语言,就说你是新安装的话,就不用去管Strong at factor等于false是什么意思,因为他已经被做为了一个默认的设置,但如果是4.0以下的版本以前的版本,那么这句代码就是非常有用的,Options开头代表这是一句设置,意思就是在生成数据框,也就是我们之前所说的那个表格的时候,不要把字符串变成因子。
options(stringsAsFactors = F)
test1 <- data.frame(x = c('b','e','f','x'), z = c("A","B","C",'D'), stringsAsFactors = F)
test2 <- data.frame(x = c('a','b','c','d','e','f'), y = c(1,2,3,4,5,6), stringsAsFactors = F)
1)inner_join
:内联取交集
用x内联:把表1和表2中相同的x取出来,再取出相应的y和z
2)left_join
:左联
在表2中找出表1x对应的所有y
在表1中找出表2x对应的左右z
3)full_join
:全联
4)semi_join
:半连接,返回能够与y表匹配的x表所有记录
5)anti_join
:反连接,返回无法与y表匹配的x表的所记录
6)简单合并
在相当于base包里的cbind()函数和rbind()函数;
注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数