Day6 R包学习 2020-2-19
1. 了解R包
- R包是多个函数的集合,具有详细的说明和示例。
- 学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包
- 下面练习用到的示例R包:dplyr(主要针对数据框快速计算、整合的函数包)
2. 安装和加载R包
step 1: 镜像设置
高级模式(一次搞定):需要R的配置文件 .Rprofile
说起来这个,就必须提到Rstudio最重要的两个配置文件:在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量(这里先不说它);而.Rprofile就是一个代码文件,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动Rstudio时完成的)
操作流程
file.edit('~/.Rprofile')
#打开并编辑文件
⬇️添加下面两行代码
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
#对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
#对应中科大源
(也可以换成其他地区的镜像)
⬇️
保存并重启RStudio
⬇️
options()$repos
和options()$BioC_mirror
#检查是否配置成功
【注:有些电脑会失败,其它方式参考你还在每次配置Rstudio的下载镜像吗?
】
step 2: 安装
install.packages(“包”)
或者BiocManager::install(“包”)
。
【取决于你要安装的包存在于CRAN网站还是Biocductor,存在于哪里?可以谷歌搜到。】
step 3: 加载
library(包)
或者require(包)
试一下~
示例数据直接使用内置数据集iris的简化版:
test <- iris[c(1:2,51:52,101:102),]
2. dplyr五个基础函数
1)mutate()
,新增列
2)select()
,按列筛选
- 按列号筛选
- 按列名筛选
3)filter()
筛选行
4)arrange()
,按某1列或某几列对整个表格进行排序
5)summarise()
:汇总
【对数据进行汇总操作,结合group_by
使用实用性强】
3. dplyr两个实用技能
1)管道操作 %>% (cmd/ctr + shift + M)
(加载任意一个tidyverse包即可用管道符号)
2)count统计某列的unique值
4. dplyr处理关系数据
【即将2个表进行连接,注意:不要引入factor】
⚠️使用options(stringsAsFactors = F)
示例数据
1)內连inner_join
,取交集
2)左连left_join
3)全连full_join
4)半连接:返回能够与y表匹配的x表所有记录semi_join
5)反连接:返回无法与y表匹配的x表的所记录anti_join
6)简单合并
【在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数】