生信星球学习小组第37期 day6 chen

Day6 R包学习 2020-2-19

生信星球学习小组第37期 day6 chen_第1张图片
思维导图——R包学习

1. 了解R包

  • R包是多个函数的集合,具有详细的说明和示例。
  • 学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包
  • 下面练习用到的示例R包:dplyr(主要针对数据框快速计算、整合的函数包)

2. 安装和加载R包

step 1: 镜像设置

高级模式(一次搞定):需要R的配置文件 .Rprofile

说起来这个,就必须提到Rstudio最重要的两个配置文件:在刚开始运行Rstudio的时候,程序会查看许多配置内容,其中一个就是.Renviron,它是为了设置R的环境变量(这里先不说它);而.Rprofile就是一个代码文件,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动Rstudio时完成的)

操作流程

file.edit('~/.Rprofile') #打开并编辑文件
⬇️添加下面两行代码
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
(也可以换成其他地区的镜像)
⬇️
保存并重启RStudio
⬇️
options()$reposoptions()$BioC_mirror #检查是否配置成功

【注:有些电脑会失败,其它方式参考你还在每次配置Rstudio的下载镜像吗?

step 2: 安装

install.packages(“包”)或者BiocManager::install(“包”)
【取决于你要安装的包存在于CRAN网站还是Biocductor,存在于哪里?可以谷歌搜到。】

step 3: 加载

library(包)或者require(包)
试一下~

镜像配置

生信星球学习小组第37期 day6 chen_第2张图片
安装与加载R包

示例数据直接使用内置数据集iris的简化版:
test <- iris[c(1:2,51:52,101:102),]

2. dplyr五个基础函数

1)mutate(),新增列
2.1 新增列
2)select(),按列筛选
  • 按列号筛选
    2.2 按列筛选
  • 按列名筛选
    2.2 按列名筛选
3)filter()筛选行
2.3 筛选行
4)arrange(),按某1列或某几列对整个表格进行排序
2.4 按列排序
5)summarise():汇总

【对数据进行汇总操作,结合group_by使用实用性强】

2.5 汇总

3. dplyr两个实用技能

1)管道操作 %>% (cmd/ctr + shift + M)

(加载任意一个tidyverse包即可用管道符号)


生信星球学习小组第37期 day6 chen_第3张图片
3.1管道符
2)count统计某列的unique值
生信星球学习小组第37期 day6 chen_第4张图片
3.2 count函数

4. dplyr处理关系数据

【即将2个表进行连接,注意:不要引入factor】
⚠️使用options(stringsAsFactors = F)
示例数据

生信星球学习小组第37期 day6 chen_第5张图片
示例数据

1)內连inner_join,取交集
生信星球学习小组第37期 day6 chen_第6张图片
4.1 内连
2)左连left_join
生信星球学习小组第37期 day6 chen_第7张图片
4.2 左连
3)全连full_join
生信星球学习小组第37期 day6 chen_第8张图片
4.3 全连
4)半连接:返回能够与y表匹配的x表所有记录semi_join
生信星球学习小组第37期 day6 chen_第9张图片
4.4 半连接
5)反连接:返回无法与y表匹配的x表的所记录anti_join
生信星球学习小组第37期 day6 chen_第10张图片
4.5 反连接
6)简单合并

【在相当于base包里的cbind()函数和rbind()函数;注意,bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数】


4.6 简单合并

你可能感兴趣的:(生信星球学习小组第37期 day6 chen)