生信星球学习小组第37期 day6 chen

Day6 R包学习 2020-2-19

思维导图——R包学习

1. 了解R包

R包是多个函数的集合，具有详细的说明和示例。
学生信，R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包
下面练习用到的示例R包：dplyr（主要针对数据框快速计算、整合的函数包）

2. 安装和加载R包

step 1: 镜像设置

高级模式（一次搞定）：需要R的配置文件 .Rprofile

说起来这个，就必须提到Rstudio最重要的两个配置文件：在刚开始运行Rstudio的时候，程序会查看许多配置内容，其中一个就是.Renviron，它是为了设置R的环境变量（这里先不说它）；而.Rprofile就是一个代码文件，如果启动时找到这个文件，那么就替我们先运行一遍（这个过程就是在启动Rstudio时完成的）

操作流程

file.edit('~/.Rprofile') #打开并编辑文件
⬇️添加下面两行代码
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
(也可以换成其他地区的镜像)
⬇️
保存并重启RStudio
⬇️
options()$repos和options()$BioC_mirror #检查是否配置成功

【注：有些电脑会失败，其它方式参考你还在每次配置Rstudio的下载镜像吗？
】

step 2: 安装

install.packages(“包”)或者BiocManager::install(“包”)。
【取决于你要安装的包存在于CRAN网站还是Biocductor，存在于哪里？可以谷歌搜到。】

step 3: 加载

library(包)或者require(包)
试一下～

镜像配置

安装与加载R包

示例数据直接使用内置数据集iris的简化版:
test <- iris[c(1:2,51:52,101:102),]

2. dplyr五个基础函数

1）`mutate()`,新增列

2.1 新增列

2）`select()`,按列筛选

按列号筛选

2.2 按列筛选
按列名筛选

2.2 按列名筛选

3）`filter()`筛选行

2.3 筛选行

4）`arrange()`,按某1列或某几列对整个表格进行排序

2.4 按列排序

5）`summarise()`：汇总

【对数据进行汇总操作,结合group_by使用实用性强】

2.5 汇总

3. dplyr两个实用技能

1）管道操作 %>% (cmd/ctr + shift + M)

（加载任意一个tidyverse包即可用管道符号）

3.1管道符

2）count统计某列的unique值

3.2 count函数

4. dplyr处理关系数据

【即将2个表进行连接，注意：不要引入factor】
⚠️使用options(stringsAsFactors = F)
示例数据

示例数据

1）內连`inner_join`,取交集

4.1 内连

2）左连`left_join`

4.2 左连

3）全连`full_join`

4.3 全连

4）半连接：返回能够与y表匹配的x表所有记录`semi_join`

4.4 半连接

5）反连接：返回无法与y表匹配的x表的所记录`anti_join`

4.5 反连接

6）简单合并

【在相当于base包里的cbind()函数和rbind()函数;注意，bind_rows()函数需要两个表格列数相同，而bind_cols()函数则需要两个数据框有相同的行数】

4.6 简单合并

生信星球学习小组第37期 day6 chen

Day6 R包学习 2020-2-19

1. 了解R包

2. 安装和加载R包

step 1: 镜像设置

step 2: 安装

step 3: 加载

2. dplyr五个基础函数

1）mutate(),新增列

2）select(),按列筛选

3）filter()筛选行

4）arrange(),按某1列或某几列对整个表格进行排序

5）summarise()：汇总