day6 学习R包
以dplyr为例,学习R包的使用
一、安装和加载R包
-
镜像设置
参考文章:你还在每次配置Rstudio的下载镜像吗?
方法一:每次打开Rstudio都得运行这两行代码
options函数就是设置R运行过程中的一些选项设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
# 当然可以换成其他地区的镜像
方法二:**R的配置文件** `.Rprofile` #在启动Rstudio时完成
1. **`file.edit('~/.Rprofile')`**
2. 在`Rprofile`中添加好上面两行`options`代码
3. 保存重启后运行`options()$repos`和`options()$BioC_mirror` 就发现已经配置好了
-
安装
安装命令:
install.packages(“包”)
或者BiocManager::install(“包”)
#取决于你要安装的包存在于CRAN网站还是Biocducto -
加载
以下两个命令均可:
library(包) require(包)
二、dplyr五个基础函数
参考文章:https://www.cnblogs.com/koujiaodahan/p/15671405.html
install.packages("dplyr")
library(dplyr)
-
mutate()
新增列
-
select()
按列筛选列名 or 列号
-
filter()
筛选行
*x %in% y 表示x被包含于y,返回True*
-
arrange()
按某1列/某几列对整个表格进行排序
-
summarise()
汇总
三、dplyr两个实用技能
-
管道操作
%>%(cmd/ctr+shift+M)
%>%
管道函数读then
,即然后把左边值发送到右边的表达式,并作为右边表达式函数的第一个参数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。
当操作多个数据集或函数时,使用%>%会更方便,更逻辑性。如计算cran上可用函数包的数量:
contrib.url
注意:%>%不是base自带,需要先
libray(tydiverse)
。否则报:没有"%>%"这个函数
- count统计某列的unique值
三、dplyr处理关系数据
1.內连inner_join,取交集
2.左连left_join
3.全连full_join
4.半连接:返回能够与y表匹配的x表所有记录semi_join
5.反连接:返回无法与y表匹配的x表的所记录anti_join
anti_join(x = test2, y = test1, by = 'x')
6.简单合并
在相当于base包里的cbind()函数和rbind()函数;
注意:bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数