2022-07-31

day6 学习R包

以dplyr为例,学习R包的使用

一、安装和加载R包

  1. 镜像设置

    参考文章:你还在每次配置Rstudio的下载镜像吗?

    方法一:每次打开Rstudio都得运行这两行代码

    options函数就是设置R运行过程中的一些选项设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
    options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
    # 当然可以换成其他地区的镜像
方法二:**R的配置文件**  `.Rprofile` #在启动Rstudio时完成

1.  **`file.edit('~/.Rprofile')`**

2.  在`Rprofile`中添加好上面两行`options`代码

3.  保存重启后运行`options()$repos`和`options()$BioC_mirror` 就发现已经配置好了
  1. 安装

    安装命令install.packages(“包”)或者BiocManager::install(“包”) #取决于你要安装的包存在于CRAN网站还是Biocducto

  2. 加载

    以下两个命令均可:

    library(包) require(包)

二、dplyr五个基础函数

参考文章:https://www.cnblogs.com/koujiaodahan/p/15671405.html

dplyr五个核心函数.png

install.packages("dplyr")

library(dplyr)

  1. mutate() 新增列
  1. select() 按列筛选

    列名 or 列号

  1. filter() 筛选行
*x %in% y 表示x被包含于y,返回True*
  1. arrange() 按某1列/某几列对整个表格进行排序
  1. summarise() 汇总

三、dplyr两个实用技能

  1. 管道操作 %>%(cmd/ctr+shift+M)

    %>% 管道函数读then,即然后

    • 把左边值发送到右边的表达式,并作为右边表达式函数的第一个参数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。

    • 当操作多个数据集或函数时,使用%>%会更方便,更逻辑性。如计算cran上可用函数包的数量:contrib.url

注意:%>%不是base自带,需要先libray(tydiverse) 。否则报:没有"%>%"这个函数

  1. count统计某列的unique值

三、dplyr处理关系数据

1.內连inner_join,取交集

2.左连left_join

3.全连full_join

4.半连接:返回能够与y表匹配的x表所有记录semi_join

5.反连接:返回无法与y表匹配的x表的所记录anti_join

anti_join(x = test2, y = test1, by = 'x')

6.简单合并

在相当于base包里的cbind()函数和rbind()函数;

注意:bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数


你可能感兴趣的:(2022-07-31)