学习小组Day6笔记-JWJ

1. 配置Rstudio的下载镜像

1. 配置镜像的原因

为了加速包的下载,需要配置国内镜像。

2. 配置镜像的方法(https://m.umu.cn/course/?groupId=5667230&sKey=c8e86a5561351147a4c538fd19cd623d)

1)通过工具栏配置
一般都是在Rstudio的tools工具栏中,对Packages中的primary CRAN repository进行设置,但这个镜像在下载Bioconductor的包时没有办法使用,同时也不能保证Rstudio每次都从CRAN下载包。
2)通过Rstudio的代码直接配置
对于CRAN和Bioconductor的下载镜像,可以用Rstudio直接配置
选择用Rstudio的配置文件.Rprofile,先用file.edit('~/.Rprofile')编辑文件,再将以下代码分别输入至脚本编辑器界面并保存。
options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))
options(BioC_mirros="https://mirrors.ustc.edu.cn/bioc/")
重启Rstudio之后运行options()BioC_mirror检测镜像是否配置成功,结果发现CRAN的镜像配置成功,但Bioconductor的运行结果是Null,因此,改变Bioconductor的镜像网站,运行没有问题。所有的镜像和运行结果如下所示:

image.png

image.png

2. R的包

R包安装: install.packages("包")
BiocManager::install("包")
R包加载:library(包)
require(包)

3.dplyr包的应用

1. dplyr的安装和加载

R包dplyr可用于处理R内部或者外部的结构化数据。


image.png

image.png

2. dplyr的应用

1. mutate(),新增列

首先对变量test进行赋值


image.png

用mutate()函数新增列


image.png

2. select(),按列筛选

按列号筛选


image.png

按列名筛选


image.png

3. filter(),按行筛选

image.png

4.arrange()按某一列或某几列对表格进行排序

image.png

5.summarize()汇总

image.png

6. 管道操作 %>% (cmd/ctr + shift + M)

管道函数的作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。符号%>%即管道操作,意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置)。


image.png

7. count()统计某列的unique值

image.png

8. 处理关系数据

1)将两个表进行连接
a) stringsAsFactors = F意味着“在读入数据时,遇到字符串之后,不将其转换为factors,仍然保留为字符串格式”。
b)连接的两个表必须具有相同的行数


image.png

2)连接
inner_join(test1,test2,by="x")内连test1和test2,取交集
left_join(test1,test2,by="x"),左连
right_join(test1,test2,by="x"),右连
full_join(test1,test2,by="x"),全连
semi_join(x=test1,y=test2,by="x"),半连
anti_join(x=test1,y=test2,by="x"),反连


image.png

3)合并
通过bind_rows和bind_col合并不同的变量


image.png

心得:跟着教程是没有什么问题的,但自己处理数据还是不知道怎么做~~~

你可能感兴趣的:(学习小组Day6笔记-JWJ)