学习小组Day6笔记--LA

先回答昨天的问题
save(X,file="test.RData")这句代码如果报错X not found,是为什么,应该怎么解决?
X可能没有被赋值吧。X被赋值就好了,打的时候把X打成x了,所以没有赋值成功(抱歉抱歉没看到最后)

一、镜像配置

  • 1.安装镜像
#options函数就是设置R运行过程中的一些选项设置
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) #对应清华源
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/") #对应中科大源
#当然可以换成其他地区的镜像
  • 2.安装R包
    install.packages(“包”)或者BiocManager::install(“包”)看哪一个能够收到
    加载
    library(包) require(包)

二、dplyr函数的操作

  • 1.test <- iris[c(1:2,51:52,101:102),]
    给test赋值iris包的1、2、51、52、101、102行的数据
  • 2.mutate()添加新变量并保留现有变量; transmute()添加新变量,并删除现有变量。
    mutate(.data, 列名=数据)


    eg1
  • 3.select(),按列筛选
    select(data,筛选内容),可以按列名,按列数


    eg2
  • 4.filter()筛选行
    filter(data,筛选内容),可以按行名,按行数,还可以筛选特殊字符
    filter(test, Species %in% c("setosa","versicolor"))
    eg3

    在test中选择存在"setosa","versicolor"的行
    filter(test, Species == "setosa"&Sepal.Length > 5 )
    在test中选择是setosa的,并Sepal.Length > 5 的行
    eg4
  • 5.arrange(),按某1列或某几列对整个表格进行排序
    arrange(test, Petal.Length)#默认从小到大排序
    arrange(test, desc(Petal.Length))#用desc从大到小
  • 6.summarise():汇总

    group_by(test, Species)先按照Species分组
    eg5

    summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length))

    jisuan计算每组Sepal.Length的平均值和标准差


    eg6
  • 7.管道操作 %>% (cmd/ctr + shift + M)
test %>% 
group_by(Species) %>% 
summarise(mean(Sepal.Length), sd(Sepal.Length))

一级一级跟上去串通

  • count统计某列的各个元素的个数


    eg7

三、dplyr处理关系数据

options(stringsAsFactors = F),stringsAsFactors = F不会把字符当作元素,只把我们告诉的当元素,自动识别的不是元素。frame()函数创建数据集合。

  • 1.inner join是内关联,没有主表附表的概念;两个表中,同时符合关联条件的数据才会显示出来。
    inner_join(test1, test2, by = "x")
    取值以test1和test2中X列中相等的数为准,y、z列的取值和x列的取值要在一行上面
  • 2.left join是做左外关联,主表内容都会显示;符合关联条件的附表内容才会显示出来。
    左表为主表,筛选右表中和左表一样的显示出来,以X列为准,其他的要行数位置一样


    eg8

    eg9
    eg10
  • 3全连full_join
    全部都显示,重复部分不显示
  • 4.半连接:只保留x中能与y匹配的记录semi_join(x,y)
  • 5.反连接:是丢掉x中与y匹配的记录。anti_join(x,y)
  • 6.简单合并
    bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数

总结

你可能感兴趣的:(学习小组Day6笔记--LA)