学习小组Day6笔记--小明

生信第6天——学习R包。

R包是多个函数的集合,具有详细的说明和示例。

学生信,R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。包的使用是一通百通的,我们以dplyr为例,讲一下R包。

安装和加载R包

1.镜像设置

两行代码↓可以搞定,但这个方法并不适用于每个电脑,有一部分会失败。随缘,失败的话就每次需要下载R包时运行这两句代码即可。

  • 初级模式
    在使Rstudio的时候为了加速包的下载,都会配置一个国内镜像,最开始是要在Rstudio的程序设置中


    学习小组Day6笔记--小明_第1张图片
    初始配置

    但是这个是CRAN的镜像,如果要下载Bioconductor的包,这个镜像是没有办法用的;另外即使设置了这里,Rstudio也不是每次都能真的从CRAN去下载包,可以通过options()$repos来检验,很多时候还是无奈地回到了R的国外官网,速度超慢

  • 升级模式
    为了保证我们可以自定义CRAN和Bioconductor的下载镜像,其实是可以在Rstudio中进行设置的,只需要运行这两行代码即可:


    Snipaste_2020-04-08_20-27-17.png

    但是这种方法还是有问题,你下次再打开Rstudio会发现,下载Bioconductor还是会回到官方镜像,可以查询options()$BioC_mirror 试试,如果你的依然是自己设置的国内镜像,就不用管了;如果发现需要再重新运行一遍代码进行设置,那么就需要继续看下面的内容。

  • 高级模式
    不想每次打开Rstudio都要运行一遍镜像配置,还要找之前的代码去复制,就需要用到R的配置文件 .Rprofile
    学习小组Day6笔记--小明_第2张图片
    Snipaste_2020-04-08_20-30-17.png

    这个文件的配置其实可以多样(比如linux中我们在.bashrc文件中添加alias 作为快捷命令)
    首先用file.edit()来编辑文件:
    Snipaste_2020-04-08_20-31-04.png

    然后在其中添加好上面的两行options代码
    学习小组Day6笔记--小明_第3张图片
    Snipaste_2020-04-08_20-32-03.png

    最后保存=》重启Rstudio,这时你再运行一下:options()BioC_mirror 就发现已经配置好了,就很方便地省了手动运行的步骤。

2.安装

确保联网再操作。。。不然就尴尬了。
R包安装命令是install.packages("包")或者BiocManager::install("包")。取决于你要安装的包存在于CRAN网站还是Biocductor,存在于哪里?可以谷歌搜到。

3.加载

下面两个命令均可。


Snipaste_2020-04-08_20-33-43.png

安装加载三部曲

Snipaste_2020-04-08_20-36-36.png

示例数据直接使用内置数据集iris的简化版:


Snipaste_2020-04-08_20-37-08.png

dplyr五个基础函数

    1. mutate(),新增列


      学习小组Day6笔记--小明_第4张图片
      Snipaste_2020-04-08_20-40-24.png
    1. select(),按列筛选
  • (1)按列号筛选


    学习小组Day6笔记--小明_第5张图片
    Snipaste_2020-04-08_20-43-17.png
  • (2)按列名筛选


    学习小组Day6笔记--小明_第6张图片
    Snipaste_2020-04-08_20-44-31.png
  • (3)filter()筛选行


    学习小组Day6笔记--小明_第7张图片
    Snipaste_2020-04-08_20-45-39.png
  • (4)arrange(),按某1列或某几列对整个表格进行排序


    学习小组Day6笔记--小明_第8张图片
    Snipaste_2020-04-08_20-46-48.png
  • (5)summarise():汇总


    学习小组Day6笔记--小明_第9张图片
    Snipaste_2020-04-08_20-48-06.png

dplyr五个基础函数

    1. 管道操作 %>% (cmd/ctr + shift + M)
      (加载任意一个tidyverse包即可用管道符号)


      学习小组Day6笔记--小明_第10张图片
      Snipaste_2020-04-08_20-49-43.png
  • 2.count统计某列的unique值


    学习小组Day6笔记--小明_第11张图片
    Snipaste_2020-04-08_20-50-46.png

dplyr处理关系数据

即将2个表进行连接,注意:不要引入factor

学习小组Day6笔记--小明_第12张图片
Snipaste_2020-04-08_20-52-36.png

  • 1.內连inner_join,取交集


    学习小组Day6笔记--小明_第13张图片
    Snipaste_2020-04-08_20-53-31.png
  • 2.左连left_join


    学习小组Day6笔记--小明_第14张图片
    Snipaste_2020-04-08_20-54-31.png
  • 3.全连full_join


    学习小组Day6笔记--小明_第15张图片
    Snipaste_2020-04-08_20-55-31.png
  • 4.半连接:返回能够与y表匹配的x表所有记录semi_join


    学习小组Day6笔记--小明_第16张图片
    Snipaste_2020-04-08_20-56-30.png
  • 5.反连接:返回无法与y表匹配的x表的所记录anti_join


    学习小组Day6笔记--小明_第17张图片
    Snipaste_2020-04-08_20-57-31.png
  • 6.简单合并


    学习小组Day6笔记--小明_第18张图片
    Snipaste_2020-04-08_20-58-19.png

思维导图

学习小组Day6笔记--小明_第19张图片
R包思维导图.png

你可能感兴趣的:(学习小组Day6笔记--小明)