『R脚本练习』dplyr各种join

在刚接触用代码行处理数据的时候，受到课题组的影响，是从shell入门的，具体说逃不过sed grep awk,在这之前我只会用excel下的函数，excel下有个很好的垂直查找vertical lookup,也就是vlookup，用来快速匹配数据，硕士的时候也就是凭借这一个函数解决了2DGel上蛋白质点编号的统一。所以对vlookup有着比较深的感情，可以说这一个函数是我数据分析工作的敲门砖。
回到shell，我当时发现shell命令的强大之后（用awk写了第一个条件筛选的命令）想怎么可以用shell命令实现vlookup，最终有了这篇awk实现excel vlookup,但是随着时间的推移，敲了越来越多的R和python代码，发现vlookup确实有一定的局限，而且当时写的shell脚本也存在一定的问题，操作也比较麻烦，数据处理，还是dplyr和pandas比较强大，这里放一个新鲜的dplyr脚本，当然不只有类似vlookup的left_join，还有right_join, inner_join, full_join, 这次没有偷懒，打了getopt，到时候直接Rscript Rjoin -...

dplyr 各种join

vlookup 其实就是给定一个index，或者说key，然后把另一个表里关于这个key的内容找到具体操作：EXCEL入门必学的VLOOKUP函数相信我你终于可以学会了
dplyr的各种join可以这么理解（下表）: emmmm，刚发现刘博之前发过一个帖子，这个更形象：R语言中dplyr包join函数之目前我看到过的最形象的教程
1. 如果把表1看成left，表2看成right, 那么所谓left_join就是保证表1的key的顺序和数量不变,把表2中和表1-key对应的value3, value4给合并过来，如果表2中没有key中某一个值，这个值对应的表2中的value会写NA
2. right_join参考left_join就对了，就是按照表2的key顺序和数量合并表1的
3. inner_join 就比较神奇了，和你想的差不多，inner_join会取表1和表2 的key值的交集，然后在按顺序把表1，表2与这个key交集对应的value值贴过来。
4. full_join 顾名思义，就是求并集，然后把两个表对应的value值合并过来。

表1

key	value1	value2
k1	v1-1	v2-1
k2	v1-2	v2-2
k3	v1-3	v2-3
..	..	..
kn	v1-n	v2-n

表2

key	value3	value4
k1	v3-1	v4-1
k2	v3-2	v4-2
k3	v3-3	v4-3
..	..	..
kn	v3-n	v4-n

脚本代码

首先确保你的R装了dplyr包，如果没有，打开R或者Rstudio install.packages('dplyr')

########################################
#       Prj: MyScript
#       Assignment: dplyr-join
#       Author: Shawn
#######################################
##=======step1 import library==========
suppressMessages(library(getopt))
##=======step2 args setting============
command=matrix(c(
  'help', 'h', 0, 'logic', 'help information',
  'method', 'm', 1, 'character', 'JoinMethod: left, right, inner, full; default: left(equals excel vlookup)',
  'left', 'x', 1, 'character', 'left_file: the 1st file',
  'right', 'y', 1, 'character', 'right_file: the 2nd file',
  'key', 'k', 1, 'character', 'key(by): the colnames of key columns, makesure leftfile and rightfile have the same colnames of key column'
),byrow = T, ncol = 5)
args = getopt(command)

## help information
if (!is.null(args$help)) {
  cat(paste(getopt(command, usage = T), "\n"))
  q(status=1)
}

## default value
if (is.null(args$method)){
  args$method = "left"
}

## functions
suppressMessages(library(dplyr))
options(stringsAsFactors = F)
method <- args$method
left <- args$left
right <- args$right
key <- args$key

Rjoin = function(method,left,right,key){
  ## input data
  x = read.delim(file = left, header = T,
                 sep = "\t", quote = NULL)
  y = read.delim(file = right, header = T,
                 sep = "\t", quote = NULL)
  ## join
  if (method == "left") {
    z = left_join(x,y, by = key)
  } else if (method == "right") {
    z = right_join(x,y, by = key)
  } else if (method == "inner") {
    z = inner_join(x,y, by = key)
  } else if (method == "full") {
    z = full_join(x,y, by = key)
  } 
  ## output
  write.table(z,file = paste(left,right,method,key,".xls",sep = "_"),
              sep = "\t",
              quote = F,
              row.names = F)
}

Rjoin(method = method,
      left = left,
      right = right,
      key = key)

用法

windows：
复制上面的代码到代码编辑器或者Rstudio，或者记事本里保存成Rjoin.R，怎么运行脚本参考：

将R加入环境变量，并启动R脚本
windows10建议开启内建的bash教程然后装miniconda，然后在conda下装R。

linux or macos：
复制上面的代码到代码编辑器或者Rstudio，或者记事本里保存成Rjoin.R，打开终端chmod +x Rjoin.R给脚本添加可执行权限。

注意事项：

两个要进行join的文件必须是制表符分隔符分隔的文件，由于总有你意想不到的奇葩文件出现，本来做了sep这个可选参数，但是read.table只认识逗号，制表符，空格等常规的，为了避免麻烦，不如统一了输入文件的格式，最简单的办法就是exce -> 另存为 -> 类型选择制表符分隔符的txt.
你要合并的关键列（key）必须有相同的列名！这个没办法，join函数自带的by就是通过相同列名的column来合并的
如果自己在Rstudio中跑function的话，要求你要合并的两个数据表数据类型必须是 dataframe

脚本执行

一共设置了4个参数（除了帮助外），

-m/--method: 你想怎么合并，后面跟"left", "right", "inner" "full"。
-l/--left: 左边的文件（第一个文件）。
-r/--right: 右边的文件（第二个文件）。
-k/--key: 两个文件key那一列的列名。

## 看下帮助：
~ »Rscript /Users/shawnwang/02.MyScript/BioScript/01.R/Rjoin.R -h
Usage: /Users/shawnwang/02.MyScript/BioScript/01.R/Rjoin.R [-[-help|h]] [-[-method|m] ] [-[-left|x] ] [-[-right|y] ] [-[-key|k] ]
    -h|--help      help information ## 帮助
    -m|--method    JoinMethod: left, right, inner, full; default: left(equals excel vlookup) ## 选择方法
    -x|--left      left_file: the 1st file ## 左边的文件
    -y|--right     right_file: the 2nd file ## 右边的文件
    -k|--key       key(by): the colnames of key columns, makesure leftfile and rightfile have the same colnames of key column ## 查找关键列的列名
## 下面这段代码是a.txt 和 b.txt 的node1这一列的并集相关信息合并。
Rscript /Users/shawnwang/02.MyScript/BioScript/01.R/Rjoin.R -m "full" -x a.txt -y b.txt -k "node1"

done...继续搬砖去

『R脚本练习』dplyr各种join

dplyr 各种join

脚本代码

用法

脚本执行

你可能感兴趣的:(『R脚本练习』dplyr各种join)