用 R 中 diff() 函数和 lag() 函数求每个基因中相邻位点间的距离

图床放在 github, 有时候看不到图没关系,运行一遍就行了。(好吧我两个都放,自己的也放一个。)
前几天师兄问我一个小问题,说有一堆基因,每个基因上又不同的位点,想看下每个基因对应的后一个位点与前面位点的距离。听起来有点 斐波那契数列 的味道,只是这里是求位点间的距离。按照基因分组,对位置排序,然后后面的位置减去前面的位置,说这么多好像没有一个图来的实际。

用 R 中 diff() 函数和 lag() 函数求每个基因中相邻位点间的距离_第1张图片
image

用 R 中 diff() 函数和 lag() 函数求每个基因中相邻位点间的距离_第2张图片
图床。。

emm, 既然需求说清楚了,那就搞起来。

数据长这样

Proteinaccession    Position
A0A0N7KCG8  92
A0A0N7KCG8  97
A0A0N7KCG8  138
A0A0N7KCG8  261
A0A0N7KD63  16
A0A0N7KD71  191
A0A0N7KDI2  14
A0A0N7KEK0  86
A0A0N7KEL2  112
A0A0N7KEN1  498
A0A0N7KEN1  513
A0A0N7KFI2  241
A0A0N7KFL5  11
A0A0N7KG02  356
A0A0N7KGS3  137
A0A0N7KH16  81
A0A0N7KH54  148
A0A0N7KH54  184
A0A0N7KI17  359
A0A0N7KI20  77
A0A0N7KI20  224
A0A0N7KI20  282
A0A0N7KIR0  18
A0A0N7KIR1  104
A0A0N7KIR1  285
A0A0N7KJ67  81
A0A0N7KJB1  342
A0A0N7KJF4  78
A0A0N7KK10  235
A0A0N7KK10  256
A0A0N7KK10  279
A0A0N7KK90  387
A0A0N7KKI3  21
A0A0N7KKT9  50
A0A0N7KLH2  307
A0A0N7KLN6  9
A0A0N7KLY1  1033
A0A0N7KMN9  220

R 中进行操作

  • 这里我们只采用两种方法,当然方法是无穷无尽的。分别是利用 lag() 函数和 diff() 函数
  • 只有一个位点的基因这里不做考虑,所以在分析前就用 n() > 1 过滤
# copy 上面的示例数据,然后直接从剪切面板导入数据,不知道啥操作,自行百度一下就知道了。
data <- read.table(file = "clipboard", header = T, sep = "\t")

library(tidyverse)

# 第一种方法使用 lag() 函数,简单明了
data1 <- data %>%
  group_by(Proteinaccession) %>%
  filter(n() > 1) %>% # 过滤掉只有一个位点的基因
  mutate(end = lag(Position),
         distance = Position - lag(Position)) %>%
  ungroup() 
  
# 第二种方法与 lag() 函数类似
data2 <- data %>%
  group_by(Proteinaccession) %>%
  filter(n() > 1) %>% # 过滤掉只有一个位点的基因
  mutate(end = c(NA, Position[-n()]),
         distance = c(NA, diff(Position))) %>%
  ungroup() 

最后得到的结果就是这样的。


用 R 中 diff() 函数和 lag() 函数求每个基因中相邻位点间的距离_第3张图片
image

用 R 中 diff() 函数和 lag() 函数求每个基因中相邻位点间的距离_第4张图片
图床。。

最后安利一些函数大家了解一下:

  • R 语言中的偏移窗口函数:R 语言中有 5 个偏移窗口函数: lead ()、lag ()、first ()、last () 和 nth () 函数
  • R 语言中的排名窗口函数:row_number ()、rank ()、dense_rank ()、ntile ()
  • R 语言中的聚合窗口函数: sum()、cumsum()、min()、cummin()、max()、cummax()、mean()、cummean()、n()

你可能感兴趣的:(用 R 中 diff() 函数和 lag() 函数求每个基因中相邻位点间的距离)