The GenomicRanges package serves as the foundation for representing genomic locations within the Bioconductor project.
This package lays a foundation for genomic analysis by introducing three classes (GRanges, GPos, and GRangesList), which are used to represent genomic ranges, genomic positions, and groups of genomic ranges. This vignette focuses on the GRanges and GRangesList classes and their associated methods.
GenomicRanges 包是研究基因组位置的基础,是一组区间范围比如一个基因的所有exon。基因组位置(genomic range/intervals)由染色体号、起始和结束位点、链方向组成,每个基因组版本都有特定的位置信息。GRanges与IRanges相比,它可以定义序列名称,包括起始点及终止点的长度信息,正负链,或者他们的score值和GC值等。
B. 操作
Sys.setenv(LANGUAGE = "en")
if (!requireNamespace("BiocManager", quietly = TRUE))
2. 基本操作
gr <- GRanges(
seqnames = Rle(c("chr1", "chr2", "chr1", "chr3"), c(1, 3, 2, 4)),#查看基因的名称
ranges = IRanges(101:110, end = 111:120, names = head(letters, 10)),#查看基因的区域
strand = Rle(strand(c("-", "+", "*", "+", "-")), c(1, 2, 2, 3, 2)),#查看基因位于哪条链
score = 1:10,
GC = seq(1, 0, length=10))
左边:数据【必选】基因组坐标信息(seqnames, ranges, strand);用granges(gr) 查看
右边:元数据【可选】基因的注释信息(score, GC 等); 用mcols(gr)查看,用 mcols(gr)$score 查看具体的元数据项
width() 统计基因组序列长度分布;length() 计算行数;names() 查看最前列的名称
# seqnames, ranges,和strand存取函数
seqlengths(gr) <- c(249250621, 243199373, 198022430)
2.1 切割与合并
sp <- split(gr, rep(1:2, each=5))#切割
c(sp[[1]], sp[[2]])#合并
2.2 Subsetting GRanges objects取子集
gr[2:3]# []取2、3列
gr[2:3, "GC"] #[]用来取|右边的注释数据
# 元素分配给GRanges对象
singles <- split(gr, names(gr))#根据names来分割
grMod <- gr
grMod[2] <- singles[[1]]#GRanges对象的第二行替换为gr的第一行
head(grMod, n=3)
# 重复、逆向、选择特定区域
rep(singles[[2]], times = 3) #重复3次
window(gr, start=2,end=4)#选择特定行
gr[IRanges(start=c(2,7), end=c(3,9))]#选择跨区域特定行
# 进行筛选
gr[gr$score>5 & gr$GC<0.8]#score大于5并且GC含量小于0.8的
gr[strand(gr) == "+"]#strand为正链的
gr[strand(gr) != "+"]#strand为非正链的
# 排序
# sort(gr)按基因组seqname顺序,先排正链+,再排负链-,最后排*(正链或负链)
# order(gr)根据某项可选内容(|右侧)排序
gr[order(gr$GC,decreasing = T)]#根据GC含量降序排序
2.3 Basic interval operations基础序列间隔操作
g <- gr[1:3]
g <- append(g, singles[[10]])
# intra-range methods内部, inter-range methods外部, and between-range methods之间.
# !intra-range methods!内部
# flank 取上游10bp的区域,也可取下游10bp[位置:+链起始位置向前,-链终止位置向后]
flank(g, 10)
grflank<- flank(g, 10, start=FALSE)#取下游
# 如果出现了负数,替换成1即可。
start(gr3[start(gr3) < 1]) = 1
# 分析上游upstream 其实就是等同于找启动子
# 分析下游downstram 可以寻找UTR,UTR长度不固定,3'-UTR/ trailer存在alternative poly A 调控元件。UTR越长,一般能target的microRNA也越长。
# 启动子存在于上游2k--下游100/200bp,并非一定在TSS (转录开始的位置)之前
# 图2
# 也可以用promoters函数
promoters(gr2, upstream = 2000, downstream = 10)
# shift 以特定数量的碱基对移动范围
shift(g, 5)##向上游偏移
# resize 将Ranges扩展到指定宽度
resize(g, 30)#调整width,只调整下游
# see help ?"intra-range-methods"有总结
# !inter-range methods!外部
# reduce()将Ranges合并overlap以生成一个简化区间
# gaps() Ranges间的差距或质量
# disjoin()不重叠范围的集合
# coverage() 所有范围重叠程度
# see help ?"inter-range-methods" for more help
2.4 Interval set operations间隔集操作
#Between-range methods计算不同Granges间的关系
g2 <- head(gr, n=2)
union(g, g2) # 并集
intersect(g, g2) # 交集
setdiff(g, g2)# 补集
g3 <- g[1:2]
ranges(g3[1]) <- IRanges(start=105, end=112)
punion(g2, g3)
pintersect(g2, g3)
psetdiff(g2, g3)
3 GRangesList: 基因组范围的集合
# 基因组上多组区间范围(比如多个基因的exon),一些转录本聚合展示重要的基因组信息,比如构成外显子
# 我理解就和基本数据结构中list类似
gr1 <- GRanges(
seqnames = "chr2",
ranges = IRanges(103, 106),
strand = "+",
score = 5L, GC = 0.45)
gr2 <- GRanges(
seqnames = c("chr1", "chr1"),
ranges = IRanges(c(107, 113), width = 3),
strand = c("+", "-"),
score = 3:4, GC = c(0.3, 0.5))
grl <- GRangesList("txA" = gr1, "txB" = gr2)
3.1 GRangesList基本信息
# length()和names()返回列表的长度/名称
seqlengths(grl)# seqlengths方法将返回子集list序列长度
# elementNROWS()输出各子集行数
# 比data.frame中lapply更快
# isEmpty测试GRangesList中是否含空对象
# 与GRanges类似,查看元数据,但返回list
mcols(grl) <- c("Transcript A","Transcript B")
# 取每个元素要unlist
# mcols(unlist(grl))
3.2 Combining GRangesList objects组合操作
ul <- unlist(grl)
# Append lists using append or c
# 两个GRangelist有parallel,想组合成1个GRangelist
# 1.pc() – parallel (element-wise) c().
# 2.连接lists,然后按某个因素重新分组,在本例中用元素名称
grl1 <- GRangesList(
gr1 = GRanges("chr2", IRanges(3, 6)),
gr2 = GRanges("chr1", IRanges(c(7,13), width = 3)))
grl2 <- GRangesList(
gr1 = GRanges("chr2", IRanges(9, 12)),
gr2 = GRanges("chr1", IRanges(c(25,38), width = 3)))
pc(grl1, grl2)
grl3 <- c(grl1, grl2)
regroup(grl3, names(grl3))
3.3 基本间隔操作GRangesList
#整数List, 元素全是整数的list
shift(grl, 20)
3.4 取子集
grl[1, "score"]
grl["txB", "GC"]
#基本操作head, tail, rep, rev, window
rep(grl[[1]], times = 3)
head(grl, n=1)
tail(grl, n=1)
window(grl, start=1, end=1)
grl[IRanges(start=2, end=2)]
3.5 循环操作Looping over GRangesList objects
#lapply,sapply, mapply, endoapply, mendoapply,Map, and Reduce.
lapply(grl, length)#对list中各个对象求长度,返回list
sapply(grl, length)#对list中各个对象求长度
grl2 <- shift(grl, 10)
names(grl2) <- c("shiftTxA", "shiftTxB")
mapply(c, grl, grl2)#合并多个list中的对象
Map(c, grl, grl2)
# 返回原始GRangesList
endoapply(grl, rev)
mendoapply(c, grl, grl2)
# 去除冗余,把所有对象合并到GRangesList
Reduce(c, grl)
# lapply and friends很慢
# 1.?S4groupGeneric union, punion
# 2.unlist 和relist
# 对list中某一个object进行操作
gr <- unlist(grl)
gr$log_score <- log(gr$score)#增加一列meta信息log_socre,求socre的对数
grl <- relist(gr, grl)
#see ?extractList for more information
#gr[gr %over% grl] 存在于gr中的gr与grl的overlap
findOverlaps(gr, grl)
countOverlaps(gr, grl)
findOverlaps(gr, grl, select="first")
findOverlaps(grl, gr, select="first")
5.Session Information
C. GRanges包中常见问题梳理
[1] R- GenomicRanges使用作者:刘小泽
[2] Triplex: an R/Bioconductor package for identification and visualization of potential intramolecular triplex patterns in DNA sequences
[3] An Introduction to the GenomicRanges Package