R/BioC序列处理之五：Rle和Ranges

（本文已于2015.09.08更新）

生物序列信息不仅仅指序列本身，它们还包括其他类型的信息，如基因都定位在哪些序列（染色体）上，正链还是负链，什么位置，其他数据库对应的编号是什么，有什么功能等等。下面介绍BioC中用于这些数据存储和处理的Rle和Ranges类。

1 Rle（Run Length Encoding，行程编码）

1.1 Rle类和Rle对象

序列或基因最终要定位到染色体上。序列往往数量非常巨大，但染色体数量很少，如果每条序列的染色体定位都显式标注，将会产生大量的重复信息，更糟糕的是它们要占用大量的内存。BioC的IRanges包为这些数据提供了一种简便可行的信息压缩方式，即Rle。如果染色体1-3分别有3000,5000和2000个基因，基因的染色体注释可以用字符向量表示，也可以用Rle对象表示：

library(IRanges)  ##可以不执行，载入Biostrings包将自动载入依赖包IRanges
library(Biostrings)
chr.str <- c(rep("ChrI", 3000), rep("ChrII", 5000), rep("ChrIII", 2000))
chr.rle <- Rle(chr.str)

两种方式的效果是完全一样的，但是Rle对象占用空间还不到字符向量的2%：

## Rle对象向量化后和原向量是完全相同的：
identical(as.vector(chr.rle), chr.str)

## [1] TRUE

## 对象大小（内存占用）比：
as.vector(object.size(chr.rle)/object.size(chr.str))

## [1] 0.01616283

使用Rle并不总是可以“压缩”数据。如果信息没有重复或重复量很少，Rle会占用更多的内存：

strx <- sample(DNA_BASES, 10000, replace = TRUE)
strx.rle <- Rle(strx)
as.vector(object.size(strx.rle)/object.size(strx))

## [1] 1.130721

Rle对象用两个属性来表示原向量，一个是值（values），可以是向量或因子；另一个是长度（lengths），为整型数据，表示对应位置的value的重复次数。

chr.rle

## character-Rle of length 10000 with 3 runs
##   Lengths:     3000     5000     2000
##   Values :   "ChrI"  "ChrII" "ChrIII"

getClass(class(chr.rle))

## Class "Rle" [package "S4Vectors"]
## 
## Slots:
##                                                                       
## Name:           values         lengths elementMetadata        metadata
## Class:  vectorORfactor         integer DataTableORNULL            list
## 
## Extends: 
## Class "Vector", directly
## Class "Annotated", by class "Vector", distance 2

1.2 Rle对象的处理方法

1.2.1 Rle对象构建/获取：

Rle对象可以用构造函数Rle来产生，它有两种用法：

Rle(values)
Rle(values, lengths)

values和lengths均为（原子）向量。第一种用法前面已经出现过了，我们看看第二种用法：

chr.rle <- Rle(values = c("Chr1", "Chr2", "Chr3", "Chr1", "Chr3"), lengths = c(3,
    2, 5, 4, 5))
chr.rle

## character-Rle of length 19 with 5 runs
##   Lengths:      3      2      5      4      5
##   Values : "Chr1" "Chr2" "Chr3" "Chr1" "Chr3"

原子向量也可以通过类型转换函数as由原子向量产生，它等价于上面的第一种方式：

as(chr.str, "Rle")

## character-Rle of length 10000 with 3 runs
##   Lengths:     3000     5000     2000
##   Values :   "ChrI"  "ChrII" "ChrIII"

1.2.2 获取属性：

Rle是S4类，Rle对象的属性如值、长度等可以使用属性读取函数获取：

runLength(chr.rle)

## [1] 3 2 5 4 5

runValue(chr.rle)

## [1] "Chr1" "Chr2" "Chr3" "Chr1" "Chr3"

nrun(chr.rle)

## [1] 5

start(chr.rle)

## [1]  1  4  6 11 15

end(chr.rle)

## [1]  3  5 10 14 19

width(chr.rle)

## [1] 3 2 5 4 5

1.2.3 属性替换：

Rle对象的长度和值还可以使用属性替换函数进行修改：

runLength(chr.rle) <- rep(3, nrun(chr.rle))
chr.rle

## character-Rle of length 15 with 5 runs
##   Lengths:      3      3      3      3      3
##   Values : "Chr1" "Chr2" "Chr3" "Chr1" "Chr3"

runValue(chr.rle)[3:4] <- c("III", "IV")
chr.rle

## character-Rle of length 15 with 5 runs
##   Lengths:      3      3      3      3      3
##   Values : "Chr1" "Chr2"  "III"   "IV" "Chr3"

## 替换向量和被替换向量的长度必需相同，否则出错。下面两个语句都不正确：
runValue(chr.rle) <- c("ChrI", "ChrV")

## Error in .Call2("Rle_constructor", values, lengths, check, 0L, PACKAGE = "S4Vectors"): 'length(lengths)' != 'length(values)'

runLength(chr.rle) <- 3

## Error in .Call2("Rle_constructor", values, lengths, check, 0L, PACKAGE = "S4Vectors"): 'length(lengths)' != 'length(values)'

1.2.4 类型转换：

除使用as.vector函数外，Rle对象还可以使用很多函数进行类型转换，如：

as.factor(chr.rle)

##  [1] Chr1 Chr1 Chr1 Chr2 Chr2 Chr2 III  III  III  IV   IV   IV   Chr3 Chr3
## [15] Chr3
## Levels: Chr1 Chr2 Chr3 III IV

as.character(chr.rle)

##  [1] "Chr1" "Chr1" "Chr1" "Chr2" "Chr2" "Chr2" "III"  "III"  "III"  "IV"  
## [11] "IV"   "IV"   "Chr3" "Chr3" "Chr3"

1.2.5 Rle的S4类集团泛函数运算

Rle是BioC定义的基础数据类型。既然“基础”，那么它应当能进行R语言中数据的一般性运算，比如加减乘除、求模、求余等数学运算。事实也是如此，Rle支持R语言S4类集团泛函数（group generic functions，“集团通用函数”？）运算，包括算术、复数、比较、逻辑、数学函数和R语言的汇总（"max", "min", "range", "prod", "sum", "any", "all"等）运算（没有去验证是否所有运算都已实现）。下面仅简单具几个例子，具体情况请参考Rle-class的相关说明：

set.seed(0)
rle1 <- Rle(sample(4, 6, replace = TRUE))
rle2 <- Rle(sample(5, 12, replace = TRUE))
rle3 <- Rle(sample(4, 8, replace = TRUE))
rle1 + rle2

## integer-Rle of length 12 with 11 runs
##   Lengths: 1 1 1 1 1 1 1 1 1 2 1
##   Values : 9 7 6 7 5 3 5 6 4 7 5

rle1 + rle3

## integer-Rle of length 8 with 8 runs
##   Lengths: 1 1 1 1 1 1 1 1
##   Values : 8 4 6 7 5 4 5 4

rle1 * rle2

## integer-Rle of length 12 with 11 runs
##   Lengths:  1  1  1  1  1  1  1  1  1  2  1
##   Values : 20 10  8 12  4  2  4  8  4 12  4

sqrt(rle1)

## numeric-Rle of length 6 with 5 runs
##   Lengths:                1                2 ...                1
##   Values :                2  1.4142135623731 ...                1

range(rle1)

## [1] 1 4

cumsum(rle1)

## integer-Rle of length 6 with 6 runs
##   Lengths:  1  1  1  1  1  1
##   Values :  4  6  8 11 15 16

(rle1 <- Rle(sample(DNA_BASES, 10, replace = TRUE)))

## character-Rle of length 10 with 9 runs
##   Lengths:   1   1   1   1   2   1   1   1   1
##   Values : "C" "A" "C" "T" "C" "G" "C" "A" "T"

(rle2 <- Rle(sample(DNA_BASES, 8, replace = TRUE)))

## character-Rle of length 8 with 8 runs
##   Lengths:   1   1   1   1   1   1   1   1
##   Values : "G" "T" "A" "G" "C" "T" "G" "T"

paste(rle1, rle2, sep = "")

## character-Rle of length 10 with 10 runs
##   Lengths:    1    1    1    1    1    1    1    1    1    1
##   Values : "CG" "AT" "CA" "TG" "CC" "CT" "GG" "CT" "AG" "TT"

2 Ranges（序列区间/范围）

2.1 BioC中的Ranges

Ranges是一类特殊但又常用的数据类型，它们可以表示小段序列在大段序列中的位置、名称和组织结构等信息。BioC中与Ranges定义有关的软件包主要有IRanges, GenomicRanges和GenomicFeatures。
IRanges包定义了Ranges的一般数据结构和处理方法，但不直接面向序列处理；GenomicRanges包定义的GRanges和GRangesList类除了储存Ranges信息外还包含了序列的名称和DNA链等信息；而GenomicFeatures（包）则处理以数据库形式提供的GRanges信息，如基因、外显子、内含子、启动子、UTR等。
先看看BioC中Ranges最基本的类定义：

getClass("Ranges")

## Virtual Class "Ranges" [package "IRanges"]
## 
## Slots:
##                                                       
## Name:      elementType elementMetadata        metadata
## Class:       character DataTableORNULL            list
## 
## Extends: 
## Class "IntegerList", directly
## Class "RangesORmissing", directly
## Class "AtomicList", by class "IntegerList", distance 2
## Class "List", by class "IntegerList", distance 3
## Class "Vector", by class "IntegerList", distance 4
## Class "Annotated", by class "IntegerList", distance 5
## 
## Known Subclasses: 
## Class "IRanges", directly
## Class "Partitioning", directly
## Class "GappedRanges", directly
## Class "NCList", directly
## Class "IntervalTree", directly
## Class "NormalIRanges", by class "IRanges", distance 2
## Class "PartitioningByEnd", by class "Partitioning", distance 2
## Class "PartitioningByWidth", by class "Partitioning", distance 2
## Class "PartitioningMap", by class "Partitioning", distance 3

Ranges是虚拟类，实际应用中最常用的IRanges子类，它继承了Ranges的数据结构，另外多设置了3个slots（存储槽），分别用于存贮Ranges的起点、宽度和名称信息。由于Ranges由整数确定，所以称为IRanges（Integer Ranges，整数区间），但也有人理解成间隔区间（Interval Ranges）：

getSlots("Ranges")

##       elementType   elementMetadata          metadata 
##       "character" "DataTableORNULL"            "list"

getSlots("IRanges")

##             start             width             NAMES       elementType 
##         "integer"         "integer" "characterORNULL"       "character" 
##   elementMetadata          metadata 
## "DataTableORNULL"            "list"

GRanges是Ranges概念在序列处理上的具体应用，但它和IRanges没有继承关系：

library(GenomicRanges)
getSlots("GRanges")

##        seqnames          ranges          strand elementMetadata 
##           "Rle"       "IRanges"           "Rle"     "DataFrame" 
##         seqinfo        metadata 
##       "Seqinfo"          "list"

Ranges对于序列处理非常重要，除GenomicRanges外，Biostrings一些类的定义也应用了Ranges：

getSlots("XStringViews")

##           subject            ranges       elementType   elementMetadata 
##         "XString"         "IRanges"       "character" "DataTableORNULL" 
##          metadata 
##            "list"

2.2 对象构建和属性获取

IRanges对象可以使用对象构造函数IRanges产生，需提供起点（start）、终点（end）和宽度（width）三个参数中的任意两个：

ir1 <- IRanges(start = 1:10, width = 10:1)
ir2 <- IRanges(start = 1:10, end = 11)
ir3 <- IRanges(end = 11, width = 10:1)
ir1

## IRanges of length 10
##      start end width
## [1]      1  10    10
## [2]      2  10     9
## [3]      3  10     8
## [4]      4  10     7
## [5]      5  10     6
## [6]      6  10     5
## [7]      7  10     4
## [8]      8  10     3
## [9]      9  10     2
## [10]    10  10     1

GRanges对象也可以使用构造函数生成，其方式与数据框对象生成有些类似：

genes <- GRanges(seqnames = c("Chr1", "Chr3", "Chr3"), ranges = IRanges(start = c(1300,
    1050, 2000), end = c(2500, 1870, 3200)), strand = c("+", "+", "-"), seqlengths = c(Chr1 = 1e+05,
    Chr3 = 2e+05))
genes

## GRanges object with 3 ranges and 0 metadata columns:
##       seqnames       ranges strand
##                
##   [1]     Chr1 [1300, 2500]      +
##   [2]     Chr3 [1050, 1870]      +
##   [3]     Chr3 [2000, 3200]      -
##   -------
##   seqinfo: 2 sequences from an unspecified genome

IRanges和GRanges都是S4类，其属性获取有相应的函数：

start(ir1)

##  [1]  1  2  3  4  5  6  7  8  9 10

end(ir1)

##  [1] 10 10 10 10 10 10 10 10 10 10

width(ir1)

##  [1] 10  9  8  7  6  5  4  3  2  1

ranges(genes)

## IRanges of length 3
##     start  end width
## [1]  1300 2500  1201
## [2]  1050 1870   821
## [3]  2000 3200  1201

start(ranges(genes))

## [1] 1300 1050 2000

Views对象也包含有IRanges属性：

## 按长度设置产生随机序列的函数
rndSeq <- function(dict, n) {
    paste(sample(dict, n, replace = T), collapse = "")
}
set.seed(0)
dna <- DNAString(rndSeq(DNA_BASES, 1000))
vws <- as(maskMotif(dna, "TGA"), "Views")
(ir <- ranges(vws))

## IRanges of length 18
##      start  end width
## [1]      1  104   104
## [2]    108  264   157
## [3]    268  268     1
## [4]    272  300    29
## [5]    304  393    90
## ...    ...  ...   ...
## [14]   586  752   167
## [15]   756  851    96
## [16]   855  912    58
## [17]   916  989    74
## [18]   993 1000     8

模式匹配的match类函数返回IRanges对象，而vmatch类函数返回GRanges类对象：

2.3 IRanges对象的运算和处理方法

2.3.1 Ranges内变换（Intra-range transformations）

这种类型的处理函数包括shift，flank，narrow，reflect，resize，restrict和promoters等，它们对每个Ranges进行独立处理。为了方便理解，我们使用IRanges包的Vignette提供的一个很有用的IRanges作图函数（稍做修改）：

plotRanges <- function(x, xlim = x, main = deparse(substitute(x)), col = "black",
    add = FALSE, ybottom = NULL, ...) {
    require(scales)
    col <- alpha(col, 0.5)
    height <- 1
    sep <- 0.5
    if (is(xlim, "Ranges")) {
        xlim <- c(min(start(xlim)), max(end(xlim)) * 1.2)
    }
    if (!add) {
        bins <- disjointBins(IRanges(start(x), end(x) + 1))
        ybottom <- bins * (sep + height) - height
        par(mar = c(3, 0.5, 2.5, 0.5), mgp = c(1.5, 0.5, 0))
        plot.new()
        plot.window(xlim, c(0, max(bins) * (height + sep)))
    }
    rect(start(x) - 0.5, ybottom, end(x) + 0.5, ybottom + height, col = col,
        ...)
    text((start(x) + end(x))/2, ybottom + height/2, 1:length(x), col = "white",
        xpd = TRUE)
    title(main)
    axis(1)
    invisible(ybottom)
}

shift函数对Ranges进行平移（下面图形中蓝色为原始Ranges，红色为变换后的Ranges，黑色/灰色则为参考Ranges，其他颜色为重叠区域）：

ir <- IRanges(c(3000, 2500), width = c(300, 850))
ir.trans <- shift(ir, 500)
xlim <- c(0, max(end(ir, ir.trans)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, main = "shift", col = "blue")
plotRanges(ir.trans, add = TRUE, ybottom = ybottom, main = "", col = "red")

flank函数获取Ranges的相邻区域，width参数为整数表示左侧，负数表示右侧：

ir.trans <- flank(ir, width = 200)
xlim <- c(0, max(end(ir, ir.trans)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, main = "flank", col = "blue")
plotRanges(ir.trans, add = TRUE, ybottom = ybottom, main = "", col = "red")

reflect函数获取Ranges的镜面对称区域，bounds为用于设置镜面位置的Ranges对象：

bounds <- IRanges(c(2000, 3000), width = 500)
ir.trans <- reflect(ir, bounds = bounds)
xlim <- c(0, max(end(ir, ir.trans, bounds)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, main = "reflect", col = "blue")
plotRanges(bounds, add = TRUE, ybottom = ybottom, main = "")
plotRanges(ir.trans, add = TRUE, ybottom = ybottom, main = "", col = "red")

promoters函数获取promoter区域，upstream和downstream分别设置上游和下游截取的序列长度：

ir.trans <- promoters(ir, upstream = 1000, downstream = 100)
xlim <- c(0, max(end(ir, ir.trans)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, main = "promoters", col = "blue")
plotRanges(ir.trans, add = TRUE, ybottom = ybottom, main = "", col = "red")

resize函数改变Ranges的大小，width设置宽度，fix设置固定位置（start/end/center）：

ir.trans <- resize(ir, width = c(100, 1300), fix = "start")
xlim <- c(0, max(end(ir, ir.trans)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, main = "resize, fix=\"start\"", col = "blue")
plotRanges(ir.trans, add = TRUE, ybottom = ybottom, main = "", col = "red")
ir.trans <- resize(ir, width = c(100, 1300), fix = "center")
xlim <- c(0, max(end(ir, ir.trans)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, main = "resize, fix=\"center\"", col = "blue")
plotRanges(ir.trans, add = TRUE, ybottom = ybottom, main = "", col = "red")

其他函数的使用请自行尝试使用。

2.3.2 Ranges间转换（Inter-range transformations）

range函数用于获取Ranges所包括的整个区域（包括间隔区）；reduce将重叠区域合并；gaps用于获取间隔区域：

ir <- IRanges(c(200, 1000, 3000, 2500), width = c(600, 1000, 300, 850))
ir.trans <- range(ir)
xlim <- c(0, max(end(ir, ir.trans)) * 1.3)
ybottom <- plotRanges(ir, xlim = xlim, col = "blue")
plotRanges(ir.trans, xlim = xlim, col = "red", main = "range")
ir.trans <- reduce(ir)
plotRanges(ir.trans, xlim = xlim, col = "red", main = "reduce")
ir.trans <- gaps(ir)
plotRanges(ir.trans, xlim = xlim, col = "red", main = "gaps")

2.3.3 Ranges对象间的集合运算

intersect求交集区域；setdiff求差异区域；union求并集：

ir1 <- IRanges(c(200, 1000, 3000, 2500), width = c(600, 1000, 300, 850))
ir2 <- IRanges(c(100, 1500, 2000, 3500), width = c(600, 800, 1000, 550))
xlim <- c(0, max(end(ir1, ir2)) * 1.3)
ybottom <- plotRanges(reduce(ir1), xlim = xlim, col = "blue", main = "original")
plotRanges(reduce(ir2), xlim = xlim, col = "blue", main = "", add = TRUE, ybottom = ybottom)
plotRanges(intersect(ir1, ir2), xlim = xlim, col = "red")
plotRanges(setdiff(ir1, ir2), xlim = xlim, col = "red")
plotRanges(union(ir1, ir2), xlim = xlim, col = "red")

此外还有punion，pintersect，psetdiff和pgap函数，进行element-wise的运算。

3 SessionInfo()

sessionInfo()

## R version 3.2.2 (2015-08-14)
## Platform: x86_64-pc-linux-gnu (64-bit)
## Running under: Debian GNU/Linux 8 (jessie)
## 
## locale:
##  [1] LC_CTYPE=zh_CN.utf8       LC_NUMERIC=C             
##  [3] LC_TIME=zh_CN.utf8        LC_COLLATE=zh_CN.utf8    
##  [5] LC_MONETARY=zh_CN.utf8    LC_MESSAGES=zh_CN.utf8   
##  [7] LC_PAPER=zh_CN.utf8       LC_NAME=C                
##  [9] LC_ADDRESS=C              LC_TELEPHONE=C           
## [11] LC_MEASUREMENT=zh_CN.utf8 LC_IDENTIFICATION=C      
## 
## attached base packages:
## [1] stats4    parallel  stats     graphics  grDevices utils     datasets 
## [8] methods   base     
## 
## other attached packages:
##  [1] scales_0.3.0         GenomicRanges_1.18.4 GenomeInfoDb_1.2.5  
##  [4] Biostrings_2.34.1    XVector_0.6.0        IRanges_2.0.1       
##  [7] S4Vectors_0.4.0      BiocGenerics_0.12.1  zblog_0.1.0         
## [10] knitr_1.11          
## 
## loaded via a namespace (and not attached):
##  [1] Rcpp_0.12.0      plyr_1.8.3       formatR_1.2      magrittr_1.5    
##  [5] evaluate_0.7.2   highr_0.5        stringi_0.5-5    zlibbioc_1.12.0 
##  [9] tools_3.2.2      stringr_1.0.0    munsell_0.4.2    colorspace_1.2-6

生信地基系列--常规分析流程可能性之兽
还在到底搜索一些R的分析流程吗？biocondutor已经给你准备好了29篇Bioconductor-BiocViewsimage.png注释流程生物导体可以导入多种与序列相关的文件类型，包括Fasta、fastq、BAM、VCF、gff、bed和wig文件等。包支持常见的和高级的序列操作操作，例如修剪、转换和对齐。领域特异性分析包括质量评估、ChIP-seq、差异表达、RNA-seq和其他方法。
批量转换基因名 BeeBee生信
做通路富集分析常需要批量进行基因ID转换，总结了3种简便方法与大家分享。方法1和2依赖于基因组注释R包，如果无相应物种R包就必须用方法3。好在的是常用物种人、小鼠、大鼠等都是有的，一般能满足需要。基因组注释R包全集在网站Bioconductor-3.9AnnotationDataPackages查看，如我们能在里面找到人基因组注释R包org.Hs.eg.db,我们安装这个注释包，就能用方法1和2转
R语言杂谈（一）爱思考的照
首先，你需要一个Rstudio，其次每一个项目需要一个文件夹以方便自己且路径中不要出现中文和空格，如果需要请用下划线替代。1.安装R包if(!require("tidyr"))install.packages("tidyr",update=F,ask=F)#或者选择安装Bioconductor上的R包if(!require("limma"))BiocManager::install("limma"
ClusterProfiler做GO、KEGG富集（一）南栀ioo
今天新学会了clusterprofiler，把学习过程记录下来。Clusterprofiler是Y叔开发的一个R包，功能强大，常更新，还有美观的可视化图片。安装source("http://www.bioconductor.org/biocLite.R")biocLite("clusterProfiler")browseVignettes("clusterProfiler")#查看关于cluste
2019-12-30 作业2，总结ID转换需要的数据包程凉皮儿
前天的作业用偷懒的方法完成后，很惭愧，虽然后来也找到了转换ID的代码，但是确实没有太多的编程思维，还是需要训练。上次拿到的是人的genesymbol，转换成"ENTREZID"的geneID，而且如果丢失太多的情况下需要先转换成ENSEMBL再转。所以今天来总结一下，争取记住一个包：参考学习资料：http://www.bioconductor.org/packages/release/data/a
非模式物种GO/KEGG富集分析谢俊飞
前言:微博参与话题#给你四年时间你也学不会生信#先前的富集分析教程[1]主要是以模式物种人为例子，展开的分析，今天在B站看了孟浩巍视频教程[2]，学习新的技能，豁然开朗，欣然记之。本文主要针对非模式物种，但是有参考基因组可用1.R包安装及database下载#non-model,buthavethegenome>source("https://bioconductor.org/biocLite.R
使用OmicCircos包--绘制基因圈图小杜的生信筆記
本期内容为[R语言可视化-精美图形绘制系列]--使用OmicCircos包--绘制基因圈图教程网址：教程可以查看OmicCircos帮助文档也可以（OmicCircos_vignette.pdf(bioconductor.org)），里面讲的非常详细。也可以在我们的社群中获得。本教程代码（搬砖）1.1安装包if(!requireNamespace("BiocManager",quietly=TRU
2020-06-06 day6 导入dplyr包---cat CAT_6430
1.设置镜像网站，用于快速下载包(1).初级模式运行这两条命令,对应清华镜像网站；下次再打开Rstudio会发现，下载Bioconductor可能还是会回到官方镜像，可以通过options()$BioC_mirror命令查询是否是需要的镜像网站。options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))options(
2021-07-24 R包maftools从GitHub安装报错记录我们一起舔过铁栏杆
屏幕截图2021-07-24205817.png从GitHub里面安装R包maftools失败。报错显示如图所示。有趣的是，从bioconductor安装就成功了。
学习小组Day6笔记--Yoda UseeseeU0
学习任务：学习R包1.检查镜像检查CRAN镜像是否配置完成：options()$repos2.在Rstudio中设置自定义CRAN和Bioconductor的下载镜像#options函数就是设置R运行过程中的一些选项设置options("repos"=c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/"))#对应清华源options(BioC_mi
使用clusterProfiler给非模式物种做富集分析的一些参考资料小明的数据分析笔记本
1https://guangchuangyu.github.io/cn/2017/07/clusterprofiler-maize/#disqus_thread非模式生物玉米玉米虽然是非模式物种，但是研究的人也挺多的，注释信息也非常完整了2https://bioconductor.statistik.tu-dortmund.de/packages/2.12/bioc/vignettes/clust
四、函数和R包 Kururu1799
生信技能树数据挖掘课程学习笔记1.函数与参数（1）形式参数与实际参数seq(from=3,to=21,by=3)函数seq形式参数fromtoby，函数作者设计的，熟练后可不写实际参数3213，使用者可改的（2）写函数的函数（3）默认参数作者会设计很多参数，但只有前1~n个是必须填的，其他的参数都有默认值。2.R包（Rpackage）介绍3.R包来源(1)CRAN网站(2)Bioconductor
报错：ERROR: lazy loading failed for package 微光** r语言
ERROR:lazyloadingfailedforpackage常用的服务器崩了只能换台服务器，新的服务器好多R包都没有安装，今天安装DESeq2居然报错了各种R包，如果不在R语言官网上，那它极有可能在Bioconductor或者Github上我是用的以下安装方法，然后报错BiocManager:：install('DESeq2')然后我使用Github（https://github.com/）
Day 6 Joey 连店
R包的学习1.啥是R包R包是多个函数的集合，一般从Bioconductor网站下载，这些R包可以进行统计以及图表的制作，不同的R包行使的功能不同，此处以dplyr为例。2.安装和加载R包2.1镜像设置在使用Rstudio的时候为了加速包的下载，都会配置一个国内镜像初级模式打开Rstudio-tools-Globaloptions-packages-change-CHINA-(Beijing)...
生信人的20个R语言习题-高级 DrKu
安装一些R包：数据包：ALL,CLL,pasilla,airway软件包：limma，DESeq2，clusterProfiler工具包：reshape2绘图包：ggplot2不同领域的R包使用频率不一样，在生物信息学领域，尤其需要掌握bioconductor系列包。if(!require(ALL))BiocManager::install("ALL")if(!require(CLL))BiocM
OSCA单细胞数据分析笔记-14、Empty/Doublet droplet 小贝学生信
对应原版教程第15、16章http://bioconductor.org/books/release/OSCA/overview.html现行主流的Droplet-based单细胞测序技术主要思路是一个磁珠捕获一个细胞置于油包水的腔室里完成添加标签、建库操作。但在磁珠捕获的过程会出现未捕获到细胞或者两个细胞的异常情况。这就需要我们在分析单细胞数据中识别、过滤掉这些badbarcode(cell)。
利用clusterProfiler进行富集分析谢俊飞
前言:微博参与话题#给你四年时间你也学不会生信#主要参考：GEO数据挖掘小尝试：（三）利用clusterProfiler进行富集分析Y叔开发的R包clusterProfiler的确是最好用的，没有之一,可参看为Y叔疯狂打call1、安装clusterProfiler>source("http://bioconductor.org/biocLite.R")>biocLite('clusterProf
Rstudio安装（笔记一） YX_Andrew
mac换到win，简单记录。首先安装R，下载好一直点击安装。然后下载Rstudio，一植点击安装，找到安装目录文件夹下的bin/Rstudio,属性为管理员控制，然后开始使用Rstudio。查看R包安装的位置，并设置权限.libPaths()安装CRAN上的R包先在Tools/Global设置好全局的内容。install.packages("tidyr")其余类似安装Bioconductor上的R
学习小组Day6笔记--LBB LBB
今天的学习内容是R包安装和dplyr函数的运用一、安装和加载R包镜像设置1.Tools-Options-Packages设置CRAN的镜像，单不能下载Bioconductor的包1.png2.png2.R的配置文件.Rprofile用file.edit('~/.Rprofile')来编辑文件，在编辑器输入options代码options("repos"=c(CRAN="[https://mirro
2019-02-19 volcano plot e8a37405cb53
https://bioconductor.org/packages/devel/bioc/vignettes/EnhancedVolcano/inst/doc/EnhancedVolcano.html#installation
GDAS003-Bioconductor与基因组级数据分析简介 backup备份
title:GDAS003-Bioconductor与基因组级数据分析简介date:2019-09-0312:0:00type:"tags"tags:Bioconductorcategories:GenomicsDataAnalysisSeries前言本篇笔记主要是介绍了Bioconductor与基因组级数据分析的关系。R语言，R包与仓库(repositories)学习这一系列课程的前提是你已经有
2018-10-11 一路向前_莫问前程_前程似锦
使用GEOquery包if(T){source("http://bioconductor.org/biocLite.R")options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/")biocLite("GEOquery")library(GEOquery)eSeteSet$GSE62832_series_matrix.txt.gzExpressio
docker 中运行Rsudio 伍鸿荣
dockerrun--namerstudio-ePASSWORD=bioc-p8787:8787-v/mnt/public:/home/rstudio/public_data-v/home/user/R_workdir:/home/user/R_workdirbioconductor/bioconductor_docker:devel
用EnhancedVolcano 绘制火山图欧阳松
最近发现一个新包EnhancedVolcano，画火山图令人发指的简单，而且用户自主设置颜色、形状、大小和阴影等参数定义不同的绘图属性，还可以通过添加连线的方式有效避免数据点之间的重叠现象，强烈分享一下：介绍来源：https://www.bioconductor.org/packages/release/bioc/vignettes/EnhancedVolcano/inst/doc/Enhance
GO.db:存储Gene Ontology信息的R包生信修炼手册
欢迎关注”生信修炼手册”!在生信分析领域，R语言由于其简单易用的特点和良好的生态环境，占用重要的一席之地。其中，Bioconductor作为生信分析专用的R语言社区，提供了许多的R包。Bioconductor上的所有R包可以分成4大类别，示意图如下software类型的R包用于执行某项具体的分析内容，比如edgeR,DESeq2等，AnnotationData类型的包在R中存储了对应的数据库，比如
《生物信息学生R入门教程》读书笔记 Chapter 1 小潤澤
前言最近在阅读欧剑虹老师《生物信息学生R入门教程》非常适合于刚入手NGS的初学者使用，这里我仅做我个人的读书笔记使用本书分为八个章节：1.R/Bioconductor简介2.基因芯片的数据分析3.RNA-seq数据分析4.Chip-seq数据分析5.ATAC-seq数据分析6.单细胞RNA-seq数据fenx7.下游分析8.上游分析Chapter1照例我们先介绍下R，基础的语法就不介绍了1.将字符
bioconductor入门——第一弹鹿无为
写在前面的废话说话要算数，挨打要立正……既然之前说了要写一个bioconductor系列，那肯定不能食言。image.png当然了，现在天气这么冷，我猜你们肯定不愿意动手撸代码。没关系，咱今天不看代码，不写脚本，写点看起来比较轻松的蹲坑读物image.png太长不看系列今天没有太长不看系列……既然是蹲坑读物，那必须要长，要有意思，能让你蹲的腿脚发麻才算是成功image.png废话超多系列你既然选择
自动批量安装加载cran, bioconductor和github三个平台的所有的R包邢博士谈科教 GEO数据挖掘生信分析视频教程可视化作图大全 R语言和数据挖掘分析入门教学 r语言 github 数据分析数据挖掘 linux
自动批量安装加载cran,bioconductor和github三个平台的所有的R包R包管理自动批量安装加载cran,bioconductor和github三个平台的所有的R包自动安装cran,bioconductor和github三个平台的R包auto_install0){install.packages(new.cran.pkgs)#安装那些还没有安装的包}}if(!is.null(bio.p
OSCA单细胞数据分析笔记-9、Clustering 小贝学生信
对应原版教程第10章http://bioconductor.org/books/release/OSCA/overview.html“物以类聚，人以群分”分群步骤即将基因表达（降维结果）相似的细胞归为同一个群体，往往对应一种特定的细胞类型或者细胞轨迹状态。从一步开始，就可以开始叙述我们的生物学故事了~源网，侵删~笔记要点1、clustering是一个显微镜2、基于图聚类的分群3、其它分群算法（k均
安装SingleR之前，先看看它的数据库里有没有你要的细胞小鱼同学的踩坑记录
singleR这个R包，还有它配套的celldex数据库，安装真的好麻烦啊为了安装它，把我的的R升到了最新版，结果更新又很麻烦……好不容易安上了这个包，发现自动注释出来的结果跟我聚类出来的图一对比，不能说是一模一样吧，只能说是毫不相关。最后翻到了celldex数据库里七个参考数据集的具体内容，在这里：https://bioconductor.org/packages/release/data/ex
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他