基因组的坐标系统:0-based and 1-based

这是我对 Yixf's blog 文章的一个学习总结。

20170330 在查看UCSC上的文件格式的资料时,我看到UCSC对不同的坐标系也有介绍,可参考!

这是一个很惨痛的教训,因为我之前想当然地认为。基因组的坐标系统是这样的:

序列 A T G C A
编号 1 2 3 4 5

但是其实这里是有两套系统的。我们先看生活中的一个例子

楼层问题

第一层楼的高度是多少? 我们中国一般认为就是0。但是也有人把我们第二层所在的楼叫做第一层。

基因组坐标

在生物学的基因组坐标的表示中,有两种方法:一种是大家比较容易理解的全包含的1-based(one-based, fully-closed),如[start, end];另一种是容易引起迷惑但却常用而且易用的半包含的0-based(zero-based, half-open),如[start, end)。下面仅根据我的理解通过一个简单的例子来说明一下。至于这两种方法的详细区别以及各自的优缺点,请参考后面给出的链接。

Sequence:ATGC
1-Index:1234
0-Index:0123

其中TG的坐标位置如何表示呢?

1-based:[2,3]
0-based:[1,3)

还有一种不同的(真正的?)解释方法如下:

基因组的坐标系统:0-based and 1-based_第1张图片
基因组坐标系统

我们常用的数据格式及数据库中,那些使用的1-based,那些使用的0-based?

UCSC的Tables使用的是0-based;
UCSC的Genome Browser使用的是1-based;
NCBI的dbSNP使用的是0-based;
BED、BAM格式使用的是0-based;
但是SAM格式是1-based;
VCF、GFF格式使用的是1-based。

关于 wig 、bigWig 和bedgraph 文件的格式

生信菜鸟 中有一些相关的论述。

这里我记载一下一些重要的结论: wig和bedgraph 还有bed文件是 0-based; Bigwig文件是 1-based

你可能感兴趣的:(基因组的坐标系统:0-based and 1-based)