获取人类染色体长度及着丝粒(Centromere )和端粒(Telomere)位置

作者:木同、毛毛

更多精彩内容请 微-信 搜索 “生信学社” 公·众·号,点击关·注。回复“ngs210304”,获取该文所用到的文件、代码、高清图片等内容。


近期在帮助别人分析数据的过程中需要用到人类染色体长度、着丝粒和端粒在染色体上的位置信息。可能有很多人也会需要这些信息,其实这些信息很容易就能从UCSC(https://genome.ucsc.edu/index.html)数据库得到,本文就告诉大家如何快速获取这些数据。

1、染色体长度(Chromosome Length)


GRCh37/hg19基因组版本为例:
染色体信息文件下载地址(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.chrom.sizes)
我们可以通过以下步骤在UCSC数据库中找到该文件,详细步骤见Fig. 1。首先进入UCSC数据下载页面,选择下载Genome Data,确定物种为Human,确定基因组版本为GRCh37/hg19,选择所需下载文件类型进入文件下载页面,选择下载文件:hg19.chrom.sizes,该文件中就包含了人类染色体长度信息。

Figure 1

2、着丝粒和端粒位置数据获取


2.1、着丝粒位置文件获取

在UCSC数据库Help板块中就提到了此数据的获取问题,可以按照Fig. 2所示步骤找到关于该问题(http://genome.ucsc.edu/FAQ/FAQtracks.html#tracks20)的描述。正如Fig. 2D中所描述的那样,我们可以在Table Browser处获取该信息。接下来我们通过详细步骤演示,如何获取文件。

Figure 2

按照Fig. 3所示,在UCSC主页Tools处打开Table Browser,选择人类基因组hg19版本,group选择All Table,table选择gap,然后点击filter处的create按钮创建着丝粒位置的track文件(Fig. 3B),在type处输入Centromere并提交(Fig. 3C)。然后在output formart处选择bed文件格式,对文件进行命名为Centromere.bed并选择导出的文件格式,最后点击输出,获得BED文件,详细步骤见Fig. 3D-E

Figure 3

2.2 、端粒位置文件获取

同样的,如果要获取端粒位置文件,只需要在创建track文件时,在type处输入Telomere并提交,将文件命名为Telomere.bed并导出文件,步骤见Fig. 4,其他条件不变。

Figure 4

我们打开Centromere.bed文件,可以看待该文件中包含了着丝粒在染色体上的位置,包括起始、终止位点等信息,如Fig. 4D所示。


****禁止转载****

****搜索微信GZH:“生信学社”或扫码关注,回复“ngs210304”,获取该文所用到的文件、代码、高清图片等内容****

image

你可能感兴趣的:(获取人类染色体长度及着丝粒(Centromere )和端粒(Telomere)位置)