基因组注释文件(一)| bed文件格式说明

1、简介

注释文件就是基因组的说明书。告诉我们哪些序列是编码蛋白的基因,哪些是非编码基因,外显子、内含子、UTR等的位置等等。注释文件在以下三个提供参考基因组的网站中都有提供,比如Ensemble、NCBI 、UCSC。但是现在最权威的人类和小鼠基因组的注释还属Gencode数据库。

基因组注释(genomic features)通常使用Browser Extensible Data (BED) 或者 General Feature Format (GFF)文件格式表示,用UCSC Genome Browser进行可视化比较。

Bed文件和GFF文件最基本的信息就是染色体或Contig的ID或编号,然后就是DNA的正负链信息,接着就是在染色体上的起始和终止位置数值。

两种文件的区别在于,BED文件中起始坐标为0,结束坐标至少是1,; GFF中起始坐标是1而结束坐标至少是1。

处理Bed格式和GFF格式的工具主要有 BedTools和Tophat 。

2、文件格式介绍

BED文件每行至少包括chrom,chromStart,chromEnd三列(必选); 另外还可以添加额外的9列(可选),这些列的顺序是固定的。

必选的三列:

  1. chrom - 染色体的名称(例如chr3,chrY,chr2_random)或支架(例如scaffold10671)。
  2. chromStart- 染色体或支架中特征的起始位置。染色体中的第一个碱基编号为0。
  3. chromEnd- 染色体或支架中特征的结束位置。所述 chromEnd碱没有包括在特征的显示。例如,染色体的前100个碱基定义为chromStart = 0,chromEnd = 100,并跨越编号为0-99的碱基。

9个可选的BED字段:

  1. name - 定义BED行的名称。当轨道打开到完全显示模式时,此标签显示在Genome浏览器窗口中BED行的左侧,或者在打包模式下直接显示在项目的左侧。
  2. score - 得分在0到1000之间。如果此注释数据集的轨迹线useScore属性设置为1,则得分值将确定显示此要素的灰度级别(较高的数字=较深的灰色)。此表显示 Genome Browser将BED分数值转换为灰色阴影:
  3. strand - 定义strand。要么“。” (=无绞线)或“+”或“ - ”。
  4. thickStart- 绘制特征的起始位置(例如,基因显示中的起始密码子)。当没有厚部分时,thickStart和thickEnd通常设置为chromStart位置。
  5. thickEnd - 绘制特征的结束位置(例如基因显示中的终止密码子)。
  6. itemRgb- R,G,B形式的RGB值(例如255,0,0)。如果轨道行 itemRgb属性设置为“On”,则此RBG值将确定此BED行中包含的数据的显示颜色。注意:建议使用此属性的简单颜色方案(八种颜色或更少颜色),以避免压倒Genome浏览器和Internet浏览器的颜色资源。
  7. blockCount- BED行中的块(外显子)数。
  8. blockSizes- 块大小的逗号分隔列表。此列表中的项目数应与blockCount相对应。
  9. blockStarts - 以逗号分隔的块开始列表。应该相对于chromStart计算所有 blockStart位置。此列表中的项目数应与blockCount相对应。

例如:

[bio@ubuntu ~]$ less -S GRCh38.gene.bed 

chr3    124792319       124792562       ENSG00000276626 RF00100 -
chr1    92700819        92700934        ENSG00000201317 RNU4-59P        -
chr14   100951856       100951933       ENSG00000200823 SNORD114-2      +
chr22   45200954        45201019        ENSG00000221598 MIR1249 -
chr1    161699506       161699607       ENSG00000199595 RF00019 +

3、基因组注释文件下载

gencode最为权威,Ensemble、NCBI 、UCSC也有提供下载。
genecode的FTP:ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/
gencode官网的统计信息

#下载release_24所有的gtf文件
wget -c -r -np -nd -k -L -A “*gtf.gz” ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/

参考

UCSC数据文件格式
基因组数据注释常用的文件-Bed文件和GFF文件

你可能感兴趣的:(基因组注释文件(一)| bed文件格式说明)