NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式

  • 4. bed格式
  • 5. Wiggle/Bigwig/bedgraph格式
    • 5.1 Wiggle/Bigwig
    • 5.2 BedGraph格式

系列文章
二代测序方法:DNA测序之靶向重测序
NGS数据分析实践:00. 变异识别的基本流程
NGS数据分析实践:01. Conda环境配置及软件安装
NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:03. 涉及的常用数据格式[1] - fasta和fastq格式
NGS数据分析实践:03. 涉及的常用数据格式[2] - sam/bam格式
NGS数据分析实践:03. 涉及的常用数据格式[3] - gtf/gff格式

测序数据分析中涉及的常用格式:测序得到的是带有质量值的碱基序列(fastq格式),参考基因组是(fasta格式),用比对工具把fastq格式的序列比对到对应的fasta格式的参考基因序列,就可以产生sam格式的比对文件。把sam格式的文本文件压缩成二进制bam文件可以节省空间,如果对参考基因组上面的各个区段标记它们的性质,比如哪些区域是外显子、内含子、UTR等等,这就是gtf/gff格式。如果只是为了单纯描述某个基因组区域,就是bed格式文件,记录染色体号以及起始终止坐标,正负链即可。如果是记录某些位点或者区域碱基的变异,就是vcf文件格式。

fasta/fastq(测序数据)→SAM/BAM(比对)→gff/gtf(描述基因组上的结构:坐标&类型)→Bigwig/Wiggle(测序深度)→bed(描述坐标)→vcf(突变信息)

存储序列:fasta/fastq
比对结果显示的文件:sam/bam
展示注释信息:gtf/gff/bed
突变信息:vcf

4. bed格式

BED 文件格式以一种灵活的方式来定义数据行,用来描述注释的信息。BED行有3个必须的列和9个额外可选的列。 每行的数据格式要求一致。
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式_第1张图片
表示基因注释时,gtf/gff和bed文件的区别:
(1) gtf/gff文件一行表示一个exon/CDS等子区域,多行联合表示一个gene;bed文件一行表示一个gene;
(2) gtf文件中碱基位置定位方式是1-based,而bed中碱基定位方式是0-based 且为 half-open,如下图所示:
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式_第2张图片
注:SAM、VCF、GFF和Wiggle文件格式都采用了上述1-based坐标系统,而bam、BCFv2、BED等一般采用上述0-based坐标系统。

5. Wiggle/Bigwig/bedgraph格式

sam/bam格式文件,是把测序reads比对到参考基因组后的文件。bam/bed格式的文件主要是为了追踪reads到底比对到了参考基因组的什么区域,而UCSC规定的这几个文件格式(Wiggle、bigWig和bedgraph),是为了追踪参考基因组的各个区域的覆盖度、测序深度。这些定义好的文件,可以无缝连接到UCSC的Genome Browser工具里面进行可视化!
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式_第3张图片

5.1 Wiggle/Bigwig

Wiggle:简写为wig,表示基因组上一个区域的信号,可以上传至UCSC上进行可视化。Wig是一种比较老的格式,展示连续值的数据,比如GC百分比,转录组数据等。Wig数据的元素大小必须是一样的。如果数据大小不一样,应该使用bedGraph格式,如果数据过大,就转换为bigWig。
BigWig:简写为bw,是wig格式文件的二进制压缩版本,可在基因组浏览器中进行可视化,是UCSC推荐的一种格式。BigWig文件是由原始的Wig格式通过wigToBigWig工具转换过来的。

# create the chrom.sizes file for the UCSC database (e.g., hg19).
fetchChromSizes  hg19 > chrSize.txt
# Convert wig to big wig:  
wigToBigWig input.wig chrSize.txt myBigWig.bw

Wiggle Track Format (.wig):http://genome.ucsc.edu/goldenPath/help/wiggle.html
bigWig Track Format(.bw) :http://genome.ucsc.edu/goldenPath/help/bigWig.html
BedGraph Track Format (.bdg):http://genome.ucsc.edu/goldenPath/help/bedgraph.html
这3种文件格式都是UCSC规定的,所以它提供了系列工具进行互相转换,可以直接下载可执行版本程序:http://hgdownload.cse.ucsc.edu/admin/exe/

UCSC数据格式转换代码见:http://barcwiki.wi.mit.edu/wiki/SOPs/coordinates

Wig文件主要由两部分格式组成:variableStep format和fixedStep format。variableStep format以一个声明开始,明确了染色体的序号,跨度(span)。后面跟两列数据,染色体开始的碱基位置,数据的值value(可以理解为覆盖度)。span参数可以将含有相同value的连续碱基包含在一起,使数据更加简洁。如图,variableStep format span=150,包含的第一行数据49304701 10.0表示49304701-49304850有相同的value,为10.0。

示例数据:http://genome.ucsc.edu/goldenPath/help/examples/wiggleExample.txt
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式_第4张图片
NGS数据分析实践:03. 涉及的常用数据格式[4] - bed和Wiggle/Bigwig/bedgraph格式_第5张图片

5.2 BedGraph格式

BedGraph格式文件,它是BED文件的扩展,是4列的BED格式,但是需要添加UCSC的Genome Browser工具里面显示的属性,一般就定义有限的几个属性即可。

BedGraph,它的trace type和Wig文件很像,不过后面的数据和bed文件很类似,后面的四列分别表示染色体序号,起始位置,结束位置和value值。
在这里插入图片描述
其余文件格式见后续。

参考阅读:
http://genome.ucsc.edu/FAQ/FAQformat.html
wig、bigWig和bedgraph文件详解:http://www.bio-info-trainee.com/1815.html
生信菜鸟团 NGS数据格式之Bigwig/Wiggle
生信宝典 生信分析过程中这些常见文件的格式以及查看方式你都知道吗?
常用生物信息学格式介绍:http://ju.outofmemory.cn/entry/193943

你可能感兴趣的:(基因组学,其他)