bam/sam 数据格式(2018-05-29)

转自:https://blog.csdn.net/niuhuihui_fei/article/details/73106998?locationNum=14&fps=1

SAM和BAM是序列比对之后常用的输出格式

比如tophat输出BAM格式,bowtie和bwa等都采用了SAM格式。

BAM格式其实就是SAM格式的二进制格式,占用存储空间更小。

samtools由中国学者开发,专门用于sam/bam格式文件的各种操作。

1.bam文件读取

samtools view xxx.bam

samtools view xxx.bam |less

2.bam和sam的区别与一致

sam是带有比对信息的序列文件(即告诉你这个reads在染色体上的位置等),用于储存序列数据(SAM  format is a generic format for storing large nucleotide sequence alignments. )。

BAM is the compressed binary version of the Sequence Alignment/Map (SAM) format. 生物信息中的二进制文件主要是为了节约空间,计算机机可读。可以用samtools工具实现sam和bam文件之间的转化。

二者都是fastq文件经过序列比对或者mapping后输出的格式(其储存的信息都是一致的)

3.资料来源:

Samtools官网:http://samtools.sourceforge.net/

UCSC 上对BAM Track Format介绍:genome.ucsc.edu/goldenPath/help/bam.html

Samtools应用实例:https://wikis.utexas.edu/display/CoreNGSTools/SAM+format+and+samtools

Samtools参考文献:The Sequence alignment/map (SAM) format and SAMtools

对SAM每一列的详细解释: http://genome.sph.umich.edu/wiki/SAM

SAM格式解释及specification介绍: http://davetang.org/wiki/tiki-index.php?page=SAM

能利用或产生SAM/BAM的NGS软件:http://samtools.sourceforge.net/swlist.shtml

4.格式(sam与bam格式是一致)

SAM格式分为header section(头部分,注释信息,以@开头,可有可无)和alignment section(比对结果)两个部分。

其中header section用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序;@SQ,参考序列说明;@RG,比对上的序列(read)说明;@PG,使用的程序说明;@CO,任意的说明信息。Tag以键值对的形式存在。

alignment section 必须由11个字段组成 ,以tab分开。如果其内容没有获得,可以用*或者0代替。

QNAME, FLAG, RNAME, POS, MAPQ, CIGAR, MRNM, MPOS, ISIZE, SEQ, QUAL

你可能感兴趣的:(bam/sam 数据格式(2018-05-29))