SAM BAM 和 CRAM

处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、bed、vcf、gvcf等,大家对sam和bam都听得比较多,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经有很多博文讲到了,可自行百度、Google。

  • SAM

  • sam(Sequence Alignment Mapping) 序列比对映射,纯文本格式,所以直接用more命令或者其他查看文本的命令可以打开,基本格式就是下图这样
  • SAM BAM 和 CRAM_第1张图片
  • BAM

  • BAM文件是SAM文件的二进制格式,由bwa的开发者李恒(lh3)设计开发,采用一种比gz更加高效的压缩算法,对其进行压缩,它的文件大小差不多只有原来的1/6。比如一个平均100X的WES样本,sam文件差不多30G,而bam文件5G不到。
  • CRAM

  • 有人习惯将其称为BAM的高压缩格式,因为它和BAM/SAM的格式基本相同。
  • 可以通过samtools view -C -T hg19.fa N190446.sort.bam > N190446.sort.cram 命令进行bam和cram的转换,但是速度很慢,压缩后的文件更小了,还是上面的例子,压缩后只有1G左右。
  • 关于sam、bam、cram之间的相互转换,有很多其他文章可参考,在这里不再赘述。
  • 李恒(lh3)说CRAM一定会取代BAM。我想这必将很大程度上解决NGS数据存储的问题,尤其是WGS时代的到来,让我们拭目以待。

你可能感兴趣的:(bioinformatics)