常见格式——bam

Bam (Binary Alignment/Map)

bam文件是Sam 文件的二进制压缩格式,保留了与sam 完成相同的内容信息。SAM/BAM 文件可以是未排序的,但是按照坐标(coodinate)排序可以线性的监控数据处理过程。samtools可以用来转化bam/sam文件,可以merg,sort aligment,可以去除duplicate,可以call snp及indels.

samtools view -bS ./3.mapping/aaa.sam -o ./3.mapping/aaa.bam ;
samtools sort  ./3.mapping/aaa.bam -o ./3.mapping/aaa.sort.bam;

为什么 BAM 文件 sort 之后体积会变小

BAM 文件是压缩的二进制文件,对文件内容排序之后相似的内容排在一起,使得文件压缩比提高了,因此排序之后的 BAM 文件变小了,相对应的 SAM 文件就是纯文本文件,对 SAM 文件进行排序就不会改变文件大小。而且由于 RNA-seq 中由于基因表达量的关系,RNA-seq 的数据比对结果 BAM 文件使用 samtools 进行 sort 之后文件压缩比例变化会比 DNA-seq 更甚。

你可能感兴趣的:(常见格式——bam)