计算bam文件中比对上基因组的reads以及合并多个bam文件

参考文章:
1.如何统计BAM文件中的reads数
2.Samtools常用命令的总结

当你有很多个bam文件时,想知道这些bam文件里有多少个比对上的reads,并且把它们输出的时候,应该怎么做?当然你可以选择读取bowtie2的日志文件,像这样的:

31991083 reads; of these:
31991083 (100.00%) were unpaired; of these:
6844445 (21.39%) aligned 0 times
18391269 (57.49%) aligned exactly 1 time
6755369 (21.12%) aligned >1 times
78.61% overall alignment rate

但是有时候我们从别人那里拿到的只是个bam文件怎么办?
samtools工具里有一个功能帮你实现这个要求。

(一)计算alignments数

alignment数并不是mapped read数,因为一条read有可能比对到基因组多个位置。所以这种方法要比实际的reads数要多。首先如果你有很多个样品,建议你先弄一个txt,里面是你的样品名,像这样,比如我有8个bam文件:

$ cat file_names.txt 
A_1
A_2
A_3
A_4
A_5
A_6
A_7
A_8

上面是我的样品名前缀。

#写个脚本,批量统计
#!/bin/bash
cat file_names.txt | while read line
do
export alignment_number=$(samtools view -c ${line}_q30_rmdup_sorted.bam)
echo ${line} alignment_number ${alignment_number}
done

输出结果:

A_1 alignment_number 23150364
A_2 alignment_number 12724502
A_3 alignment_number 17724364
A_4 alignment_number 14102860
A_5 alignment_number 18809748
A_6 alignment_number 12566000
A_7 alignment_number 19047440
A_8 alignment_number 11808528

(二)统计双端测序比对上的reads数

统计双端测序bam文件里一对read都比对上的数量:

#!/bin/bash
cat file_names.txt | while read line
do
export mapped_reads=$(samtools view -c -f 1 -F 12 ${line}.bam) 
echo ${line} mapped_reads_number ${mapped_reads}
done

输出的内容:

A_1 mapped_reads_number 23150364
A_2 mapped_reads_number 12724502
A_3 mapped_reads_number 17724364
A_4 mapped_reads_number 14102860
A_5 mapped_reads_number 18809748
A_6 mapped_reads_number 12566000
A_7 mapped_reads_number 19047440
A_8 mapped_reads_number 11808528

这里你会发现我两种比对的结果是一样的,是因为我从老板那里拿到的bam文件是他用picard去重过滤之后的bam文件,所以两种结果是一样的,如果你用没有去重过滤的bam文件进行计算,这两个结果是不一样的!

上面两种都是比较简单的统计数量,如果你想要具体的信息,比如比对率之类的,可以用这个代码:

$ samtools flagstat file.bam

23150364 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
0 + 0 duplicates
23150364 + 0 mapped (100.00% : N/A)
23150364 + 0 paired in sequencing
11575182 + 0 read1
11575182 + 0 read2
22447746 + 0 properly paired (96.96% : N/A)
23150364 + 0 with itself and mate mapped
0 + 0 singletons (0.00% : N/A)
0 + 0 with mate mapped to a different chr
0 + 0 with mate mapped to a different chr (mapQ>=5)

(三)合并两个及以上的bam文件

如果你想合并sorted的bam文件,可以这样:

$ samtools merge finalBamFile.bam *.bam

finalBamFile指的是合并完的bam文件名;后面跟的是你想合并的bam文件,如果只有两个,你可以依次列出;如果有多个,可以像上面一样,用*来表示。

samtools的merge功能在合并之后,输出的文件也是保持着原来的顺序,即sort的顺序,所以你不用再次sort。

在merge后,再次检查mapped reads数(我是把8个文件两两合并):

merge_1.bam mapped_reads_number 41960112
merge_2.bam mapped_reads_number 25290502
merge_3.bam mapped_reads_number 36771804
merge_4.bam mapped_reads_number 25911388

你可能感兴趣的:(计算bam文件中比对上基因组的reads以及合并多个bam文件)