比对得到的SAM文件怎么看?

欢迎关注微信公众号“生信小王子”!

SAM ( Sequence Alignment Map ) 文件是reads比对到基因组后得到的结果文件,记录了reads mapping到基因组的各项信息。BAM文件是SAM文件的二进制格式,保留SAM文件全部信息的同时极大压缩了SAM文件的体积,我们比对完成后获得的一般都是BAM文件。

SAM文件由两部分组成:注释信息 (header) 和比对结果

## 查看 BAM 文件的 header
samtools view -h input.bam | head

注释信息 (header) 包括:

@HD:VN表示版本,SO表示排序方式。

@SQ:SN表示参考序列的名称,LN表示参考序列的长度。

@PG:比对时使用的工具指令。

@RG:样本信息。

@CO:其他注释信息。

比对结果主要包括11列信息:

1. QNAME:reads名称。

2. FLAG:reads比对情况。不同的情况对应不同的值,这里的数字是所有情况的和。

3. RNAME:比对至参考序列的名称。

4. POS:比对到的位置。

5. MAPQ:比对质量。

6. CIGAR:比对情况信息。

7. RNEXT:与之配对的另一条reads所在的参考序列名称。"="表示位于同一个参考序列上,"*"表示没有另一条reads。

8. PNEXT:与之配对的另一条reads所在的位置。

9. TLEN:插入片段长度。

10. SEQ:reads序列。

11. QUAL:reads序列质量。

除了这11列信息外,还有一些其他信息:

NH:i:n 表示reads比对到参考序列位置的个数。

AS:i:n 表示比对得分。

遇到不认识的缩写时,可以在https://www.samformat.info/sam-format-alignment-tags查询。

参考资料:

http://samtools.github.io/hts-specs/SAMv1.pdf

http://samtools.github.io/hts-specs/SAMtags.pdf

你可能感兴趣的:(比对得到的SAM文件怎么看?)