理解SAM文件格式以及过滤sam文件

RNA-seq或者ChIP-seq等等测序的上游分析流程里的比对步骤相信大家都知道，我之前也只是按照各种教程去走流程，并没有仔细的研究过每一步的内容。今天这篇文章学习一下sam文件的格式，以及如何根据read比对的质量来过滤你的sam文件。

一般比对后生成的SAM文件怎么查看里面的内容呢？

$ less -SN *.sam（sam文件的文件名称）

然后会显示如下内容：

头行（header line）以 @ 开始，紧接着一个或两个字母,比如下列代码中的 SQ 表示参考序列信息，SN表示参考序列名称，LN表示参考序列长度，PG表示软件，ID表示项目记录号（唯一），PN表示软件名称，VN表示软件版本，CL表示命令行等等。

SAM比对结果部分有11列，每一列都是不同的信息：

第1列：fastq的read ID
第2列：FLAG，对应的数值如下：
（如果某一个数值不是下面的任意值，那么那个数值就是下面这些数里面几个的和）

1：该read是成对的paired reads中的一个
2：paired reads中每个都正确比对到参考序列上
4：该read没比对到参考序列上
8：与该read成对的matepair read没有比对到参考序列上
16：该read其反向互补序列能够比对到参考序列
32：与该read成对的matepair read其反向互补序列能够比对到参考序列
64：在paired reads中，该read是与参考序列比对的第一条
128：在paired reads中，该read是与参考序列比对的第二条
256：该read是次优的比对结果
512：该read没有通过质量控制
1024：由于PCR或测序错误产生的重复reads
2048：补充匹配的read

比如说，我的比对结果里这一列的值有一个83。那么这个83并不在上述的值里，但是83是1+2+16+64的结果，那么这个read的比对结果的解读就是：
该read是成对read里的一条，该read反向互补序列可以比对到参考基因组上，并且和这read配对的read也能比对到参考基因组上，这条read是这一对read里的第一条。

第3列：染色体名称。如果这列是“ * ”，可以认为这条read没有比对上的序列，则这一行的第四，五，八，九列是“0”，第六，七列与该列是相同的表示方法。

第4列：比对的位置，从对应上的染色体第1位开始往后计算。没有比对上的，此处为0。

第5列：MAPQ比对质量值。越高说明该read比对到参考基因组上的位置越唯一，例如42。Mapping qulity的计算方法是：Q=-10log10p，Q是一个非负值，p是这个序列不来自这个位点的估计值。假如说一条序列在某个参考序列上找到了两个位点，但是其中一个位点的Q明显大于另一个位点的Q值，这条序列来源于前一个位点的可能性就比较大。Q值的差距越大，独特性越高。如果值为255表示mapping值是不可用的，如果是unmapped read则为0。

第6列：简要比对信息表达式（Compact Idiosyncratic Gapped Alignment Report）。其以参考序列为基础，使用数字加字母表示比对结果，match/mismatch、insertion、deletion、skipped region from the reference(表示可变剪接位置)、soft clipping (clipped sequences present in SEQ)、hard clipping (clipped sequences NOT present in SEQ)。对应字母 M、I、D、N、S、H。比如3S6M1P1I4M，前三个碱基被剪切去除了，然后6个比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个比对上了，是按照顺序的；例如：36M 表示36个碱基在比对时完全匹配。再比如：如37M1D2M1I，这段字符的意思是37个匹配，1个参考序列上的删除，2个匹配，1个参考序列上的插入。
（NOTE：clipped均表示一条read的序列被分开，之所以被分开，是因为read的一部分序列能匹配到第三列的RNAME序列上，而被分开的那部分不能匹配到RNAME序列上。而H只出现在一条read的前端或末端，但不会出现在中间，S一般会和H成对出现，当有H出现时，一定会有一个与之对应的S出现）

第7列: 这条reads第二次比对的位置。=表示参考序列与reads一模一样，*表示没有完全一模一样的参考序列

第8列: 该列表示与该reads对应的mate pair reads的比对位置（即mate），若无mate,则为0。
（NOTE:mate，在Illuminated中有两种测序技术：paired end sequencing，mate pair sequencing。这两种测序都是测的一个片段的两端，这两端产生的reads被称为mate1，mate2，单末端测序则无mate。）

第9列: 序列模板长度，如果同一个片段都比对上了同一个参考序列，为最左边的碱基位置到最右边的碱基位置（左为正，右为负）。当mate 序列位于本序列上游时该值为负值。不可用时，为0。

第10列: read的序列

第11列: ASCII码格式的序列质量。格式同FASTQ一样。

第12列: 可选的区域。
格式一般差不多是这样的：AS:i:-1 XN:i:0 XM:i:1 XO:i:0 XG:i:0 NM:i:1 MD:Z:35T0 YT:Z:UU
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在参考序列上模糊碱基的个数
XM:i 错配的个数
XO:i gap open的个数
XG:i gap 延伸的个数
NM:i 经过编辑的序列
YF:i 说明为什么这个序列被过滤的字符串
YT:Z 值为UU表示不是pair中一部分(单末端？)、CP(是pair且可以完美匹配)
DP(是pair但不能很好的匹配)、UP(是pair但是无法比对到参考序列上)
MD:Z 代表序列和参考序列错配的字符串

以上就是SAM文件的格式说明。我的这篇文章主要会focus on 在sam文件的第5列：MAPQ。因为后续我想做一个ATAC-seq的练习，那篇文献里方法部分提到他们把sam文件根据MAPQ过滤了一下，所以下面主要是学习MAPQ相关知识点。

参考文章：
1.生信人必会数据格式持续收集-测序原理-数据格式-数据库-生信技能树
2.SAM文件格式介绍 | Public Library of Bioinformatics
3.SAM文件格式说明 | 寂寞先生
4.生信：2：sam格式文件解读https://blog.csdn.net/genome_denovo/article/details/78712972

##############################我是分割线##################################

别人的MAPQ值和你比对出来的MAPQ值能直接拿来比较吗？

这篇文章给了一个很好的解答：
http://www.acgt.me/blog/2014/12/16/understanding-mapq-scores-in-sam-files-does-37-42

以下是这篇文章的一个大概的内容，并没有完全翻译：

序列比对图(SAM)格式文件每一列中都存储了相应的内容。其中，SAM文件的第五列存储比对质量(MAPQ)值。

MAPQ: MAPping Quality. It equals −10 log10 Pr{mapping position is wrong}, rounded to the nearest integer. A value 255 indicates that the mapping quality is not available.

按照上面的公式，如果某一个read的正确比对概率是0.99，那么它的MAPQ值应该是是20，即：-10×log10（1-0.99）。如果正确比对概率是0.999，那么MAPQ的值就是30。所以MAPQ的值取决于你的正确比对的概率。（如果MAPQ值是255，那么这个值不可用）。相反，当正确比对概率趋向于0时，MAPQ的值也趋于0。

在比对read后做的第一件事，就是统计sam文件里MAPQ值的分布。但是也有很多人并没有关心MAPQ值。也许你很相信比对软件输出的sam文件，但是这些分数真的会有很大差异吗？
下面的图是来自两个比对的MAPQ值的分布。下面的图是上面图的放大，可以更清晰地显示0-1之间MAPQ分数的分布:

从这个图里我们能得出什么结论呢？这两个比对有很明显的区别。experiment1最常见的MAPQ得分是42，其次是1。在experiment2中，得分最多的只有37分，其次是0分。实验1基于小鼠数据，实验2使用拟南芥数据。但这可能不是分布不同的原因。小鼠的数据是基于DNase-Seq实验中未配对的Illumina read，a . thaliana的数据来自于全基因组测序中Illumina读取的成对read。然而，这些区别仍然可能不是造成差异的原因。

造成这些MAPQ值分布的不同的真实原因，是实验1利用的bowtie2基因的比对，而实验2利用BWA基因MAPQ值的计算。所以你不应该比较这两个试验的MAPQ值，除非你用的是同一个比对软件。

对于bowtie2比对的sam文件，MAPQ值最大是42；而BWA比对出来的MAPQ值最大是37。

MAPQ的影响因素（参考认识MAPQ）：
（1）基因组重复区域MAPQ会比较低，因为会出现multiple mapping 和 reads聚集的情况；
（2）read 中碱基质量值，低质量值的碱基意味着序列很可能是错误的，错误的序列可能会导致错误的比对，所以MAPQ会低；
（3）比对算法的敏感性，如果比对算法敏感性差，会造成比对错误，MAPQ低；
（4）单双端测序的影响，如果reads两端都可以比对到基因组同一位置，那么比对正确的可能性很大，MAPQ会高。

所以，你需要注意的是：
（1）MAPQ值在不同比对软件的结果是不一样的。
（2）你应该根据你自己的MAPQ值来过滤“真正”不好的比对read。

##############################我是分割线##################################

Bowtie2是如何分配MAPQ值的呢？

上面说了不一样的比对软件，得到的MAPQ值并不一样，你也不能将它们直接拿来比较大小。BWA我就不学习了，因为我主要用的都是bowtie2，如果有同学需要请自行学习。这里我主要搜索一些关于bowtie2比对结果MAPQ值。
这里有一篇文章非常的详细：How does bowtie2 assign MAPQ scores?

下面就来学习一下这篇文章：

比对质量值(MAPQ或MQ)被bowtie2和bwa等软件来评估read比对到基因组的质量。公式是这样滴：

公式里的p代表一个read比对错误的概率

MAPQ的值从0到37,40或者42，取决于你用什么软件进行比对。这里只说一下bowtie2的MAPQ值。bowtie2的MAPQ的值并不用上面的公式来计算。
当我们分析NGS数据时，应该根据MAPQ的值来过滤一下，把低于某一个值的read剔除，但是应该选什么值来作为阈值呢？有人说（一个研究果蝇的同事）应该保留MAPQ值>=30的Read。但是在实际分析中，对于人类细胞系，这个值就不太合适了，因为人类细胞系里SNP，microdeletion，microinsertions，breakpoints等等有很多，导致了比对质量值会偏低。有的人认为MAPQ>=10的read都可以保留，甚至还有人认为只要MAPQ>=1都是可以接受的。还有人说MAPQ值为255的read是unique比对，但这是根据旧的定义来说的，新的定义在SAM官网称MAPQ值为255的read是不可用的。为了搞清楚用bowtie2比对到底应该怎么过滤，这篇文章的作者设计了一个小实验来确定。

这个具体的实验过程我就不详细说了，各种的代码。。。各种公式。。。比较上头，我们来直接看结论吧：

在bowtie2里，第12列的可选字段里，真正的multiread（AS=XS）也可以得到MAPQ=1（如果AS == XS，则认为这个read是真正的multiread，并且MAPQ只能得到0或1），不管这个read比对到基因组多少个位置。当read比对发生0或者1次错配，那么AS=XS将为-6。像这样：

AS:i:-6 XS:i:-6 MAPQ=1

如果有2-5个错配，那么结果是这样的：

AS=XS <= -12 (i.e. -12 to -30.6) MAPQ=0

所以，当你想从你的data里排除“真正的multireads”时，用MAPQ>=2也是可以的。对于高质量的比对结果，MAPQ >= 3代表允许3个错配，MAPQ >= 23代表允许2个错配，MAPQ >= 40允许1个错配，MAPQ >= 42代表允许0个错配。

而在bowtie2里，真正的uniread 可以得到不同的MAPQ值，例如3,8,23,24,40,42。如果你只想保留uniread，那么你就可以只保留MAPQ为上述这些值的reads。比如你可以用下面这个代码：

$ awk '$5 == 3 || $5 == 8 || $5 == 23 || $5 == 24 || $5 == 40 || $5 == 42' file.sam

或者：

$ grep -v XS:i: file.sam

那么如果你想根据某一个MAPQ的值来过滤你的sam文件：

#如果你想把MAPQ小于2的sam文件都丢掉，并转成bam文件
$ samtools view -bSq 2 file.sam > filtered.bam
##-q INT Skip alignments with MAPQ smaller than INT [0]

参考文章：
1.Question: Filtering A Sam File For Quality Scores
2.bowtie2

理解SAM文件格式以及过滤sam文件

别人的MAPQ值和你比对出来的MAPQ值能直接拿来比较吗？

Bowtie2是如何分配MAPQ值的呢？

你可能感兴趣的:(理解SAM文件格式以及过滤sam文件)