BBQ(生信基础问题21):SAM和Bam专题(三)---附加TAG

今天要介绍的内容是SAM/BAM文件的附加信息。
--------------------------------------采用孟哥文章的内容---------------------------------------------

基础导引部分

我们先给大家举个例子,这是一个human 的全基因组测序比对的SAM文件的11列以后的信息。第11列之前学习过了是reads的质量值,那么后面的若干标记比如MD:Z:145等等这些符号是什么意思呢?

BBQ(生信基础问题21):SAM和Bam专题(三)---附加TAG_第1张图片
示例图

根据SAM格式官方文档的信息,我们需要记住以下内容:

1. 所有的TAG都是2个字母,一般情况下都是大写字母。并且TAG在1行的比对结果中只能出现1次。
2. 所有的TYPE都是单字母,大小写敏感,它是用来定义后面VALUE的类型;
3. VALUE可长可短,但是需要和之前的TYPE相呼应。

关于TYPE不同字母对应的不同数据类型,把SAM的官方文档贴一下,共大家参考。其中,最常用的就是i(带符号的数字);Z(可直接输出字符串,可以包含空格);

BBQ(生信基础问题21):SAM和Bam专题(三)---附加TAG_第2张图片
图2 TYPE的字母与不同数据类型之间的对应关系

那么常用的TAG都有哪些,都代表什么含义呢?

提问环节

我们今天的问题很简单,请根据bowtie2的官方文档,解释下面的比对信息:

ST-E00126:128:HJFLHCCXX:2:2107:22820:18520  99  chr1    11682   1   145M    =   119920  325 GGAGATTCTTATTAGTGATTTCGGCTGGTGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAA   KKKKAAKKAFFKKKKKKFKFKKKFKKKKKKKKKKFKFKKKKKKKKKKKKKKFKFFKKKKKKFAAKAKKKKKKKKKKKKFFKKKFFFKKFKFFKKKKKKKKFFFFFKKKKKKK7
  1. ST-E00126:128:HJFLHCCXX:2:2107:22820:18520

序列名称,⽐对⽚段的编号,通常包括测序平台的信息

  1. 99

Flag值 : read paired\ read mapped in proper pair\ mate reverse strand\ first in pair(99对应的比对信息)

  1. chr1

回帖到的染⾊体名称

  1. 11682

⽐对到染⾊体上的具体位置(⽐对到正链最左边bp的位置点)

  1. 1

⽐对的质量值,叫做MAPQ,MAPQ=-10 * log10{mapping出错的概率}

  1. 145M

CIGAR值,描述具体的⽐对情况

  1. =

pair reads中与该序列配对的read所mapping到的参考序列,如果没有mapping到同⼀条参考序列上,则
⽤“*”代替。

  1. 11920

pair reads中与该序列配对的read所mapping到的参考序列的具体位置

  1. 325

通过分析pair reads mapping到同⼀条参考序列上位置的推断得到fragment的⻓度

  1. GGAGA....TTAAA

read序列信息

  1. KKKKA....F7AA<

read序列测序每⼀bp的质量值

  1. MD:Z:21G6G116

MD:Z:表示在⽐对过程中有mismatch的情况,后⾯字符串表示mismatch的具体位置,前面21个match到参考基因组的G前面,接下来6个match到G前面,最后116g个match

  1. XG:i:0

XG:i有gap的存在,后⾯数字表示gap的总⻓度(read和reference上的都计算在内)

  1. NM:i:2

编辑距离,为了将read map到reference上,对read进⾏单核苷酸编辑(替换、插⼊以及删除)的最⼩⻓

  1. XM:i:2

mismatche的具体数⽬

  1. XN:i:0

序列覆盖区的参考基因组上不确定的base数

  1. XO:i:0

gap的具体数⽬

  1. AS:i:-12

⽐对分数,允许负值,局部⽐对最终可以⼤于0,但是全局⽐对中不会

  1. XS:i:-12

⽐对过程中出现的⽐最终报告分数(AS:i:-12)⾼的⽐对值,同样允许负值,局部⽐对最终可以⼤于0,但是
全局⽐对中不会。当⼀条序列能够同时⽐对到多个位点,且出现连续局部相似度极⾼的情况下会出现这种情况。

  1. YS:i:-6

与该序列配对的pair read的⽐对分数

  1. YT:Z:CP

YT:Z:代表pair-read的⽐对情况,“UU”代表没有配对的read; "CP"代表序列为pair reads之⼀,pai
r align cordantly;"DP"表序列为pair reads之⼀,pair align discordantly;"UP"代表序列为p
air reads之⼀,但是pair没有⽐对到参考基因组上。

Reference:
1:生物信息学100个基础问题 —— 第21题 SAM/BAM中的附加标记信息

2:Bowtie 2-官方使用手册-SAM output部分

  1. SAM Format

你可能感兴趣的:(BBQ(生信基础问题21):SAM和Bam专题(三)---附加TAG)