SAM, Sequence Alignment/Map format

前言

本文介绍了SAM 格式 字段说明, 以及相关术语解释
详细介绍参见SAM标准说明
http://samtools.github.io/hts-specs/SAMv1.pdf

概念解释

Linear alignment

线性对比, 不考虑方向上的变化
An alignment of a read to a single reference sequence that may include insertions,
deletions, skips and clipping, but may not include direction changes

Chimeric alignment 嵌和比对

TODO

Read alignment 读段比对

A linear alignment or a chimeric alignment that is the complete representation of the
alignment of the read.

Multiple mapping 多行比对

Read的正确的位置可能是模糊的,由于重复序列
第一次的是primary
剩余的则是secondary alignment
Typically the alignment designated primary is the best alignment, but the decision may be
arbitrary

coordinate system

其实简单讲就是从0计数(计算机里面的数组)还是从1计数(数学习惯)


SAM, Sequence Alignment/Map format_第1张图片
Paste_Image.png

SAM ,Sequence Alignment/Map format

base-calling

SAM格式由两部分组成

Demo

SAM, Sequence Alignment/Map format_第2张图片
Paste_Image.png

header section 注释信息

注释信息以@开头
正则匹配

/^@[A-Z][A-Z](\t[A-Za-z][A-Za-z0-9]:[ -~]+)+$/ or /^@CO\t.*/.
符号 含义
@HD 说明符合标准的版本, 对比序列的排列顺序
@SQ 参考序列说明
@RG 对比上的序列(read)说明
@PG 使用的程序说明,Program
@CO 任意的说明信息

ps : 原来read还有序列的意思

alignment section 比对区域(结果)

数据如果不可用用 0 或者*号表示· 字段与字段之间用Tab相间隔

字段说明

SAM, Sequence Alignment/Map format_第3张图片
Paste_Image.png
1.QNAME

Query Template Name
参照 fastaq中对于Read标识的介绍

2.FLAG

这是一个16位二进制的数字, 每一位都有其特殊的标识, 1 是; 0 不是
下表 只出现了12个, 而系统多预留4位, 为后期拓展使用


SAM, Sequence Alignment/Map format_第4张图片
Paste_Image.png
3.RNAME

Reference sequence NAME of the alignment。

4. POS

1-based leftmost mapping POSition of the first matching base。
比对上的位置(从1开始, 1-based coordinate system)

5. MAPQ

Mapping Quality 比对质量
-10 * log10Pr{mapping position is wrong} - 取整
not available: 255

6.CIGAR

CIGAR string
CIGAR (Compact Idiosyncratic Gapped Alignment Report , 简要信息对比表达式)

demo

3S6M1P1l4M

前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了,是按照顺序的;

SAM, Sequence Alignment/Map format_第5张图片
Paste_Image.png
7.RNEXT

Reference sequence name of the primary alignment of the NEXT read in the template
序列比对到参考序列的名称 TODO

8. PNEXT

Position of the primary alignment of the NEXT read in the template
比对的位置[ TODO]

9. TLEN

singed observerd Template length
插入片段的长度[TODO]

10. Segment SEQuence

Segment SEQuence.
序列信息

11. QUAL

ASCALL of base QUALity plus33
跟Sanger FASTQ format 相同

12. Optional Field

可选字段(optional fields),格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。
AS:i:匹配的得分 XS:i:第二好的匹配的得分 YS:i :mate 序列匹配的得分 XN:i :在参考序列上模糊碱基的个数
XM:i: 错配的个数 XO:i: gap open的个数 XG:i: gap 延伸的个数 YF:i: 说明为什么这个序列被过滤的字符串
MD:Z: 代表序列和参考序列错配的字符串

你可能感兴趣的:(SAM, Sequence Alignment/Map format)