比对分析
参考基因组的一些概念:
- Seq number:基因组组装的序列总数。
- Total length:基因组组装结果总长度。
- GC content:碱基G和C的含量。
- Gap rate:组装结果中N所占的比例。
- N50 length:scaffold N50长度,表示组装结果中有一半的序列长度大于该值。
- N90 length:scaffold N90长度,表示组装结果中有90%的序列长度大于该值。
比对统计的一些概念:
- Mapped reads:比对到reference上的reads条数(包括单端比对和双端比对)。
- Total reads:有效测序数据的reads总条数。
- Mapping rate:比对率,比对到参考基因组上的reads数目除以有效测序数据的reads数目。
- Average depth:平均测序深度,比对到参考基因组的碱基总数除以基因组大小。
- Coverage at least 1X:参考基因组中至少有1个碱基覆盖的位点占基因组的百分比。
- Coverage at least 4X:参考基因组至少有4个碱基覆盖的位点占基因组的百分比。
比对分析软件及最重要的软件流程
必做
bwa index # 基因组建索引
bwa mem #比对
samtools/gatk sort #排序
可选
samtools/gatk rmdup #去重
gatk remap # 重call
比对分析统计结果
- 一般要求:
- 比对率,大部分非异常样品都会在90%甚至99%以上
- 深度,达到合同或者后续分析的需求
- coverage达到一定水平(85%以上)
- 重复率低于20%,这个报告没有,但是我们可以统计,不会提供给客户,但是是内部测评的重要指标
文件格式
fa
- 基因组文件,记录每条染色体或者contig的序列信息
- samtools faidx 后面跟fa文件,可以对其进行建立fai文件及基因的索引文件
>1 dna:chromosome chromosome:AGPv4:1:1:307041717:1 REF
TTTTCGACAAAAATGGGGTTGTGTGGCCATTGATCATCGACCAGAGGCTCATACACCTCA
CCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCT
TGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGGCTAT
TTTCGACAAAAATGGGGGTTGTGTGGCCATTGATCATCGACCAGAGCTCATACACCTCAC
CCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTT
GGTCAAAAATCCGTAGGTGTTAGCCTTCGTATTATTGAAAATGGTCGTTCATGGCTATTT
TCGACAAAAATGGGGGTTGTGTGGCCATTGATCATCGACCAGAGGCTCATACACCTCACC
CCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTG
GTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGGCTATTT
TCGACAAAATGGGGGTTGTGTGGCCATTGATCATCGACCAGAGGCTCATACACCTCACCC
-
染色体名称
- 碱基序列信息
fai
- 基因组的索引文件
1 307041717 55 60 61
2 244442276 312159189 60 61
3 235667834 560675558 60 61
4 246994605 800271245 60 61
5 223902240 1051382482 60 61
6 174033170 1279016481 60 61
7 182381542 1455950259 60 61
8 181122637 1641371549 60 61
9 159769782 1825512952 60 61
10 150982314 1987945621 60 61
...
- 第一列染色体编号
- 第二列染色体长度
- 第三列之前的字符数
- 第四列非空每行字符数
- 第五列非空字符数
bam
- 测序数据比对基因后的二进制文件
- 因为是二进制文件,将其打开可读模式可以使用:samtools view bam |less 查看
@HD VN:1.5 SO:coordinate
@SQ SN:1 LN:307041717
@SQ SN:2 LN:244442276
@SQ SN:3 LN:235667834
...
@SQ SN:B73V4_ctg187 LN:6454
@SQ SN:B73V4_ctg76 LN:5568
@RG ID:GWAS_85 SM:GWAS_85 PL:ILLUMINA
@PG ID:bwa CL:/usr/local/sentieon-genomics-201808.01/libexec/bwa mem -M -R @RG\tID:GWAS_85\tSM:GWAS_85\tPL:ILLUMINA -t 32 -K 10000000 /annoroad/ref//Zea_mays.B73_RefGen_v4.dna.toplevel.fa /annoroad/input/23153_R1.fq.gz /annoroad/input/23153_R2.fq.gz PN:bwa VN:0.7.15-r1140
@PG ID:sentieon-sort CL:/usr/local/sentieon-genomics-201808.01/libexec/util sort -r /annoroad/ref//Zea_mays.B73_RefGen_v4.dna.toplevel.fa -t 32 --sam2bam -o /annoroad/out/test//GWAS_85.sorted.bam - PN:sentieon-sort PP:bwa VN:sentieon-genomics-201808.01
A00545:25:H77GTDSXX:4:2240:11026:31767 163 1 15 0 150M = 115 249 GGGGTTGTGTGGCCATTGATCATCAACCAGATGCTCATACACCTCTCCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCATCGGTATAATTGAAAAT FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFF:FFFFFFF:FFFFFFFFFFFFFFFFF:FFFF:F:FF,::,FFFFFFFFF,FFFFF,FFF:FFF,FFFFFF:F:FFFF::F:,FFFFFFFFFFFFFFFFFFFFF,FFFFF:FFF NM:i:5 MD:Z:24G6G13A86T7T9 AS:i:125 XS:i:130 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:2426:20518:32268 163 1 22 0 150M = 404 532 TGTGGCCATTGATCATCGACCAGCGGCTCATACACCACACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTAGTT FFFF:F,:F:FFFFFFFFFFFFFF,:,F::F,,F,FFFFFFFFFFFFF::F::F,F,,F:F:F,FFFF:FFF:F,,FFFFFFF,FF,FFFF,FFF,FFFFF,FFFFFFF,,,F:F:F:FFFFF,FFFF,:,:F,FFFF::FF:F,F::FF NM:i:3 MD:Z:23A12T109C3 AS:i:136 XS:i:136 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:1113:1118:7467 99 1 25 2 150M = 412 537 GGCCATTGATCATCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCAT FFFFFFFF:FFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFF::FFFF:,FFFFFFFFFF::FF:FFFFFFFFF:FFFFF:FFFFFFFFF NM:i:0 MD:Z:150 AS:i:150 XS:i:150 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:2215:13141:24784 163 1 27 0 150M = 405 527 CCATTGATCATCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGG F:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFF:FFFFFFFFFFFF::FFFFFFF:FFFFFFFFF:FFFF,F,FFFFFFFFFFFFFFFFFFFFFFF:F,F,FFF::F:FFF,FFFFF,FFFF:FFFFF,FFF::FF,FFFFF:, NM:i:0 MD:Z:150 AS:i:150 XS:i:150 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:2235:25084:19852 163 1 36 0 150M = 139 248 ATCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCTATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGGCTATTTTCG FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFF,FFFFFFF,F:FFFFFFFFFFF::FFFFFFFFFF,F::FF:FFFFFFFFFFF,FFFFFFFFF:F::F,FFFFFFFFFFFFF:FFF:F:F:FFF:,,:FF:F:FFF NM:i:1 MD:Z:45C104 AS:i:145 XS:i:145 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:1651:9598:13197 99 1 37 0 150M = 404 517 TCGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGATCATGGCTATTTTCGG FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,:::FFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFF, NM:i:2 MD:Z:133T15A0 AS:i:144 XS:i:144 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:1503:10285:6590 65 1 38 0 140M10S 9 151394348 0 CGACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTGTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGGCAATGATCAGC FFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFF,,:FFFFFFFFFFFFFFFFFFF,FFFFF,,,,,,,,,,,F NM:i:1 MD:Z:65C74 AS:i:135 XS:i:135 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:2474:20907:33912 99 1 40 2 150M = 421 529 ACCAGAGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGGCTATTTTCGACAA FFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF,FFFFF:FFF,:FFFFF,FF,FFFFFFF:FFFFFFFFFFFFFFFF,FFF:FFFFF:FFFFFFFFFFFFF,FFFF:F,FFF:FFF:FFFFFFFF,FFFFFFFFF:FFFFFFFFFF,F:F NM:i:0 MD:Z:150 AS:i:150 XS:i:150 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:1673:8115:30608 99 1 45 0 143M1D7M = 409 514 AGGCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGCCTTCGGTATTATTGAAAATGGTCGTTCATGGCTATTTTCTACAAAATGG FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF::FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,,FFFFF:FF NM:i:2 MD:Z:140G2^A7 AS:i:142 XS:i:142 RG:Z:GWAS_85
A00545:25:H77GTDSXX:4:2247:8657:11819 163 1 47 0 98M52S = 225 275 GCTCATACACCTCACCCCACATATGTTTCCTTGCCATAGATCACATTCTTGGATTTCTGGTGGAGACCATTTCTTGGTCAAAAATCCGTAGGTGTTAGAGCGGACGAGAGTCGTGTATGGACTGTCTGTGATAAACTGTGGAAATATGGG FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFF,FFFFFFF:FFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFF:,,,:,,,F,,,F,F,,:F,FFFF,F,,,,,F,FF,,,F,,,,:,:,,:,FF NM:i:0 MD:Z:98 AS:i:98 XS:i:98 RG:Z:GWAS_85
...
- 前面@开头为表头信息
- SN记录每条染色体的长度
- ID,SM,记录样本信息
- PG记录分析的具体命令
- 非@开头的为比对的reads的具体信息
QNAME:测序的reads的名字。
FLAG:二进制数字之和,不同数字代表了不同的意义;比如正负链,R1/R2(双端测序的哪一端)等。
1 序列是一对序列中的一个
2 比对结果是一个pair-end比对的末端
4 没有找到位点
8 这个序列是pair中的一个但是没有找到位点
16 在这个比对上的位点,序列与参考序列反向互补
32 这个序列在pair-end中的的mate序列与参考序列反响互补
64 序列是 mate 1
128 序列是 mate 2
假如说标记为以上列举出的数目,就可以直接推断出匹配的情况。假如说标记不是以上列举出的数字,比如说83=(64+16+2+1),就是这几种情况值和。
RNAME:map到参考基因组后的染色体名称。
POS:1-based 基因组起始位点。
MAPQ:map的质量。
CIGAR:一个数字与字母交替构成的字符串,标记了这段reads不同位置的match情况。不同字母的含义后边介绍。
standard cigar:
M match
I insertion
D deletion
extended cigar
N gap
S substitution
H hard clipping
P padding
= sequence match
X sequence mismatch
RNEXT:如果是pair-end测序,这个为mate(另一端中对应的)的read的染色体名称;否则为下一条read的染色体名称。
PNEXT:同上,read对应的起始位点。
TLEN:插入片段大小。
SEQ:序列。
QUAL,ASCII码格式的序列质量;序列的质量信息,格式同FASTQ一样。
后面的其他标签
AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在参考序列上模糊碱基的个数
XM:i 错配的个数
XO:i gap open的个数
XG:i gap 延伸的个数
NM:i 经过编辑的序列
YF:i 说明为什么这个序列被过滤的字符串
YT:Z
MD:Z 代表序列和参考序列错配的字符串