chapter65 序列比对算法alignment

1.序列比对的作用

大致分为两种:

  1. 比对两个序列的相似性,比如TA克隆序列和目标序列是否一致;
  2. 寻找与目标序列最接近的序列,比如生成进化树等

比对中最主要的因素:

  1. 比对算法,包括global, local, semi-local
  2. 打分体系
    这两者都对比对的结果会有关键影响

打分体系

1. 引入三个概念,gap 和 match,mismatch

gap:用"-"表示
match:用"|"表示匹配
mismatch:用"·"

13 match, 4 gap, 2 mismatch

2.哪个序列在上方是否影响比对结果?

不影响比对结果,即得分;但会影响结果的解释。
如下图,左右得分相同,但是左图解释为下链比上链有AAA的deletion和一个G的insertion;右图则为下链比上链有AAA的insertion和一个G的deletion。

比对示意

3.打分

含义:通过给不同状态赋予不同的分数,计算两条链比对最终得分,取得分最高为比对最优结果。
比如:

match=5 分
mismatch = -4 分
gap = -10 分
gap长度加1 = -0.5 分

如下比对结果中,第二种比对得分最高,因此是最优比对。


中间最优

但是大多数情况下,某一条链都比对完即比对结束,因此以上比对结果修改为:


左侧最优

但是实际打分矩阵更加复杂
以下是一个NCBI上的打分矩阵,字母含义见碱基单字母命名方法https://www.cnblogs.com/triple-y/p/10151803.html

打分矩阵

打分矩阵不包括gap的罚分

SAM文件中的CIGAR

CIGAR (Compact Idiosyncratic Gapped Alignment Report):表示序列和比对基因组的比对结果
比如以下序列:


意思是:4mismatch---3个deletion---3个match---1个mismatch---2个match...

你可能感兴趣的:(chapter65 序列比对算法alignment)