2020-01-13 序列比对(一):入门

序列比对定义

序列比对(特别是pairwise alignment)是指以某种方式排列两个序列,对齐具有相似性的区域。 例如GATTACA和GATCA的对齐(注意这两个序列长度并不相等):
可以这样


还可以这样

还可以这样

肉眼很难判断哪种比对更好。

序列比对的用途

1、在两个序列之间找到相似的区域——探索序列的相关性。
2、从多个备选中查找哪个序列与inout序列最相似

什么决定了比对的结果

1、比对算法:全局,局部,半全局比对→不同的比对算法会导致不同的比对结果
2、比对评分(参数):用来调整碱基排列的数值→不同的评分参数会导致不同的比对结果

难以忽略的事实

当序列非常相似(几乎相同)时,评分甚至算法的选择可能根本就不重要。 结果是稳健的——不同算法和参数设置的比对结果相同
当序列不同时,算法和评分的选择通常会对结果产生根本性的影响。 序列越不同,比对对不同参数的敏感性就越高。
因此每次比对都要考虑到算法和参数对比对结果的影响,而不是单纯的跑流程

比对结果的展示

并没有统一的规则,以ATGCAAATGACAAATCGAATGCTGATAACTGCGA的比对为例:


-代表gap,|代表匹配,.代表错配
上图的比对结果中,13个碱基匹配,产生了5个空缺,2个错配

比对是如何生成的

GATTACAGATCA的比对为例:


针对3种匹配模式,很难说哪种最好。
没有最佳比对结果,只有相对于评分规则最佳的比对结果。变更评分规则会改变比对结果,而算法会找出所有可能的匹配模式,并根据评分规则,找到评分最高的比对模式。

比对评分的原理

我们可以规定,匹配的碱基+5,错配-4,中间缺口-10,已有缺口延伸-0.5,则:



第2种匹配得分最高。

但由于多数生物学方案都会在序列末尾产生错误,因此在序列末尾出现的缺口通常不予以罚分,则调整后的评分为:



得分最高的又变成了第一种。

比对工具最常用EDNAFULL评分矩阵

curl -O  ftp://ftp.ncbi.nlm.nih.gov/blast/matrices/NUC.4.4
cat NUC.4.4
完整矩阵包括了所有的简并碱基

评分矩阵的类型

核苷酸评分矩阵和蛋白质评分矩阵,后者更复杂。
比较不同矩阵计算出的评分时也要格外小心。

评分矩阵的其他性质

注意:
1、评分矩阵不包含gap罚分的信息。 gap的open和extend的罚分常常不同。通常gap罚分比gap open罚分小得多。 这种评分方法(Affine Gap Penalty https://en.wikipedia.org/wiki/Gap_penalty)具有生物学原理,自行查阅文献。

2、比对评分方式的选择十分重要,它关系到比对结果产生的gap和mismatch的多少。

3、自定义评分矩阵仅在其行和列的总和为负值时,矩阵的作用才具有生物学意义(?)。评分通常是基于对数尺度的。

其它scoring的方法

CIGAR string

简要比对信息表达式(CIGAR)序列比对图(SAM)文件采用的比对格式。(SAM文件也是如今生信高通量分析的主心骨)

如:


在CIGAR表示为(该形式称作Extended CIGAR)
4M + 3D + 3M + 1X + 2M + 1X + 1M + 2D (4匹配+3缺失+3匹配+1错配+2匹配+1错配+1匹配+2缺失)

CIGAR另一形式中,错配和匹配都用M表示
4M3D3M1X2M1X1M2D4M3D7M2D
CIGAR还会将10M1D10M表示为10MD10M(因为只有1个D,前面的数字被省略了。。)

学习资源:

Sequence alignment
https://en.wikipedia.org/wiki/Sequence_alignment
Gap Penalty
https://en.wikipedia.org/wiki/Gap_penalty

你可能感兴趣的:(2020-01-13 序列比对(一):入门)