序列对比

  1. 序列模式
    sequence pattern: 以特定的规则来描述碱基序列,
    概率性的规则称为motifs,如:GC后的碱基80%为A,20%为T
    Adapter是最简单的一种规则
    K-mers:一段序列中所有字符串长度为k的组合,k小于等于序列长度
    如一段序列: ATGCA
    2-mers:AT, TG, GC, CA
    3-mers:ATG, TGC, GCA
    4-mers:ATGC, TGCA
    5-mers:ATGCA
    K-mers用处:
    指出错误:k-mers通常在序列出错时出现
    分类:特定的k-mers可以识别基因
  2. 序列对比
    为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

将两个或多个序列排列在一起,标明其相似之处。序列中可以插入间隔(通常用短横线“-”表示)。对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。

符号:

"-": gap

"|": match

".": dismatch

CIGAR string: 在SAM文件中的一种对比格式

比如:4M3D3M1X1M2D

M: Match

D: Deletion

X: Mismatch

如何选择最好的对比序列:没有最好的结果,分数越高越好

分数判定:

5分:match

-4分:mismatch

-10分:gap

-0.5分:extending an open gap

分数可以随着打分规则的改变而改变

Global alignment:总序列对比是两条序列的每一个碱基都互相配对,即使两个碱基不匹配或者一个碱基与一个gap配对

Local alignment: 局部对比

局部对比是指寻找分数最高的配对方式,为最后可能得到一条很短的配对序列但是是得分最高的

你可能感兴趣的:(序列对比)