生物信息课程学习 --- 比对,BLAST,马尔可夫

  1. NW-全局比对在发现intron的存在后,1981年,S-W被提出来。
  2. 90‘,97’发表了BLAST,Gapped BLAST和PSI BLAST(多序列比对)。
  3. 生物信息杂志生物信息课程学习 --- 比对,BLAST,马尔可夫_第1张图片

序列比对

  • maximal level of similarity —> functional/evolutionary relationship
  • 空位罚分penalty=d+(n-1)*e是目前比较合理的罚分模式
从全局比对到局部比对

Needleman-Wunsch -> Smith-Waterman(加了下限0)
a, 某些蛋白整体相差大,局部存在相似功能域;b,内含子的发现
二者复杂度是否都是O(mn)?

  • 同源性和相似性
    ortholog comes with speciation直系同源来自物种形成事件
    paralog comes with duplication旁系同源来自复制事件
    similarity vs identity 相似性(类似氨基酸etc) ,同一性(一致)
  • 相似性矩阵
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第2张图片
    PAM对应于1%的序列差别,PAM2并不对应于2%的序列差别,存在回复突变,实际差别小于2%,PAM2=(PAM1)平方,矩阵自乘
    BLOSUM62常用
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第3张图片

BLAST

只考虑潜在的最优比对两侧,围绕最优对路径进行计算。
seeding and extending: looking for seeds of high scoring alignments only; use dynamic programming selectively.

Seeding

For a given word length w(usually 3 for proteins and 11 for nucleotides), slicing the query sequence into multiple continuous “seed words”

Speedup: Index database

而后通过事先建立好的索引表,在数据库中快速定位相关候选序列以及在候选序列中的具体位置;通过对所有的seed重复操作,可以得到查询序列与候选数据库序列之间的hit map,最优比对对应的路径应该平行于主对角线,因此,进一步去掉零散hits,保留沿对角线方向有两个及以上连续的hit cluster,以这些cluster左右延伸扩展,直到总分数下降达到一个指定的值后停止(局部比对)

Speedup: mask low-complexity屏蔽重复性的低复杂度区域
E-value

在随机情况下,获得当前比对分数相同或者更高的分数的可能比对条数,不是概率,是期望,大于1,

BLAST Steps

  • Step 0 --- Filtering
    mask low-complexity and repeats,核酸部分用N代替,氨基酸用X。BLAST的-F参数。
  • Step 1 --- Seeding
    构造长度为w的word,氨基酸为3,核酸为11。长度为n的序列,word总数为n-w+1。BLAST-W参数。
  • Step 2 --- Search word hits
    打分矩阵,对于氨基酸,BLOSUM(62)或者PAM,对于DNA,匹配/不匹配得分为+5/-4或者+2/-3;最初不允许空位,97后2.0版本有Gapped BLAST;设置阈值T,得分高于T则被保留,完全匹配的word,其他不完全但高于T的是neighborhood words。
  • Step 3 --- Scanning 数据库扫描
    哈希表(设置间值直接寻址);有限自动机(Deterministic finite automation/finite state machine: much faster?)
  • Step 4 --- Extending ---> HSP
    保留的words向前向后延伸,打分低于S则cutoff
  • Step 5 --- Significance evaluation
    raw scores意义不大余姚归一化及后续处理。生物信息课程学习 --- 比对,BLAST,马尔可夫_第4张图片

Markov Model

part1. 从状态到马尔可夫链

生物信息课程学习 --- 比对,BLAST,马尔可夫_第5张图片
生物信息课程学习 --- 比对,BLAST,马尔可夫_第6张图片
生物信息课程学习 --- 比对,BLAST,马尔可夫_第7张图片

  1. 从状态到马尔可夫链
  • Markov链由俄国数学家引入,一个基于概率的随机过程模型,用来刻画一组之间存在关联的随机事件。
  • Markov链用来描述一组离散状态之间在不同时刻的转移关系,这里的状态转移关系不需要是唯一确定的,只需要一个概率分布描述即可。
  • Markov唯一的要求是:t时刻状态的概率分布,由且只由之前有限的m个时刻状态的概率分布确定,称之为m阶马尔可夫链
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第8张图片
  • 通常,只考虑最简化的情形:1阶马尔科夫链,也就是当前的状态与且只与其前一个状态有关。
    在这里插入图片描述
  • 转移概率
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第9张图片
    在这里插入图片描述
  • 通常假定这个转移概率与t无关,也就是所谓的齐次Markov Chain.
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第10张图片
  1. 隐马尔可夫
  • 隐马尔科夫模型,是指在状态的基础上,增加了符号(Token)的概念。每个状态都可以以不同的概率产生(Emit)一组可以观察到的符号。也就是说,除了状态转移概率之外,隐马尔科夫模型进一步引入“生成概率”(Emission Probability)的概率。
  • 每个状态都有自己的生成概率分布,可以按照不同的概率产生一组可以被观测到的符号
  • 隐马模型中,状态路径无法直接看到—“隐”。根据观测的符号,推测对应状态。
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第11张图片
    生成概率与转移概率的乘积是符号产生的概率
    在这里插入图片描述
    生物信息课程学习 --- 比对,BLAST,马尔可夫_第12张图片
  • 为什么要引入隐马尔科夫模型?
    隐马尔科夫模型的引入,有效地给出了序列比对的概率解释
    概率模型的引入,还可以帮助我们利用概率论的知识做更多分析
    隐马尔科夫模型通过符号观测序列来反推隐状态这个特点,它的应用领域并不局限于序列比对。在现代生物信息学的研究中,隐马尔科夫模型更多的被作为预测器来使用(CNV识别,编码区预测)。
  1. 用隐马尔可夫模型建立预测模型
  • 基因组会同时包含编码和非编码区域,因此这两个状态之间可以相互转换。
  • 计算概率时,随着连乘次数的增加,很容易数值过小而出现下溢问题(underflow)的问题,因此通常引入对数计算,从而将乘法转换成加法
  • The Most Simple Gene Predictor(MSGP)唯一的限制是:不同状态对应的生成概率必须存在显著的差异,这样才可能从观测序列反推出状态来。
  • 通过将状态与可观测的符号分离开,隐马尔科夫模型为生物信息学的数据分析提供了一个有效的概率框架,是当代生物信息学研究最常用的算法模型之一。

你可能感兴趣的:(生物信息)