生物信息学 之 序列比对

针对DNA、RNA以及蛋白质序列,我们需要对其进行序列相似性搜索,来研究分析不同序列在结构和功能上相同与差异

  • 相似性【similarity】/一致性【identity】 <==> 双序列比对( Pairwise sequence Alignment )

  • 同源性【homology】 <==> 多序列比对 (Multiple Sequence Alignment)

    1. 旁系同源【paralogs】:同祖同种不同功
    2. 直系同源【orthologs】:同祖不同种同功

序列之间的相似性越高 => 序列为同源序列的可能性越高同源序列不一定相似(趋异进化),相似序列不一定同源(趋同进化)

双序列比对:

全局比对 / 局部比对
局部比对:寻找最优匹配的 子序列
最佳比对查找方法:动态规划算法(Dynamic programming)

  • Needleman-Wunsch Algorithm(for Global Alignment )

  • Smith-Waterman Algorithm(for Local Alignment)

常用工具:BLAST FASTA

BLAST:

Blastn:核酸检索核酸库
Blastp:蛋白质检索蛋白质库
Blastx:核酸(先翻译6ORFs)检索蛋白质库
tblastn:蛋白质检索核酸库(先翻译)
tblastx:核酸(先翻译)检索核酸库(先翻译)
PSI-BLAST:远亲蛋白
bl2seq:two seq

FASTA:

FASTA  <=>  Blastn;Blastp
FASTX  <=>  Blastx
TFASTAX  <=>  tblastn

蛋白质计分矩阵
PAM ( accepted point mutations )
BLOSUM ( blocks substitution matrix )

多序列比对

  • 精确法 (Exact)/ 高维动态规划算法 (DP): 慢,耗内存 , 序列极少时才可行
  • 渐进法 (Progressive methods): CLUSTALW( 树形比对 )、 星形比对
  • 迭代法 (Iterative methods): non-stochastic: MAFFT, MUSCLE; stochastic:
    GA, SA, HMM
  • 一致法 (Consistency-based methods): T-Coffee
  • 基序法 (Motif finding)/ 轮廓分析法 Profile analysis)

你可能感兴趣的:(生物信息学)