《生物信息学》阅读笔记 (三):序列比对原理

这一章之前在博客中就有过介绍。这里是查漏补缺。

  • 运用全局比对的主要优势在于对具有高度同源性的序列进行优化,这在以已知三维结构的同源性序列为基础对未知序列的三维结构进行预测的模型构建中是十分有用的。
  • 局部比对适合用于哪些在其全长中具有局部的小同源性片段的序列比较,一般用于特定序列位点、结构域及其他类型重复序列的搜索,同时它在发现数据库中待分析序列的同源序列过程中也有重要意义。
  • 相似性(similarity)是指两序列间直接的数量关系,如部分相同、相似的百分比或其他一些合适的度量。
  • 同一性(identity)是指两序列在同一位点核苷酸或氨基酸完全相同的序列比例。
  • 相似性和同一性都是量的概念,一般用百分比表示。
  • 同源性(homology)是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,它是质的判断。
  • 来自共同祖先的基因称为同源基因。
  • 直系同源基因(orthologous gene)是指在不同物种中有相同功能的同源性基因,它是在物种形成过程中形成的。
  • 旁系同源基因(paralogous gene)是指一个物种内的同源基因。
  • 一般情况下,一个生物物种的基因组中,两个基因或可读框在各自全长的60%以上范围内,同一性不少于30%时,称为同源基因。
  • 在实际进行序列比对的时候,应该选择各种不同的相似性分数矩阵进行多次比对,并对比对结果进行分析比较,才能得到比较合理的结果。
  • 序列分析的关键是检测进化距离较远的序列之间是否具有同源性。
  • 动态规划算法适用于较少量序列之间的比对,而BLAST算法适用于从一组大量序列中搜索与查询相似的序列。
  • nr是非冗余蛋白质序列数据库,该数据库包括GeneBank CDS translation、RefSeq Proteins、PDB、Swiss-Prot、PIR和PRF的全体数据库的非冗余数据。
  • 渐进式算法是大多数多序列比对工具采用的算法,基本思想是基于相似序列通常具有进化相关性这一假设。
  • Muscle的功能仅限于多序列比对,它的最大优势是速度,比clustalw的速度快几个数量级,而且序列数越多速度的差别越大.它的时间复杂度为O(NL^2+N^3L),空间复杂度为O(N^2+NL+L^2).它之所以比clustalw快一方面是因为没有进行两两序列比对,用序列间共有的word数表征序列间的相似性;另一方面用UPGMA代替NJ构建guide tree. 如果没有对于结果的refinement过程,时间更短,时间复杂度为O(NL^2),也就是说时间和序列数成线性关系.一个形象的例子是,5000条长度为350的数据进行比对只需要7分钟,而用Clustalw则可能需要1年. 尽管如此,muscle对于内存的要求较高,从它的空间复杂度可以看出来.

你可能感兴趣的:(生物信息学)