生物信息学导论-北大-变异的功能预测3(Comparative Modeling)

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义。


Comparative Modeling 就是第一节提到的同源建模Homology Modeling,指利用序列的相似性去推测蛋白质结构。

回放:

同源建模Homology Modeling:

  • SWISS-MODEL
  • 执行:
    • 先在数据库中搜索(i.e. BLAST)
    • 找到至少一个有3d结构的蛋白质作为模板
    • 将查询序列与模板比对,构建模型
    • energy minimization
    • 评估模型,如果不好的花继续做,直到选出最好的

步骤

  • Fold assignment & template selection
    • 三种蛋白比较方法
      • 将目标序列与数据库中所有序列单独比一遍:BLAST FASTA
      • 使用多条序列进行比较,提升灵敏度(尤其序列相似性低于25%时有用):PSI-BLAST
      • Threading or 3d模板比对方法(尤其比对不上序列时有用)
    • 模板选择的要求:较高的序列相似度、蛋白质家族、模板结构的质量、溶剂可及性、ph、配体等
    • 如果蛋白的关系比较远,模板可能不够可靠
  • Target-template alignment
    • 比对可以用CLUSTAL
    • 比对twilight zone(序列和结构的相似度都较低的区域)很难
    • 某些复杂的情况下,可能需要多种结构和多条序列
  • Model building
    • 三种构建方法

      • modeling by assembly of rigid bodies

        经过比对得到一些刚性结构,组合

      • by segment matching or coordinate reconstruction

        从目标序列得到一些原子位置作为参考,然后识别和组装一些满足参考位置的、短的原子结构,最后形成模型

      • by satisfaction of spatial restraints

        根据目标序列产生一些结构上的要求,然后调整比对到的序列

    • 可用的工具:COMPOSER, CONGEN, CPH models, DRAGON, ICM, SWISS-MOD等

    • Loop Modeling

      • loops常常决定了一个蛋白结构的功能特性,LM也可以看作一个小型蛋白折叠问题。可用的方法:Ab initio methods; db search; both.
    • Sidechain Modeling

      • 需要使用整体相似的结构,并且考虑能量限制
    • 三种模型构造的准确率只能预测50%的 x 1 x_1 x1角,或者35%的 x 1 x_1 x1 x 2 x_2 x2

    • 如果模板序列没有跟目标序列对应的一些区域(比如插入或者loops),那模型就很难构建,尤其是插入的长度大于9的时候

    • 一些成功比对的模型片段,如果模板局部有些不同(比如小于3Å),那这个区域可能有错误

  • Model evaluation
    • 典型的错误:
      • errors in side-chain packing
      • distortions and shift in correctly aligned regions
      • errors in regions without a template
      • errors due to misalignments
      • incorrect template
    • 评估标准
      • 折叠是否正确:与最接近的模板的序列相似度、基于能量的z-score、关键功能性或结构性残基在目标序列中是否保守
      • 目标序列和模板序列的相似度:大于30%
      • 环境:比如有的蛋白跟钙结合
      • 立体化学的好坏:比如bond长度和角度,主链和支链旋转角度等
      • 一些空间特性的分布:比如packing,疏水核的行程,残基和原子的溶剂可及性等
    • 可用的软件:ANOLEA, AQUA, PROVE等
  • 应用
    • Low accuracy
      • 小于30%的序列相似度,小于50%的的Cα原子的位置与它们在理想构象中的位置的误差范围在3.5 Å以内
      • 用于确认或拒绝两个关系远的蛋白之间的匹配
    • Middle accuracy
      • 30%~50%序列相似度。85%的Cα原子的位置与它们在理想构象中的位置的误差范围在3.5 Å以内
      • 用于精进模型
    • High accuracy
      • 大于50%的序列相似度。这些序列一般可以跟低分辨率的x光结构一致,或者跟中分辨率的NMR(核磁共振)结构一致
      • 用于将小配体或者整个蛋白对到给定蛋白上

你可能感兴趣的:(生物信息学,生物,生物信息)