生物信息学导论-北大-变异的功能预测1

ref: https://www.coursera.org/learn/sheng-wu-xin-xi-xue/home

本文主要来自本课的讲义。


基因突变的来源

  • Germline mutation(胚系突变)
    • 来自父母的遗传,是生殖细胞携带的突变,可以遗传
    • 在个体每个细胞中都存在
  • De novo mutation(新发突变)
    • 父母本身没有突变,一般来自精卵结合或受精卵发育过程中的自发突变
    • 很常见,一般不会带来功能性的问题,但如果变异在重要基因,会有先天性疾病
  • Somatic mutation(体细胞突变)
    • 最常见
    • 在个体生长发育中产生的突变,仅出现在身体的少数部位
    • 不遗传
    • 研究肿瘤时需要关注

人类基因突变的类型

  • Chromosomal aneuploidy(染色体异倍体)
  • Structural Variations(SVs)
    • 大于50bp的序列发生诸如删除、插入、重复、倒位、异位等改变的
  • Copy Number Variations(CNVs)
    • 大于1kb的基因组大片段的拷贝数增加或减少
  • Short insertion/deletions(indels)
    • 长度一般在50bp以下
  • Single Nucleotide Variations(SNVs)
    • 在编码区的SNV可能造成以下结果:
      • nonsense mutation:突变位置的密码子变成了终止密码子
      • stop loss:原本的终止密码子因为突变丢失,可能产生新氨基酸
      • missense:错义突变,指直接变成另一个氨基酸
      • silent/synonymous:同义突变
      • affect splicing:影响剪切

数据库

  • dbSNP:Home - SNP - NCBI (nih.gov)
  • 1000Genomes:http://www.1000genomes.org
  • OMIM Online Mendelian Inheritance in Man: Home - OMIM
  • HGMD Human Gene Mutation Database
  • LSDBs Locus Specific Databases:大多基于LOVD(Leiden Open Variation Database)构建

SVM:支持向量机

  • 监督学习,可以做分类和回归
  • 为每个类选取一些边界上的点称为支持向量(离maximum margin hyperplane最近的点,而那个hyperplane是将两个类分得最开的那个面),构造线性判别函数以分类
  • SVM可以通过kernel处理非线性分类问题,做法是将输入映射到高维空间
  • 算法不写了,直接上框架完事儿。。

生物学问题:如何区分致病变异和中性变异?如何预测一个变异是否致病?

nonsense mutations经常被看作是致病的,但实际并非如此;错义突变里有很多致病的突变,所以研究也比较多,但是其他类型的变异研究不足。

一种假设:基于BLOSUM替换矩阵,如果变异的残基和野生型残基之间的替换分数是正数,那么变异是中性的;如果是负数,那么变异是致病的。(1999)

其他方法:

  • Conservation-based:SIFT
    • Sort Intolerant From Tolerant substitutions(2001)
    • 前提:
      • 重要的位置(如活性位点active sites)在不同物种的蛋白质家族中趋于保守,所以如果在很保守的位置突变了,就很有可能是有害的
      • 很多位置在不同物种中有较高的diversity,那么这些位置的突变更可能是中性的
    • 执行过程:
      • 给定一个蛋白序列,先搜索相似序列:在SWISS-PROT中使用PSI-blast搜索,跑4个迭代
      • 取上面结果中,比对区域一致性≥90%的序列
      • 将上述结果对齐
      • 对每个位置,计算所有替换出现的、归一化的概率
      • 如果概率<0.05,认为是有害的,否则就是中性的
  • Rule-based:PolyPhen
    • 前提:
      • 氨基酸变异可以影响蛋白的折叠、相互作用微店、溶解性和稳定性
      • 蛋白质结构的变化会影响蛋白质功能,从而影响表现型
    • 执行:基于多序列比对和蛋白质三级结构,使用一些规则判定
      • 使用同源序列进行多序列比对
      • 对变异位置,考虑结构特征:如是否在跨膜区域、信号肽区域等
      • 获得3d结构或者用同源建模预测结构
      • 计算与3d结构相关的一些特性
      • 再运用规则进行判定
    • 优点:当有3d结构时,预测准确率提升
    • 缺点:如果没有3d结构,准确率差一点;规则是依赖于经验的
  • Classifier-based:PolyPhen2, SAPRED
    • PolyPhen2是PolyPhen的升级版,使用更多特征,基于朴素贝叶斯
    • SAPRED支持两种预测:一是只基于序列信息的,二是基于序列和结构信息

蛋白质3D结构数据库:PDB

同源建模Homology Modeling

  • SWISS-MODEL
  • 执行:
    • 先在数据库中搜索(i.e. BLAST)
    • 找到至少一个有3d结构的蛋白质作为模板
    • 将查询序列与模板比对,构建模型
    • energy minimization
    • 评估模型,如果不好的花继续做,直到选出最好的

你可能感兴趣的:(生物信息学,生物,生物信息)