生物变异背景知识~逃不过躲不掉,终究要知道

刘小泽写于19.4.10
学习癌症知识不可避免要遇到一个问题,什么是somatic mutation?什么是germline?和SNV、CNV又有什么关系?SNP和SNV是一回事吗?还有非同义突变、错义突变、无义突变又是怎么一回事?这些生物变异相关的背景知识逃不过躲不掉,终究要知道

癌症种类有至少200种癌症以及更多的亚型,癌症与正常组织区别之一就是癌症的基因组一些位点发生了改变,而有的改变驱动了肿瘤细胞的生长,而有的改变无关痛痒,我们就是想看看那些比较核心的基因变化。

首先来看somatic和germline mutation

看三个问题:

1 肿瘤样本和正常样本哪里不同?这个问题的解决就是"call mutation"过程(可以用GATK、varscan、freebayes)

2 得到的突变都是患者本身发生的吗? 这个问题的解决就是"call somatic mutation"。这个因为在癌症研究中,初步得到的变异是患者包含从父母那里得到的变异(germline变异或胚系突变),还有一部分是我们真正关心的患者本身因为环境因素等造成的变异(somatic变异或体细胞突变)。实际操作中一般都是得到肿瘤与正常配对组织一起进行WGS或WES测序,这样做的目的就是过滤掉从亲本得到的germline 变异,获得真正属于研究对象的somatic变异,也就是我们想看的(可以用Varscan、SomaticSniper、MuTect2、MuSE、Strelka 可以检测,其中前四个是TCGA使用的)。

3 得到体细胞突变后,其中有许多突变并不是直接导致癌症发生的,那么真正致癌基因怎么获得? 得到的体细胞突变又可分为两种类型:驱动突变和乘客突变(driver & passenger)。这个问题的解决就是"driver gene mutation",就是寻找那些驱动基因。2018年有一篇Cell文献Comprehensive Characterization of Cancer Driver Genes and Mutations,他们使用26种工具分析了TGCA MC3项目(Multi-Center Mutation Calling in Multiple Cancers project)体细胞突变集,最终确定了299种癌症基因,3400个假定的错义驱动突变基因,实验验证60~85%的预测结果是可能的驱动基因

第一次接触这两个词是从GATK软件中,开始并不清楚什么意思,只能找图片帮助理解,于是看到这一张:

生物变异背景知识~逃不过躲不掉,终究要知道_第1张图片

先上英文解释:

  • Somatic mutations – occur in a single body cell and cannot be inherited (only tissues derived from mutated cell are affected)。体细胞突变基因简称SMGs
  • Germline mutations – occur in gametes and can be passed onto offspring (every cell in the entire organism will be affected)

下图是来自A simple approach for classifying new mutations as somatic or germinal in DNA samples lacking paired tissue

生物变异背景知识~逃不过躲不掉,终究要知道_第2张图片

关于基因变异Genetic Variation的分类:

  • 单核苷酸畸变Single Nucleotide Aberrations
    • SNPs:single nucleotide polymorphism单核苷酸多态性=》mutations shared amongst a population
    • SNVs:single nucleotide variation单核苷酸变异=》private mutations
  • 短插入缺失:Short Insertions or Deletions (indels):插入或缺失小于50bp的small indel(也有文献是25bp)
  • 拷贝数变异:Copy Number Variations (CNVs):片段扩增或缺失
  • 结构变异:Larger Structural Variations (SVs):基因组水平上大片段插入、缺失、倒置、易位等,其中易位包括染色体内部迁移和染色体间的迁移


    生物变异背景知识~逃不过躲不掉,终究要知道_第3张图片

点突变:SNV与SNP

实体肿瘤中95%的突变为单个碱基的替换

这两个经常分不清楚,但共同点在于都是针对单个碱基

不同点在于:

  • SNV:就是个体存在的变异位点,是一种低频突变,在群体中没有被证实
  • SNP:有一个"群体"的概念包含其中,就是说一个群体中的任何个体都存在变异可能,而且是一种高频突变。信息储存在dbSNP (http://www.ncbi.nlm.nih.gov/snp)

上面看到一个关键词:"低频、高频",这也体现出二者的区别主要是在多态性上。这里的频率指的是minor allele frequency(MAF),即次要等位基因频率。再细致一点就是一个种群中出现频率排名第二的等位基因(allele),例如三个等位基因GG、GC、CC,出现频率分别为0.50,0.48,0.02,那么MAF就是0.48

知道了频率的定义,那么这个数值怎么界定呢?这个就依据不同文献了,有的文献定为5%,有的定为1%,即位点突变频率低于1%是低频,反之为高频

因此可以看到,SNP更倾向于反应一个群体的突变频率=》多态性;SNV检测的是针对个体,它也是应用在somatic变异检测中的指标之一

更多参考:https://www.quora.com/Genomics-What-is-the-difference-between-an-SNP-and-an-SNV

https://www.researchgate.net/post/What_is_the_difference_between_a_SNP_and_a_mutation

点突变又分为=》同义突变|错义突变|无义突变

  • 同义突变(silent mutation, same-sense or synonymous mutation):密码子是有简并性的,因此单个碱基的替换可能只改变了mRNA上特定的密码子,但是不改变翻译时氨基酸的正常编码
  • 非同义突变又包括错义突变和无义突变
    • 错义突变(missense mutation or non-synonymous mutation):单个核苷酸改变导致一个密码子编码一个不同的氨基酸
      (可以利用基于蛋白质序列的保守程度的SIFT和基于序列、结构特性的Polyphen2 、只用于错义点突变的MutationAssessor、整合前三者的OncodriveFM等进行功能预测http://college.gcbi.com.cn/archives/1653)
    • 无义突变(non-sense mutation):一个密码子变为终止密码子引起多肽链合成提前终止,产生的蛋白大都失去了活性或丧失了正常的功能。

CNV 拷贝数变异

  • 基因组发生重排而导致的,长度1k以上,可以按照CNV对否致病分为:致病性CNV、非致病性CNV和不明临床意义CNV。

  • CNV突变率较高,大约是DNA点突变的100-10000倍

  • 目前全基因组范围内研究CNV的方法主要有:基于芯片的比较基因组杂交技术(Array CGH, aCGH)、SNP分型芯片、NGS染色体异常检测

  • Database of genomic variants, DGV数据库 收录了已报道的CNVs

参考:基因组拷贝数变异及其突变机理与人类疾病;CNV的临床意义

小结:

绝大多数癌症的突变是体细胞突变(大约90%的癌基因显示有体细胞突变,20%的显示有胚系突变,而10%的显示共有体细胞和胚系突变 A census of human cancer genes);

体细胞变异主要联合分析配对肿瘤和正常样本序列,然后看:SNV、CNV、InDel

最后是人类基因变异的一些参考数据库

  • The 1000 Genomes Project

    • http://www.1000genomes.org/
    • SNPs and structural variants from 2500 individuals from about 25 populations
  • HapMap

    • http://hapmap.ncbi.nlm.nih.gov/
    • identify and catalog genetic similarities and differences
  • dbSNP

    • http://www.ncbi.nlm.nih.gov/snp/
    • Database of SNPs and multiple small-scale variations
  • COSMIC

    • http://www.sanger.ac.uk/genetics/CGP/cosmic/
    • Catalog of Somatic Mutations in Cancer
  • TCGA

    • http://cancergenome.nih.gov/
    • The Cancer Genome Atlas researchers are mapping the genetic changes in 33 cancer types
  • ClinVar

    • ·http://www.ncbi.nlm.nih.gov/clinvar/
    • aggregates information about sequence variation and its relationship to human health

欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到[email protected]

Welcome to our bioinfoplanet!

你可能感兴趣的:(生物变异背景知识~逃不过躲不掉,终究要知道)