转载:http://www.omicshare.com/forum/thread-2703-1-1.html
外显子虽然只占约1%人类基因组大小,但多数疾病都是由编码基因的低频或罕见突变引起,同时外显子测序容易实现>100x的深度测序,因此对外显子的研究是一种高效的发现人类疾病信息的研究手段。
市面上一般都是通过探针杂交富集外显子,然后利用二代测序获得其序列信息,最后结合公共数据库的外显子数据,解释变异与疾病之间的关联。
外显子测序分析主要包含变异挖掘与变异注释两部分,其中变异注释尤为关键。因为通过变异注释,我们可以了解突变的变异位置、频率等信息,从而结合生物学背景筛选出候选新生变异位点,以用于后期功能研究或疾病模型构建。一般来说,外显子变异注释主要分为四大类:第一类为位置注释,第二类为变异频率信息,第三类为蛋白变异信息,第四类变异基因功能类型。今天我们就对变异频率信息挖掘对大家进行简单介绍。
变异频率分析
正常人体基因组中存在大量的变异信息,其中90%以上的变异信息是高频率(>5%)的,也就是在大部分人中都存在。一般来说,高频的变异往往与疾病无关,只有部分低频的变异具有致病性。因此通过对变异进行频率分析筛选,能够有助于找出有效致病突变位点。
为达到变异筛选目的,我们一般会在几个大型的外显子变异数据库中对新发现的突变进行注释,了解其突变频率等情况。常用的数据库有dbSNP、Hapmap、COSMIC、1000Genomes projects千人基因组计划(根据人种来源,分为全部人种、东亚人、美洲人等不同子数据库)、ESP6500外显子计划、ExAC(根据人种来源,分为全部人种、东亚人等不同子数据库)。
1. dbSNP
dbSNP(https://www.ncbi.nlm.nih.gov/projects/SNP/)是NCBI与人类基因组研究所合作建立的关于单碱基替(SNP)以及短插入删除(InDel)的资源库。它的数据来源于公共实验室以及私人研究组织。
测序公司一般会在dbSNP数据库中对新发现变异进行注释,给出该变异在dbSNP中的ID,这个ID就是NCBI所赋予数据库中每个SNP的rs号。在数据库中,通过rs号的搜索,可以发现SNP的前后序列、位置信息、分布频率等。这些信息在我们判断新变异的重要性中有着重要意义。
2. Hapmap
人类基因组单体型数据库(www.hapmap.org)。通过注释,可以知道该变异与人类健康、疾病以及对药物和环境因子的个体反应差异相关的基因相关性,变异的ID与dbSNP的ID一致。但在16年6月,HapMap网站已经被关闭,并逐渐被1000 Genomes Project所取代。
3. COSMIC
全称 Catalogueof Somatic Mutations in Cancer(http://cancer.sanger.ac.uk/cosmic),是全球最大的癌症体细胞突变数据库。注释结果一般包含COSMIC中的ID,观察到突变的次数(OCCURRENCE),以及观察到变异所在的癌组织名称(如haematopoietic_and_lymphoid_tissue)。通过COSMIC突变注释,可知检测到的体细胞突变是否已被报导或观测到过,以及在哪些癌种中被报导的次数。
4. 1000Genomesprojects
千人基因组计划(http://www.internationalgenome.org/)。通过注释,可以知道该变异在全部参与千人基因组计划人群中的突变频率,参与人群来自于非洲AFR(African),美洲AMR(Admixed American),东亚EAS(EastAsian),欧洲EUR(European),南亚SAS(South Asian)等区域。根据不同目标研究人种,有的公司会单独对某个子数据库进行分析,例如研究中国人,会另外在东亚EAS数据库中注释突变频率。
5. ESP6500
国家心肺和血液研究所外显子组测序计划(NHLBI-ESP project),这个计划中的esp6500si_all数据库(http://evs.gs.washington.edu/EVS/)中包含SNP变异、InDel变异和Y染色体上的变异的所有个体中,突变碱基的等位基因频率(alternativeallele frequency)。通过注释,我们可以了解到突变在ESP6500的变异频率,并过滤突变频率大于0.01的数据。
6. ExAC
全称Exome Aggregation Consortium(http://exac.broadinstitute.org/),它整合了60706个无亲缘关系个体的数据,这些个体来源于大量疾病研究和群体遗传学研究,能够用做严重疾病研究的参考数据库。目前ExAC数据库中包括ALL,AFR(African),AMR(Admixed American),EAS(East Asian),FIN(Finnish),NFE(Non-finnish European),OTH(other),SAS(South Asian)。
通过ExAC的著述,可以了解该变异位点上突变碱基的等位基因频率,并可采用0.01的标准进行过滤。与1000Genomesprojects一样,有的公司会根据不同目标研究人种单独对某个子数据库进行分析,例如研究中国人,会另外在东亚EAS数据库中注释突变频率。
目标变异筛选(基于变异频率)
结合以上数据库,通过特定的阈值筛选,我们可以过滤很多无效变异。例如,可以过滤千人基因组数据库中频率大于0.01变异位点,以得到真正可能致病的罕见突变(rare)。也可以联合多个数据库对突变频率进行过滤,或者同时参考dbSNP中记录的SNP信息,初步判断数据库中不存在的变异为新发现变异,以增加研究价值。
不过值得注意的是,在dbSNP中没有记录的变异,有可能是新变异,也有可能是旧的符合条件的变异,更有可能是测序错误。因此在判断某一变异的价值的时候,需要结合其位置信息以及蛋白突变有害性等信息进行判断