基因检测报告都用了哪些数据库?

基因检测已逐渐成为肿瘤患者临床诊疗路径中必不可少的一环,而报告解读的专业性更是这个环节中的关键。目前人类基因组中大量变异不断被发现, 且已被许多数据库广泛收录。在基因检测机构出具报告时, 可在已有的数据库及发表的文献中寻找到有价值的参考信息。以下详细列出在基因检测诊断中常用的数据库:

人群数据库

某变异在大规模人群中发生频率

  1. dbSNP数据库(https://www.ncbi.nlm.nih.gov/snp/)
    常用的频率数据库,dbSNP包含人类单核苷酸变异、微卫星、小片段插入和缺失、以及常见变异和临床突变的出版物、种群频率、分子检测结果、及基因组RefSeq定位信息。

  2. gnomAD数据库(http://gnomad.broadinstitute.org)
    目前最大的人群频率注释数据库,这些数据来源于各种疾病研究项目及大型人群测序项目。数据库包含基因的基本信息(基因名称、包含的变异位点个数、其他数据库的链接等);覆盖度信息(外显子测序的数据和全基因组测序的数据);变异位点的详细信息(变异位点的注释采用的是VEP软件,官方下载地址http://gnomad.broadinstitute.org/downloads

  3. ExAC数据库(http://gnomad.broadinstitute.org)
    ExAC数据库的全称是(the Exome Aggregation Consortium),外显子组整合数据库,是gnomAD数据库的第一个版本,只包含了外显子测序的数据,该数据库旨在汇总和协调各种大规模测序项目的外显子组测序数据,并为科学界提供更广泛的摘要数据,该数据库已被整合到gnomAD数据库。

4.1000 Genomes(https://www.internationalgenome.org/)
1000 Genomes Project(缩写为1KGP)的目标是在群体中找到频率为1%以上的遗传变异,为人类遗传变异的研究提供了一个综合的资源。最终数据集包含来自26个群体的2504个个体的数据。所有样本都有外显子测序数据。比其他同类数据库优越的是,1000 Genomes Project里有24个个体进行了全基因组测序。现在1000 Genomes Project的数据可以通过IGSR(The International Genome Sample Resource)的数据门户网站访问,现已更新匹配GRCh38参考基因组的数据。在首页可以进行检索和分析,进入FTP站点可以进行数据下载。

疾病数据库

病患变异的致病性评估

  1. HGMD 数据库(http://www.hgmd.org)
    HGMD是人类基因突变数据库,应用该数据库可以简单、快速确认实验得到的某种突变是否已被发现,是否是导致人类遗传疾病的原因,获得某个特定基因或疾病的致病突变谱,快速查询与人类遗传疾病相关的突变信息的文献。HGMDpro线下数据库含有突变标签:DM-致病突变;DM?-疑似致病突变,DP-疾病相关多态性突变,DFP-疾病相关多态性突变(功能研究支持),FP-功能多态性(体内/体外实验支持但疾病关系不明);以及关联人群携带率,方便快速排除假阳性致病位点(高携带率)。分为免费Public版、收费的高频更新的Professional版(https://www.insvast.com/hgmd)。

  2. OMIM数据库(https://www.ncbi.nlm.nih.gov/omim/)
    OMIM也称人类孟德尔遗传在线数据库,是人类基因和遗传表型的全面、权威的数据库。包含疾病信息:包括疾病的发现、与疾病相关的基因、临床特征、遗传方式等详细描述;基因信息:包括基因定位、与基因相关的表型、基因功能、研究进展等详细描述。

  3. ClinVar数据库(https://www.ncbi.nlm.nih.gov/clinvar/)
    ClinVar 是NCBI临床突变数据库,整合遗传变异、临床表型、支持证据以及功能注解与分析四方面的信息,采用星标系统来评价特定突变在疾病中的功能注释等级,记载文献中变异与疾病/表型之间的关系,且有文献溯源。

  4. InterVar数据库(http://wintervar.wglab.org/)
    InterVar同样是位点致病性评判数据库,可以实现对ACMG 28条判读标准中的18条进行自动化评分,其余10条由于需要后续证据输入或者参数调整(例如Sanger测序验证结果或家系验证等)。

  5. ClinGen数据库(https://www.clinicalgenome.org/)
    ClinGen是在NIH资助下2013年成立,该项目是一个不断发展,致力于建立基因、变异与疾病的临床相关性知识库。其主要工作是利用现有研究成果中收录的基因/变异和疾病/表型数据,对基因组区域、基因和变异进行评审、筛选,并将结果提交到知识库中,当前主要包括5部分内容:基因疾病的有效性,剂量敏感性,变异的致病性,临床可操作性,体细胞变异。该数据库最终的目的是通过基因组学来改善患者的治疗。

表型数据库

表型标准化,用于遗传性肿瘤的分析

  1. GeneReviews数据库(http://www.genereviews.org/)
    GeneReviews是一个国际性的资源平台,通过期刊文章的形式,主要聚焦于单基因遗传病,提供遗传相关疾病的临床知识与操作指导,内容涉及疾病诊断、管理及针对患者的遗传咨询等方面。包括针对单一基因和表型叙述的章节(约95%)或是对常见疾病遗传学病因的概述章节(如阿尔兹海默症)(约5%)等。
    中文版GeneReviews数据库:https://genereviews.nrdrs.org.cn/paper/index

  2. HPO数据库(https://hpo.jax.org/app/)
    该数据库提供了人类疾病中遇到的表型异常的标准化词汇表。HPO中的每个术语都描述了一个表型异常,例如房间隔缺损等。目前正在使用医学文献Orphanet,DECIPHER和OMIM来开发HPO。HPO当前包含13,000多个术语和156,000多种遗传性疾病注释。HPO项目和其他项目已经开发了用于表型驱动的差异诊断,基因组诊断和转化研究的软件。中文版CHPO数据库:www.chinahpo.org/

序列数据库

用于查询参考基因序列

  1. NCBI Gene数据库(https://www.ncbi.nlm.nih.gov/gene/)
    整合了来自广泛物种的信息,记录包括基因官名、参考序列(RefSeqs)、基因图谱、分子机制途径、基因相关变异、基因与关联表型、表型和基因座特异性资源的链接。

  2. UCSC Genome Browser(http://genome.ucsc.edu/)
    2000年6月22日,UCSC和国际人类基因组计划联合会的其他成员完成了人类基因组组装的第一份工作草案,永远确保了公众对基因组及其信息的自由访问。2000年7月7日,新组装的基因组与图形查看工具UCSC Genome Browser的初始原型正式发布,用户可以通过它浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,如已知基因、预测基因、表达序列标签、mRNA、CpG岛,克隆组装间隙和重叠、染色体带型、小鼠同源性等。

综合性肿瘤数据库

针对肿瘤的生物信息学数据库关注与癌症的发生和发展相关的分子突变图谱、治疗、诊断和预后信息等。

  1. OncoKB(https://www.oncokb.org/)
    OncoKB (Oncology Knowledge Base),是由MSKCC维护的精准医疗肿瘤数据库。数据库基于FDA(US Food and Drug Administration)和NCCN(National Comprehensive Cancer Network ) 的资料、相关文献和疾病专家小组的建议,对特定癌症基因及其体细胞变异的生物学效应、致癌性、治疗、诊断和预后信息做证据分类。2021年10月7日,FDA批准将MSKCC的OncoKB部分数据库列为第一个被纳入公共人类遗传变异数据库的肿瘤突变数据库,这是FDA认可的第二个基因变异数据库,也是首个肿瘤突变数据库(体系突变)

  2. COSMIC(https://cancer.sanger.ac.uk/cosmic)
    Catalogue of Somatic Mutations inCancer (COSMIC)是世界上最大最全面的有关肿瘤的体细胞突变以及其影响的资源库。它主要提供多种肿瘤细胞基因组中的CNV、甲基化、基因融合、SNP及基因表达等信息,这些突变信息是从科学文献中手工整理的。主页面分为项目、数据管理、工具、帮助、搜索框等几大块,简洁清晰。

  3. TCGA(http://cancergenome.nih.gov)
    The Cancer Genome Atlas (TCGA)是由美国国立癌症研究所(NCI)和国家人类基因组研究所资助,关注与癌症的发生和发展相关的分子突变图谱。该数据库主要对多种肿瘤样本进行外显子组和基因组测序分析,所提供的数据包括:基因组拷贝数变化、表观遗传、基因表达谱、miRNA等。该数据库样本量大,基本每种癌种都超过了100例样本,质量高且免费开放。

其他常用数据库

  1. HGVS(http://www.hgvs.org/)
    规范的命名是基因变异解读中不可或缺的一部分。ACMG变异分类标准建议对变异进行统一的标准化命名以确保定义明确并实现基因组信息的有效共享和下游使用。1998年由人类基因组变异协会(HGVS)、人类变异项目组(HVP)和人类基因组组织(HUGO)联合成立序列变异描述工作组(SVD-WG),主要负责发现和分类包括人群分布与表型相关联的人类基因组变异,并根据方法学与信息学的发展来对数据及相关的临床变异进行更新。

  2. DECIPHER(https://www.deciphergenomics.org/)
    DECIPHER是一项国际化的合作项目,是一个由200多个临床中心和1600多个遗传学家和实验室构成的联盟,从各种生物信息资源中进行数据整合,提供了一套全面的工具来识别与患者表型相关的基因组结构变异,挖掘潜在的致病基因,所有成果保存在一个在线数据库中,方便科学家查看和利用。

  3. Leiden Open Variation Database(http://www.lovd.nl)
    Leiden Open Variation Database(LOVD)是莱顿大学医学中心开发的开源式平台,其目的是提供一个灵活和免费的工具,收集和显示以基因为中心的DNA变异。基本信息包括基因的全名和简写、基因在染色体上的位置、数据库管理单位、管理员、数据库收集的参考文献、基因的创建日期和更新日期、基因的参考序列、变异数据条目总计以及其它基因相关信息。

你可能感兴趣的:(大数据,数据库,数据分析)