肿瘤研究相关数据库:
最经典的Cosmic数据库COSMIC
全称:Catalogue of somatic mutation in cancer
- 解读用COSMIC
- drive gene:
- sigatures
用于突变特征分析,针对点突变
考虑到突变位点上下游1 bp 位置的碱基种类,可将点突变分为96种类型。根据96种突变类型的频率,通过非负矩阵分解的方法将点突变分解为多个不同的突变特征(A,B,C),将所得的signature ABC与COSMIC种的signature做聚类分析。
Clinvar数据库(clinical relevant Sequence Variants)
NCBI的,整合了多个疾病相关数据库,包括OMIM, MedGen等。数据库以评星级的方式对变异进行评估,四星级是最高的星级,说明该突变的功能已经过多位专家的审核。然而大多数变异都是1星的,如下图所示,这是一个变异位点的clinvar说明:
0颗星no assertion criteria provided,或no assertion provided 没有机构对这个词条进行过解读;
1颗星criteria provided, single submitter 表示有一个数据递交者提供了解读,或 criteria provided, conflicting interpretations 表示不同机构对其进行解读,但解读结果有冲突;
2颗星criteria provided, multiple submitters, no conflicts 表示不同机构进行解读,且解读结果一致;
3颗星reviewed by expert panel 表示该位点经过了专家的审核;
4颗星practice guideline 表示该位点来自于指南,非常可信
clinvar主要整合了四个方面的信息,图片信息来源:
参考资料:
【数据库-4】clinvar
生信技能书:clinvar数据库再解读
omim数据库
omim全称为“Online Mendelian Inheritance in Man”,它通过对新的病症分类并命名、收录表型和相关病因基因的关系来收录人类孟德尔疾病信息。
omim主要关注在疾病与基因层面上,而clinvar核心是和临床相关的基因突变。
Orphanet数据库
Orphanet数据库主要聚焦在罕见病rare disease的研究上,提供了罕见病的诊断、分类、致病基因、临床治疗方案、收录的患者信息和机构信息等。还有一个Rare Disease Ontology(ORDO),提供了罕见病的分类,研究人员可以通过Ontology上的信息对疾病进行快速归类,推测疾病关联性,从而获得新的研究思路。
参考资料:Orphanet:人类最全的罕见病知识库
CIViC数据库
CIViC即Clinical Interpretations of Variants in Cancer
之前解读组小兄弟给的网站,主要是解读用,里面有癌症相关的变异位点variant,基因gene还有临床信息(ClinicalEvidence)、用药信息等。主要讲ClinicalEvidence部分,截图如下,eg:
其中有记录HGVS标注的变异信息(variants info),还有该变异在clinvar、cosmic、dbSNP链接及数据库中记录的情况,CA是在ClinGen中的编号。
上图是Evidence info,有标出evidence ID,疾病名称,相关用药,证据描述,证据等级,证据类型,证据指向,变异来源,评分等等。Evidence Type*,主要有predisposing(预测变异与疾病的易感性关系);diagnostic(诊断用变异位点);predictive(预测治疗用药的效果);prognostic(预后)
Predictive
Evidence pertaining to a variant's effect on therapeutic response.
Diagnostic
Evidence pertaining to a variant's impact on patient diagnosis (cancer subtype).
Prognostic
Evidence pertaining to a variant's impact on disease progression, severity, or patient survival.
Predisposing
Evidence pertaining to a variant's role in conferring susceptibility to a disease.
Evidence direction,是证据类型和证据描述之间的连接符。clinical significance,主要分成针对治疗,support sensitivity or resistance;针对预后, better or worse outcome;针对诊断,支持该诊断或排除。英文版如下:
Evidence direction
The connecting element between an evidence type and an evidence statement. The direction of a statement is either supporting or refuting the clinical significance of an evidence type.
Clinical significance
The sub-type of evidence type that the statement presents. For predictive evidence, a statement can support sensitivity or resistance. For prognositc evidence, a statement can support better or worse outcome. And for diagnostic evidence, a statement can support a diagnosis, or exclude it.
Evidence 另外还有对证据进行定等级(Evidence Level),A等级最高最可信,来自于可信赖的协会、组织建议,B等级来自于临床试验和和临床证据。Evidence statement 是对证据的描述性语句。
My Cancer Genome
主要构成是临床试验、疾病、生物标志物、药品、途径,非常全(可惜不能本地化下载),每个条目下面截图如下
DoCM
DoCM数据库全称Database of Curated Mutations,收录了来自于CIViC、My Cancer Genome、Kin-Driver、Pan-cancer recurrent hotspots等数据库的信息来源,并进行了解读,解读标准包括clinical evidence和functional evidence(具体查看下列引用),将变异采用VEP(Ensembl)进行注释,映射到疾病,疾病词条信息使用Disease Ontology。
Criteria for inclusion into DoCM
Clinical evidence
Drug targets associated with a mutation
Diagnostic or prognostic markers associated with a mutation
Functional evidence
Disease function described in cell lines
Disease function described in animal models
Extremely recurrent mutation coupled with expert opinion of the significance of the mutation
OncoKB(Precision Oncology Knowledge Base)
OncoKB:由Memorial Sloan Kettering癌症中心(MSK)开发并维护的精准肿瘤学知识库。该知识库以体细胞突变为核心,收录突变对应靶向药的精准使用、突变在生物学与肿瘤学方面的影响以及突变在人群中的分布频率特征等信息。该知识库收录信息的来源非常多样化,包括FDA、NCCN、ASCO或ESMO会议论文、不同癌种专家共识以及科学文献等。虽然知识库的信息来源多样化,但是每条信息都会经过临床基因组学注释委员会的定期审阅与修订,保证信息的准确性与严谨性。与其他收录体细胞突变的数据库(如COSMIC)相比,OncoKB的主要内容与肿瘤精准用药相关,因此该知识库可以作为癌症诊治的导航仪。
以上信息摘录自http://www.jintiankansha.me/t/TJcpscMriB
这个数据库主要还是解读用的,包含4000多个annotationed mutation,其中还有经过评级的actionable mutation,评级是该数据库的一大特色,规则如下,图片来源于OncoKB:
2019-12-03更新:看cBioPortal的时候发现里面的基因有标注说oncoKB证明该基因是一个原癌基因(OncoGene)或抑癌基因(Tumor Suppress Gene),就又打开看了一下这个网站关于Gene的描述,最新一次更新于2019年8月28,还是挺新的,界面如下,每个基因都有标注在各panel中是否包含,其中也包括了COSMIC的CGC level1,Cancer Gene C的说明
单个基因详细页面如下所示,简单描述了基因功能,相关疾病,该基因上发现的mutation(临床指导相关位点及所有注释的位点)情况。
BioMuta
BioMuta curated single-nucleotide variation and disease association database
网页截图如上,界面简单,直接输入想了解的基因名即可,收录了来自于COSMIC、TCGA、IGCG、CIViC等数据库的snp变异,注明该变异与疾病(DOID的关联),且有统计该基因在不同癌种的变异频率。
同一个机构还有做基因表达量BioXpress和生物标志物OncoMXEg: P01116
Cancer Genome Interpreter
收录了引起癌症的变异(validated oncogenic mutations,收录了来自于DoCM、ClinVar、OncoKB、IARC数据库中的信息,有冲突的数据已经被标记和剔除了,该数据库的最近更新日期为2018-01-17,还是有段时间了)、与癌症靶向治疗相关的变异位点及药物说明(Cancer biomarkers database,该数据库包括了预临床、临床实验、NCCN/FDA guidelines,有专业的curators解读)、癌症相关基因等。以上所有的数据库资源可下载,zip格式,下载快速。所收录的疾病也有相应的classify,如下图:
MedGen
MedGen帮助文档中的说明:
MedGen is NCBI's portal to information about conditions and phenotypes related to Medical Genetics. Terms from the NIH Genetic Testing Registry (GTR), UMLS, HPO, Orphanet, ClinVar and other sources are aggregated into concepts, each of which is assigned a unique identifier and a preferred name and symbol.
示例如下:
该数据库集合了UMLS, HPO, Orphanet,OMIM等数据库信息,从疾病基本说明(Disease characteristics, 从GeneReview中提取所得),临床特征(Clinical Feature,主要从OMIM或者HPO调取信息),术语层次关系(看下图吧),还有最近的研究结果等等~
[SNOMED_CT]
参考资料: # SNOMED_CT简介
HPO: Human Phenotype Ontology
HPO是人类表型ontology数据库,收录了很多表型(整合了SNOMEDCT、 MeSH、OMIM、UMLS),然后将其分类,类似于GO(gene ontology).. 只不过一个是表型一个是基因,download版数据库的格式都是obo。obo下载版截图如下:
最重要的功能就是phenomizer,网页版ontology,示意图如下:
还有一些其他功能小工具,如EXON区域根据表型过滤的软件Exomier、对于全基因组non-coding区域变异分析的Genomiser
GTR
全称Genetic Testing Registry,各实验室和研究机构可以自行提供疾病Condition相关的Tests、Gene信息,但是NIH不对其信息进行验证,GTR也不为其作为背书,仅供研究者们参考,具体的医学相关问题,还是要去咨询医护机构。
Drugbank
药物相关数据库,包括小分子药物及生物制剂,参考资料:
Drugbank数据库:一个置信度最高,让你欲罢不能的数据库