欢迎关注公众号:oddxix
COSMIC遗传资源数据库
COSMIC是一个在人类癌症中发现的体细胞获得性突变的在线数据库。体细胞突变是在非生殖细胞中发生的,不是由儿童遗传的。 COSMIC是癌症中体细胞突变目录(Catalogue Of Somatic Mutations In Cancer)的首字母缩写,它从科学文献中的论文和桑格研究所癌症基因组计划的大规模实验筛选中提取数据。该数据库可供学术研究人员免费使用,并可向其他人商业许可。
COSMIC数据库旨在收集和显示有关癌症体细胞突变的信息。它于2004年推出,仅有四种基因HRAS,KRAS2,NRAS和BRAF的数据。已知这四种基因在癌症中是体细胞突变的。自创建以来,数据库迅速扩展。到2005年,COSMIC包含从115,327个肿瘤中筛选出的529个基因,描述了20,981个突变。到2009年8月,它包含了150万次实验的信息,包括近370,000个肿瘤中的13,423个基因,并描述了超过90,000个突变。2010年7月发布的COSMIC第48版,与国际癌症研究机构合作,整合了p53的突变数据。此外,它还为最新的人类参考基因组构建提供了更新的基因坐标。以后每 3 个月更新一次。
该网站专注于以图形方式呈现复杂的表型特异性突变数据。数据取自选定的基因,最初在癌症基因普查中,以及PubMed的文献检索。
可以通过选择基因或癌症组织类型(表型)来访问数据,使用按功能浏览或搜索框。结果显示具有突变计数和频率的摘要信息。基因摘要页面提供了突变谱图和外部资源;表型(组织)摘要页面提供了突变基因的列表。
COSMIC数据库包含数千种与癌症发展有关的体细胞突变。该数据库从两个主要来源收集信息:
(1)从文献中收集已知癌症基因的突变。经历人工治疗的基因列表通过它们在癌症基因普查中的存在来确定。
(2)纳入数据库的数据来自癌症基因组计划进行的癌症样本的全基因组重测序研究。
image
CDKN2A_COSMIC_histogram.png
网址如下:https://cancer.sanger.ac.uk/cosmic/
网站首页
最新版本为v87,更新与2018年11月13日。
核心板块
网址:https://cancer.sanger.ac.uk/cosmic
整个网站的核心,癌症相关的体细胞突变数据。
网址:https://cancer.sanger.ac.uk/cell_lines
Cell Lines Project 是对最常使用的 1000 多种肿瘤细胞系的深入分析的数据,而标准的 COSMIC 版本中,包含的数据更多,但是分析没有 Cell Lines Project 深入,可以理解为网站的两种模式。
网址:https://cancer.sanger.ac.uk/cosmic3d/
通过交互式的网页,展现了基因突变导致的蛋白结构域的变化。在搜索框中输入一个具体的基因名称或者蛋白名称,可以查看具体的记录。
EGFR示例
▲ 这个功能超级好玩!可以看蛋白质的三维结构,可以放大,缩小,旋转,截图……
EGFR示例
▲ 继续往下拉,可以看到各种错义突变的位置,炫酷的是,右上角的蛋白结构还在转个不停
还可以预测小分子结合位点,也可直接转至PDB详细查看
Cancer Gene Census首页
网址: https://cancer.sanger.ac.uk/census
在癌症研究中,找到相关的突变基因是最核心的目的之一。通过对各种癌症进行调研,整理了一份癌症相关的突变基因列表,这份列表就是Cancer Gene Census,简称CGC
。这里又分为三个子菜单 Census、Breakdown(统计分析)、Abbreviations,其中 Census 菜单,显示目前所有的癌基因,而且这个数据表可以搜索,导出(需要先注册)。
在CGC种,将所有的癌症相关基因分成两类
(1)Tier1
基因必须具有与癌症相关的记录活动,以及癌症突变的证据,其以促进致癌转化的方式改变基因产物的活性。
(2) Tier2
包含具有癌症作用的强烈迹象但具有较少广泛可用证据的基因。只能说在癌症中检测到了大量该基因的突变,但是并没有充分证据表明该基因突变对癌症发生的影响。
image
CGC的完整列表
导出的格式有CSV和TSV
2.4.1 Census
以 DNMT3A 为例,点击基因名,可以进入详细的页面:
▲最右边的灰色条可上下拉动,以控制页面中峰的显示幅度。鼠标落在一个突位点上,显示该突变点的位置以及突变数。
▲根据结构信息,分析该突变位点是否落在具有功能的结构域。
其他的功能,比如Tissue、Distribution、Drug Resistance、Variant 等也非常重要,这里不逐一介绍。
2.4.2 Breakdown(统计分析)
▲这里是对所有癌细胞中的突变进行了整理
2.4.3 Abbreviations:对表格中的缩写进行解释。
▲鉴定肿瘤的分子特征,预测抗肿瘤药物的响应
这里主要包括 Compound、Cancer Feature、Cell Line 三种数据。
▲一共有265个小分子化合物,可以靶向不同的癌基因和信号通路
导致体细胞突变的原因很多,比如 DNA 复制的失真、暴露到内源性或外源性的诱变源、 DNA 酶修饰、DNA修 复的缺陷。不同的突变过程会产生不同的突变组合,这里定义为“突变特征”。在癌症中,突变位点是非常多。研究人员提出了Mutational Signatures这个概念,突变的特征集合,共划分了96种突变类型,首先根据碱基突变的类型,有C>A, C>G, C>T, T>A, T>C, T>G共6种基本类型,然后在考虑突变位点上有和下游的1个碱基,每个碱基有A,T,C,G 4种可能的情况,一共就有6X4X4 = 96 种突变类型。
不同癌症中这96种突变类型出现的频率有所不同,将96种突变类型的频率结合起来,可以作为一种固定的突变模式,用来表征某一类癌症。
image
▲Cosmic基于10952给外显子和1048个全基因组数据,总结出了 30 种“突变特征”
Tools 中主要包括 Cancer Browser、Genome Browser、CONAN、Beacon
通过不同的组织来查看相关类型的癌症,更加的直观方便。
image
一个API工具,可以快速查询COSMIC
数据库中某个突变是否存在。返回JSON
格式的数据,
image
网址:https://cancer.sanger.ac.uk/cell_lines/download
可下载内容:
Complete mutation data
Copy Number Data
PICNIC Average Ploidies
Gene Expression
Non coding variants
Raw Gene Expression
VCF files (coding and non-coding mutations)
QC
Sequence Coverage Statistics
Genotypes
Fasta File (genes)
Oracle Database Dump
下载时需要登陆的,而且部分数据只对大学和非盈利机构的用户公开。
https://en.wikipedia.org/wiki/COSMIC_cancer_database
https://www.sohu.com/a/138745838_688647
https://cancer.sanger.ac.uk/cosmic
https://en.wikipedia.org/wiki/Mutational_signatures
转载请注明出处,谢谢
欢迎关注公众号:oddxix