数据库学习

COG

全称:Clusters of Orthologous Groups from 66 complete genomes
官方网站:
构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。

通过观看其主页和说明文档,可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。

铁汉COG

NCBI

RefSeq Gene注释,对gene的不同转录本进行注释,1个转录本对应1个编号成为RefSeq id,例如对于可以翻译成蛋白的转录本,都会以NM_开头如NM_015658;对于不能翻译的转录本,都会以NR_开头如NR_027055;

Swiss-Prot数据库

来源于UniProt
UniProt 主要包括两个数据库Swiss-Prot和TrEMBL,其中关于Swiss-prot的说明:人工注释和检查过的,更可信,而TrEMBL是自动注释且未经检查的

使用的是Swiss-Prot数据库,示例:
注释结果如sp|Q27081|CFB_TACTR:

  • sp表示该数据来源于Swiss Prot数据库
  • Q27081表示UniprotKB 编号
  • CFB为protein的缩写(Clotting factor B)
  • TACTR为物种缩写(Tachypleus tridentatus)

示例网站截图:

图片.png

String蛋白互作网络(protein protein interaction, PPI)分析

入门参考

肿瘤研究相关数据库

最经典的Cosmic数据库[COSMIC(https://cancer.sanger.ac.uk/cosmic/)]

全称:Catalogue of somatic mutation in cancer

  1. 解读用COSMIC
  2. drive gene:
  3. sigatures
    用于突变特征分析,针对点突变
    考虑到突变位点上下游1 bp 位置的碱基种类,可将点突变分为96种类型。根据96种突变类型的频率,通过非负矩阵分解的方法将点突变分解为多个不同的突变特征(A,B,C),将所得的signature ABC与COSMIC种的signature做聚类分析。

CGATools

常用软件:
ABSOLUTE -- 用于CNV分析
MutSig -- 找出变异中的significant mutation gene

Oncomine

如果你获得了一个肿瘤差异表达基因,想研究其是否可作为某种肿瘤的潜在标志物和靶点,又怕做实验会得到阴性结果,浪费时间和金钱,这时候你就应该想到Oncomine数据库了。

参考网站:

  • Oncomine: 一个肿瘤相关基因研究的数据库
  • 肿瘤经典数据库Oncomine实训操作

信号通路相关数据库

信号通路相关数据库

外显子频率相关

如何挖掘外显子变异频率信息

你可能感兴趣的:(数据库学习)