第一个癌症蛋白质编码RNA与药物相关性数据库

要想文章发的好,数据挖掘少不了。今天就给大家介绍一个新鲜出炉的关于肿瘤药物的数据库——DREAM(http://bio-big-data.cn:8080/DREAM)。这个数据库是由哈尔滨医科大学和首都医科大学联合研发的,文章于今年11月发表在《Molecular Cancer》(IF: 27.401)上。

随着高通量芯片技术等实验技术的快速发展和成本的不断降低,芯片数据的数量明显增加。但是海量的癌症相关数据也让研究人员对数据进行挖掘、集成和分析变得越来越复杂。DREAM是一个从大量文献和高通量数据中提取的综合性的蛋白质编码RNA和药物相关性的数据库,可以比较直观地直接浏览和分析药物和蛋白质编码RNA的相关性。

数据来源和组成

在目前版本的DREAM数据库中,所有的蛋白质编码RNA分为两类:一类是药物干预相关的蛋白质编码RNA,代表作为药物靶点的蛋白质编码RNA;另一类是药物敏感性相关的蛋白质编码RNA,代表与耐药有关的蛋白质编码RNA。DREAM中的每个条目都包含蛋白质编码RNA、药物、癌症的详细信息以及其他信息,如标题、PubMed ID、期刊、发表时间等。共收录1560种蛋白质编码RNA、138种药物和35种人类疾病。

图1中详细介绍了该数据库构建的整体流程和具体功能分区情况。除了文献中的数据整合,研究人员还整合了其他数据库的信息,包括有DrugBank(https://go.drugbank.com)、PubChem(https://pubchem.ncbi.nlm.nih.gov/)和来自Ensembl(https://m.ensembl.org/index.html)的蛋白质编码RNA信息以及来自Disease Ontology(https://disease-ontology.org/)的癌症信息。

图1


功能分析

DREAM提供了一个用户友好的web界面,可以轻松浏览、搜索、分析和下载数据。

1. 在“Browse”页面中,用户可以通过三种方式检索DREAM中的蛋白编码RNA和癌症药物相关性数据:包括有复合物名称、基因名或疾病名。然后,网站将返回一个匹配条目的列表。

以胶质瘤为例,将返回以下结果。

2. 在“Search”页面,可以通过蛋白质编码RNA名称、药物名称或药库ID和疾病来检索数据库。DREAM提供有模糊关键字搜索功能,将返回尽可能接近的匹配记录。

同样我们再次以胶质瘤为例。

3. 在“High-throughput”页面,我们可以搜索各种癌症的高通量微阵列数据,以获得药物干预或药物敏感性相关数据。这里提供了三种搜索方式,分别是复合物名称、基因名和疾病名。在这里,我们可以根据自己的实际需要设置p值和fold changes,以便快速识别与药物靶点或耐药相关的候选基因。在Drug Intervention中,病例组为药物干预的疾病细胞。对照组是用安慰剂干预的疾病细胞,如PBS, DMSO。在Drug Sensitivity中,病例组为耐药病细胞,对照组为正常病细胞。在这里该数据库实现了交互式可视化工具,如火山图,还提供了基因富集分析,如GO注释和KEGG路径分析。

4. 在"Drug Discovery"模块中,DREAM提供了一种特殊的计算方法,根据药物的基因表达特征与该疾病的表达特征的相关性来预测癌症的药物再利用。具体的计算流程R的源代码研究人员也提供在了该网站中的Help界面中,会写代码的小伙伴也可以根据自己的需求进行相应的调整。

在这个功能模块中,用户需要上传疾病的表达特征,包括基因名和fold changes (相对于健康对照组)。然后该数据库将根据包含药物基因表达特征的数据库匹配并计算相关系数。最后,数据库将返回结果,包括相关系数、药物、癌症和p值。相关系数在0以下被认为是显著的结果,这意味着所选药物可以逆转癌症基因的表达。例如,通过这个功能,研究人员发现Saracatinib这种经常用于结直肠癌的药物,也可能对胶质瘤患者有益。

5. 在“Download”页面,该数据库提供了两种可下载文件的格式,分别是txt格式和excel格式。除了以上内容,网站还提供了一些查询示例,帮助用户更好地了解如何使用DREAM。

综上所述,与其他数据库相比,DREAM具有三个显著的特点:(1)它是第一个提供了人类癌症中蛋白质编码RNA与药物之间关联性的数据库。(2)它将文献数据和高通量数据合并到了一个数据库中。(3)该数据库提供一种特殊的计算方法,根据药物的基因表达特征与疾病的表达特征的相关性来预测用于癌症的药物的再利用。

更多最新文献解读  分析思路汇总 尽在生信人公众号

你可能感兴趣的:(第一个癌症蛋白质编码RNA与药物相关性数据库)