DisGeNET数据库介绍

数据库概况:

人类疾病遗传的基础是精确医学和药物发现的核心。数据的可用性、碎片化、异构性和概念描述的不一致性是疾病机制研究必须克服的问题。DisGeNET (http://www.disgenet.org)正是为了帮助科研工作者克服这些障碍而开发的数据库,它收集了大量与人类疾病(Mendelian, complex and environmental

diseases)相关的变异和基因。DisGeNET整合了公共数据库、GWAS目录、动物模型和科学文献的数据。该数据库的收据采用了统一的标准进行注释。此外,还提供了一些原始指标,以帮助确定基因型与表型关系的优先级。可以通过web接口、Cytoscape应用程序、RDF SPARQL终端、几种编程语言的脚本和R包访问这些信息。DisGeNET是一个多功能平台,可用于不同的研究目的包括特定的人类疾病的分子基础及其并发症的研究,致病基因特性分析,辅助构建药物治疗作用及药物不良反应假说,疾病候选基因的验证及文本挖掘方法的评价性能。目前最新版本的DisGeNET 为v6.0,它收录了17,549 个基因和 24,166 个diseases, disorders, traits, 及clinical or abnormal human phenotypes 间的628,685 个gene-disease associations (GDAs)。同时还收录了117,337 个变异和 10,358 个疾病、性状、表型间的210,498 variant-disease associations (VDAs)。可以通过疾病、基因或变异进行搜索。此外,该平台还提出了一个可以通过Cytoscape软件运行的插件。

DisGeNET gene-disease association type ontology:

数据库地址:

http://www.disgenet.org/home/

数据来源:

DisGeNET(v6.0)数据库主要来源于已知数据库和文献的文本挖掘。该收录的数据库情况如下表所示:

了解数据库更多信息:http://disgenet.org/dbinfo

数据库使用:

DisGeNET数据库有多重接口可供选择:

1.Web Interface

网页版的数据库主要包括检索、浏览及数据下载等几个主要功能。数据检索包括以基因、变异及者疾病为检索词进行检索:

浏览功能是以数据库为单位进行的,主要包括疾病信息、对应基因/变异信息、疾病与基因/变异关系信息、证据信息。以HPO数据库为例:

2.R Package

在R上安装disgenet2r包后后既可以进行DisGeNET数据库搜索,也可以进行可视化。但值得注意的是该R包目前的基于 DisGeNET v5.0 (May, 2017)。安装和使用示例如下:

安装:

##The package,disgenet2rcan be installed usingdevtoolsfrom this repository:

library(devtools)

install_bitbucket("ibi_group/disgenet2r")

数据库检索示例:

##以基因为检索词进行检索

library(disgenet2r)

gq<-disgenetGene(gene=3953,

    database="ALL",

    score=c(">",0.1))

##以疾病为检索词进行检索

library(disgenet2r)

dq<-disgenetDisease(disease="umls:C0028754",

    database="ALL",

    score=c('>',0.3))

3.Cytoscape App

安装:

需要预装Cytoscape,然后直接在Cytoscape安装DisGeNET插件。


使用:

打开Cytoscape,按如下顺序操作:

Cytoscape App主要功能就是将DisGeNET的数据用networks的形式进行展示,主要包括以下几个方面:

a)     Generate gene-disease networks:即基因和疾病间networks,例如HPO数据库中Asthma基因和疾病间networks示例如下:

b)     Generate variant-disease networks:即变异和疾病间networks,示例如下

c)      Generate gene or disease projection networks:即基因-基因间或者疾病-疾病间的networks,示例如下

d)     Create networks by DisGeNET association type:即检索某一关联关系,并将其可视化,如下面的The CURATED GDA network for CausalMutations

e)      Create networks by disease class:对某一类疾病建立network,如下是营养代谢病network

f)     Create networks by gene, disease, or variant:可以不限制具体哪两个(基因、变异、疾病)间的关系,而是通过过滤条件得到network,例如可以从以下几方面进行过滤:Source, Association Type,Disease Class, Score。下面是以MECP为检索词,过滤条件为Mental Disorders时构建的网络

g)     Multiple entity search in the DisGeNET App:包括匹配某一关键字的疾病或者基因的元素间构建网络、基于基因/变异列表构建网络。如下图是CTD数据库中Alzheimer相关的基因,包含了Alzheimer的所有亚型。

4.custom scripts

除了上述方法外还可以利用自己编写的脚本(R、python、perl、)来进一步使用数据库。例如可以利用以下脚本进行自动化:

a)    基于R进行自动化:见“disGeNETAutomation.R”

b)   基于python进行自动化:见“disgenet-automation.py”

数据库优势:

The highlights of DisGeNETare the data integration, standardisation and a fine-grained tracking of theprovenance information

参考文献:

DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze

gene-disease networks.2010 Bioinformatics. PMID: 20861032

DisGeNET: a discovery platform for the dynamical exploration of human

diseases and their genes.2015 Database. PMCID: 4397996. PMID: 25877637DOI: 10.1093/database/bav028

DisGeNET-RDF: harnessing the innovative power of the Semantic Web to

explore the genetic basis of diseases.2016 Bioinformatics. PMCID:4937199. PMID: 27153650.DOI: 10.1093/bioinformatics/btw214

DisGeNET: a comprehensive platform integrating information on human

disease-associated genes and variants.2017 Nucleic Acids Res. PMCID:5210640. PMID: 27924018. DOI: 10.1093/nar/gkw943

你可能感兴趣的:(DisGeNET数据库介绍)