以后要研究的是人工智能与生物信息的结合,最近在看一篇论文的时候,用到了生物数据库Drug Bank,目前对Drug Bank了解还比较少,看了一下官网,做一下简单介绍。DrugBank数据库是一个综合的数据库,里面对于药物的介绍很详细,但对于交叉,以后应该主要用到的是数据集的下载。下文中如有表述不当的,欢迎指出。
主页的搜索包括四种,分别为“Drugs(药品名)”、“Targets(靶点)”、“Pathways(作用途径)”、“Indications(适应症)”。
我们搜索一个药物吗啡Morphine。打开后界面如图所示,在这里我们可以获得药物的基本信息,下面简单介绍一下前三种所展示的药物的详细内容。
包括如下图所示的内容,我们可以了解
Summary(综述,对药品的简单概括),
Brand Names(品牌),
Generic Name(通用名),DrugBank Accession Number(在这里我理解为编号),
Background(背景介绍),
Type(下图所示的是小分子), Groups(组别,下图所示的是批准可临床实验的)
Structure(结构),
Chemical Formula(化学分子式)
这一部分包括有药效学、作用机理、吸收性、分布量、蛋白质结合、代谢、消除途径、半衰期、清除率、毒性、通路、药物基因组效应等。
和其他药物的相互作用,以及产生的后果等详细介绍。
分为小分子药物、生物技术药物。
右侧是筛选项,包括是否批准(Approved),保健品(Nutraceutical),违禁药(Illicit),研究药物(Investigational),撤回药物(Withdrawm),实验药物(experimental)。
截止到2022年5月,有2727个经过批准的小分子药物。
截止到2022年5月,有1399个经过批准的生物技术药物。
所有的数据集都是可以下载的,但是下载需要申请,填写一个基本的下载申请问卷。
不同内容下载格式不同:完整版是xml,结构体是SDF,外部链接是CSV,蛋白质标识符是CSV,目标序列是FASTA。
完整数据集下载的是xml格式。
结构体数据集下载的是SDF格式,页面往下化也有外部链接,是对应的CSV格式。
下面还含有:
Target Drug-UniProt Links(靶标Drug-UniProt链接)
Enzyme Drug-UniProt Links(酶Drug-UniProt链接)
Carrier Drug-UniProt Links(载体Drug-UniProt链接)
Transporter Drug-UniProt Links(运输机Drug-UniProt链接)
下载的数据集是CSV格式
蛋白质标识符包括外部资源的id,如UniProt和PDB。这些下载首先按蛋白质/化合物类型(目标,转运体等)进行划分。其次,它们按药物类别划分(合法、非法等)。每个档案包含2个文件:一个针对所有靶标/酶/转运体/载体,另一个仅针对标记为药理活性(与至少一种相关药物的作用机制直接相关)的文件。导出CSV文件中的每一行还包括一个连接的DrugBank药品id列表(以分号分隔)作为最后一列。
所包括的是:
Drug Target Identifiers(药物靶标标识符)
Drug Enzyme Identifiers(药物酶标识符)
Drug Carrier Identifiers(药物载体标识符)
Drug Transporter Identifiers(药物转运体标识符)
下载的数据集是FASTA格式
所包括的是:
Drug Target Sequences(药物靶标序列)
Drug Enzyme Sequences(药物酶序列)
Drug Carrier Sequences(药物载体序列)
Drug Transporter Sequences(药物转运体序列)
我对于数据预处理部分还是有很多不懂的地方,因此参考了很多链接。
1、XML的文件解析,输出的是CSV格式的数据,文章内有代码。
https://zhuanlan.zhihu.com/p/347900976
2、XML的文件解析,采用的是先转换为json格式,处理json文件,提取信息存成CSV格式。
https://zhuanlan.zhihu.com/p/456252080