DrugBank模型数据集比较

https://www.pnas.org/doi/full/10.1073/pnas.1803294115

论文 node edges types
DeepDDI 2159(1710) 192284 86
MUFFIN 2323(1569) 172426 81
Me 1872 362208
MDF-SA-DDI 572/1258 74528/323539 65/100
DDIMDL 572/572 37264/74528  65
SumGNN 1709 192224 86

DeepDDI:2159个approved,包含smiles,但是我把DeepDDI里面那个192284个边关系的拿出来写代码数一下实际用到只有1710个,可能是本来99种关系,消除到86种的话,去掉了几百种?Bitbucket

MUFFIN:192284是86种关系每一种都超过了5个实例,MUFFIN种筛选出每一种都超过10个实例的。同样的,统计multi_ddi_sift.txt这个实体个数是1569,但是drugname_smiles.npy是2323个。变成了172426个关系。

Me:我从drugbank上下载了drugbank.xml v5.0.3版本,然后从里面抽出来aproved 且包含smiles的,个数是1872个作为实体集。然后抽取两个实体都在这个实体集中的DDI,结果居然是362208。我不理解

DDIMDL:论文中提到,从DrugBank中收集包含1.substructure,targets, pathway,enzymes的药物,使用KEGG数据库获得pathway,target和enzymes都是从drugbank直接获取,最后获得了57个药物,74528个药物对。但是在代码中是572实体,37264个药物对。。。我不理解。。。

MDF-SA-DDI:文中提到利用DDIMDL中的药物对572/74528个药物对作为小的数据集,第二个数据集是抽取了三个特征,子结构,靶点,酶(少了一个pathways)。


 
 

你可能感兴趣的:(药物互作,深度学习,人工智能)