基因-药物 机器学习预测靶点

Using PharmGKB to train text mining approaches for identifying potential

gene targets for pharmacogenomic studies

利用pharmGKB训练文本挖掘方法识别药物基因组研究的潜在基因靶点

文章

简介

文章是2012年发表于Journal of Biomedical Informatics上,影响因子2点多。通讯和一作都来自于明尼苏达大学药学院。

背景

文本挖掘资料1
文本挖掘资料2
1、个体差异在药物使用上有重要作用。药物反应的某些差异是由于药物的吸收、分布、代谢和排泄(ADME)基因的遗传多态性造成的。ADME基因中的遗传多态性可能导致药物水平的个体间差异,从而导致反应和/或毒性。研究基因与药物反应变异性关系的两种主要方法是全基因组关联研究(GWASs)和pathway驱动方法
2、GWAS的缺点是假阳性高,pathway驱动方法的缺点是需要已知候选基因或者pathway。pharmGKB数据库包含大量文献信息,但无法及时更新。因此需要一个方法去挖掘文献数据库信息,获取候选基因或者pathway。这里的文献数据库选取MEDILNE。
3、目前已有的研究:

  • 文本挖掘和生物医学自然语言处理(NLP)的大量工作致力于从药物基因组学文献中提取有用的信息(Garten Y, Coulet A, Altman R. Recent progress in automatically extracting
    information from the pharmacogenomic literature. Pharmacogenomics 2010;11:1467–89)。
  • Pharmspresso:利用文本处理系统识别从生物医学文章全文中提取的基因和药物之间的药物基因组关系。然后用Pharmspresso提取的药物-基因关系编码在一句话的水平上,自动生成药物-基因相互作用的网络图。最后,Pharmspresso的输出被用于网络分析算法PGxPipeline,该算法利用网络连通性来评分基因调节药物反应的倾向性。
    优点:使用基于Pharmspresso的自动化方法创建的网络与手动管理的pharmgbb数据库创建的网络进行比较,发现大致相当。
    缺点:当独立于pgxpipline评估pharmspeso的性能时,发现Pharmspresso鉴定出5312个药物基因组关系,而pharmgbb包含1782个关系,两个来源1157之间有重叠。
    结论:Pharmspresso是一种相对敏感(召回率为65%)但不具有高度特异性(精确度为22%)的用于提取单个药物-基因关系的工具。(Garten Y, Tatonetti N, Altman R. Improving the prediction of pharmacogenes
    using text derived drug gene relationships. In: Pacific Symposium on
    Biocomputing (PSB). Honolulu, HI; 2010)
  • 利用药物之间的结构相似性以及药物间相互作用的结构化信息来训练自动分类器,以预测可能与感兴趣药物相互作用的最可能的新基因。(Hansen NT, Brunak S, Altman RB. Generating genome-scale candidate gene
    lists for pharmacogenomics. Clin Pharmacol Ther 2009;86:183–9)
  • 依靠文本挖掘和自然语言处理技术从MEDLINE中提取药物-基因关系信息,以构建一个本体论关系网络( Coulet A, Shah NH, Garten Y, Musen M, Altman RB. Using text to build semantic
    networks for pharmacogenomics. J Biomed Inform 2009;43:1009–19)
  • 创新点:
    方法与Pharmspresso的主要区别在于,使用了药物-基因关系的人工整理知识,并将其与包含在PharmGKB中的PubMed摘要联系起来,以摘要文本作为训练特征,PharmGKB定义的关系作为类别信息(相关或不相关),训练了一个完全监督的机器学习分类器。
  • 研究目的:研究MEDLINE摘要中提到的药物和基因是否包含词汇和语义指标,说明药物-基因对之间是否存在功能关系,这些指标可用于识别生物上合理的基因靶点。
  • 研究假设:MEDLINE摘要中围绕药物和基因(词汇上下文)的语言可以预测摘要作为一个整体是否在断言药物和基因之间的某种形式的关系,并且可以在多种药物中推广。

如果上下文确实是可概括的,并且可以用标准的机器学习方法进行建模,那么就可以构建一个工具来定期(或按需)检查MEDLINE摘要,将包含药物-基因对的摘要分类为相关的或不相关的,以便找到可能的基因靶点,为pathway驱动方法药物基因组研究提供建议。

方法

方法预览

1、数据
pharmGKB中的822 药物 and 2247 基因标记为相关或不相关,9317个药物基因对。
2、机器学习

  • 特征提取:利用WEKA数据挖掘包中的支持向量机(SMO)探索在监督学习方法中使用词汇特征来标记药物-基因对是否相关
  • 特征选择:依赖于WEKA的信息增益特征选择方法实现
    3、评估
  • 仅使用PharmGKB数据进行一次性评估;
    所有数据分为822个,分别对应一个药物,821个用于训练,1个用来预测,进行822次。评价指标(敏感性,特异性,阴性,阳性)取822次均值。实际好像由于计算量大,只用了110种药物进行了实验。同时对包含20多个样本的前15个药物组的结果进行了平均。
  • 从MEDLINE中前瞻性提取药物-基因关系,并随后进行人工验证(前瞻性人工评估)
    通过应用一个训练了822个药物块的支持向量机模型对所有可用的2010年MEDLINE Baseline2摘要进行分类,发现至少有一个提到了卡马西平、拉莫夫定或齐多夫定以及药物中包含的2247个基因名中的任何一个。
  • 与现有pharmGKB比较
    选择三种药物,把预测结果和现有pharmGKB进行比较(为啥选这个三种药物,因为作者熟呗)


    与pharmGKB比较

结果

  • 基于pharmGKB的评估
    使用标准的敏感性和特异性以及阳性和阴性预测(PPV/NPV)来评估算法的性能。


    表2

表2总结了PharmGKB数据库中至少有20个实例的前15种药物,以及另外两组的平均值,包括110个用于比较单峰图和双峰图特征提取方法的药物块和全部822种药物的全套样本。
完整结果
表2中110个药物组的随机样本的结果表明,使用单字图训练的分类器比用双图训练的分类器更具特异性(0.69 vs 0.46),后者更敏感(0.96比0.85)。因此,在我们评估的下一步,包括人类对被自动分类器归类为“相关”的潜在基因靶点进行审查,我们考虑到了“相关”类别的流行率,并选择了更具体的单纯形分类器,其PPV为0.91比0.89稍高。

  • 前瞻性人工评估


    表3

    在一组更大的仅与PPV相关的药物-基因对上对自动分类器方法进行了评估,结果如表3所示。对于卡马西平,自动分类器标记为“相关”的基因集与手动管理的PharmGKB数据库中标记为“相关”的基因集之间的重叠包含9个基因名。如表3所示,自动分类器“建议”该药物的54个基因靶点,其中18个被至少一位专家认为相关。
    因此,该分类器有效地“发现”了9个新的相关基因靶点(相对于PharmGKB中包含的信息增加了100%),而错过了PharmGKB中的3个基因靶点。
    对于齐多夫定,PharmGKB仅包含一个“相关”基因靶点,并且该基因也被自动分类器识别为“相关”。然而,分类器建议总共21个目标,其中11个被专家认为是相关的,从而产生了10个新的自动“发现”目标(相对增加1000%)。使用拉米夫定得到的结果稍有不同——PharmGKB包含一个相关基因,由于讨论部分讨论的原因,自动分类器遗漏了该基因。
    然而,自动分类器总共产生了16个新目标,其中6个被专家认为是相关的,因此这6个目标都是PharmGKB中不存在的新的可行目标(相对增加600%)

  • 用作者的方法对发现的基因进行定性评估


    实例结果

    对本研究中研究的两种抗逆转录病毒药物——齐多夫定和拉米夫定进行了定性分析。算法鉴定出9个与齐多夫定有关的基因(ABCG2、ATP7A、CCR5、HFE、TG、SLC28A1和UGT1A7、UGT1A9、UGT2B7)。
    文献注释的手工评价为这些基因在齐多夫定的药代动力学和药效学途径中提供了有力的证据。如图所示为独立于当前研究的齐多夫定的路径驱动分析示例。路径沿线的靶点已被实验证实,最近已提交给PharmGKB。图中的粗箭头表示自动分类方法建议的一些潜在目标。两种方法鉴定的重叠基因包括UGT2B7、SLC28A1和ABCG2。此外,我们的分析还发现了一些新的基因,如HFE、血色素沉着症基因,这些基因与抗逆转录病毒治疗诱导的神经病变有关。人工分析以确定齐多夫定的PK/PD通路候选基因可能会遗漏该基因与药物诱导的不良反应的关联。

讨论

可以预测靶点,可以作为验证,可以为网络分析(如PGxPipeline)提供输入。

缺陷

完全依赖于PharmGKB和MEDLINE作为训练和测试数据的来源。
文献只考虑摘要
缩略词选取

总结

结果表明,使用PharmGKB作为机器学习的训练数据源,以识别药物基因组学中路径驱动方法的可能基因目标是可行的。这种方法可以反复使用,以跟上不断增长的科学文献量,并减轻手动搜索潜在基因靶点的负担。更重要的是,使用该方法,从事路径驱动分析的药物基因组学研究人员也可以识别出使用其他标准搜索方法无法识别的基因靶点。

个人观点

文章较为久远,方法是文本挖掘+svm,只利用利用基因和药物关系,没有考虑其他信息,文献只搜集了一个数据库,且只考虑摘要,验证只选了三种药物,更多时候靠人工判断结果,可信度降低。但是告诉我们:

使用PharmGKB作为机器学习的训练数据源,以识别药物基因组学中路径驱动方法的可能基因目标是可行的。

你可能感兴趣的:(基因-药物 机器学习预测靶点)