RNA和机器学习:多维生物标志物的合理设计

作者 | 王建民

过去的十年中,现代肿瘤疗法获得了重大的创新。现在是时候使用由合理设计和最新计算方法驱动的生物标记物。

RNA和机器学习:多维生物标志物的合理设计_第1张图片

医学的早期,新疗法经常被“意外”发现。关于结构或功能的技术知识很少,无法指导开发治疗方法的过程。反复试验决定了进度,导致成功缓慢且难以预测。随着人们对小分子,蛋白质及其结构关系了解的增加,研究人员进入了合理药物设计的时代。合理的药物设计在肿瘤学领域产生了重大影响,在肿瘤学领域,研究者对配体结合和生化途径有了深入的了解。现代药物策略利用合理的药物设计框架,由计算实验驱动,以进一步加快潜在治疗方法的识别速度。

预测性生物标志物

生物标志物设计的演变与药物设计的变化没有太大不同。即使采用最有效的疗法,也不是所有的患者都能做出反应。此外,当将患者与某些疗法匹配的过程出错时,不良事件可能代价高昂,甚至致命。一段时间以来,该行业一直在努力寻找生物标志物,这些标志物可为使患者适应正确的治疗方法提供预测见解。从历史上看,这意味着确定应接受或不接受治疗的特定患者人群。

RNA和机器学习:多维生物标志物的合理设计_第2张图片

早期,使用宏观病理特征来为患者做出治疗决策。记录了肿瘤的等级,大小和位置,并根据许多患者的临床结果统计得出了谁应该接受治疗,谁不应该接受治疗的概括。组织学一旦可用,将提供更多的见解,使研究人员对某些患者为何反应而其他患者没有反应的分子水平的理解又向前迈进了一步。但是,随着人类基因组计划的完成和基因组医学的出现,医学界发生了翻天覆地的变化。

基因组医学时代

人类基因组计划的成果并非是经常引用的静态参考序列。相反,在里程碑式的努力过程中以及完成后不久所取得的进步导致了基因组医学的诞生。基因组医学代表着研究人员所谓的精准医学的重大突破和重要推动力,精准医学通常被定义为合适的患者在正确的时间接受正确的治疗。自人类基因组计划完成以来,被称为高通量测序或下一代测序(NGS)的技术已从癌症患者的肿瘤组织中产生了数万亿个基因组序列。

RNA和机器学习:多维生物标志物的合理设计_第3张图片

不幸的是,将这些数据用于合理的生物标志物设计的早期尝试并不像希望的那样有效。该领域严重依赖于DNA数据。将DNA的观察结果与表观遗传学的下游生物学含义联系起来,以及转录和翻译修饰,已经引起了挑战。已经挖掘出巨大的数据集以识别DNA中的药物靶标和生物标志物,但是单个静态突变的效用却不足。研究人员了解生物学上的含义涉及许多突变,但是这些突变的存在并不像研究人员希望在某些药物的情况下预测反应那样准确。

用于生成和分析高通量RNA数据的分子和计算工具的进步,为生物标记物的发现创造了一种新的有希望的途径。由于RNA距蛋白质水平的下游生物学仅一步之遥,但是可以通过为高通量DNA测序开发的相同技术进行测量,因此它可以提供患者分子概况的丰富而动态的视图。高通量RNA测序已用于确认突变或融合转录本的表达,具有重要的临床价值。但是,这些单分析物生物标志物,例如RNA级别的基因融合或突变,在许多方面都限制了分析,类似于DNA。他们试图基于生物学的一个方面来预测患者的反应,而生物学的这一方面被大大简化了。

多维生物标志物

从合理药物设计书中抽出一页,进行合理的生物标志物设计的下一步是增加尺寸。正如双特异性和联合疗法已发展为针对多种疾病的靶标一样,生物标志物也应寻求捕获和利用尽可能多的有关分子谱的信息。研究人员还开始构建RNA的“签名”,其中包括排名基因列表,以更好地对患者进行分类。如今,通过利用机器学习工具,研究人员可以过滤出大量噪声,仅识别出最有用的数据信号即可构建所谓的RNA模型。

RNA和机器学习:多维生物标志物的合理设计_第4张图片

使用通过机器学习建立的多维RNA模型来预测生物标志物优于单一分析物生物标志物。除了上述的分子优势之外,使用机器学习构建这些模型还提供了一种合理的,数据驱动的方法,并且输出是信号的最佳组合。

这种方法要求研究人员将患者资料放在中心,捕获代表疾病,免疫反应,治疗反应等的无数信号。在探索性研究中,所得的生物标志物在预测准确性方面已显著提高,即使在使用预测模型建立的生物标志物新时代的早期。

下一步是什么?

关于疾病建模的叙述中,可能会假设是在谈论疾病还是癌细胞本身。然而,越来越明显的是,诸如对疾病的免疫应答之类的因素可以高度预测患者的存活,对传统疗法的应答以及对目前可用的某些最先进疗法的应答。免疫系统的多维预测生物标志物模型是使用一种称为“预测免疫建模”的方法构建的。与许多模型一样,这些模型可用来捕获生物复杂性并使用数据来预测患者的反应。将来,许多综合性生物标志物将需要组织高度标准化的多维生物标志物数据库,其中包括元数据,临床数据,结果数据等。

如今,构建用于对一个患者群体进行分层的生物标志物将如何告知具有相似分子特征的另一患者群体或选择具有相似作用机制的疗法?毫无疑问,要实现精准医学的目标,我们将需要继续投资,使用当今最有用的分子和计算工具,包括RNA测序和机器学习工具,对合理的生物标志物设计进行投资。

参考资料

  1. Sawyer J, Anderson B, Beight D, Campbell R, Jones M, Herron D et al. Synthesis and Activity of New Aryl- and Heteroaryl-Substituted Pyrazole Inhibitors of the Transforming Growth Factor-β Type I Receptor Kinase Domain. Journal of Medicinal Chemistry [Internet]. 2003 [cited 23 December 2019];46(19):3953-3956.

  2. Singh J, Chuaqui C, Boriack-Sjodin P, Lee W, Pontz T, Corbley M et al. Successful shape-Based virtual screening: The discovery of a potent inhibitor of the type I TGFβ receptor kinase (TβRI). Bioorganic & Medicinal Chemistry Letters [Internet]. 2003 [cited 23 December 2019];13(24):4355-4359. 

  3. Bonanno L, Zulato E, Attili I, Pavan A, Del Bianco P, Nardo G et al. 1830OLiquid biopsy as tool to monitor and predict clinical benefit from chemotherapy (CT) and immunotherapy (IT) in advanced non-small cell lung cancer (aNSCLC): A prospective study. Annals of Oncology. 2018;29(suppl_8).

  4. Menter D, Davis J, Broom B, Overman M, Morris J, Kopetz S. Back to the Colorectal Cancer Consensus Molecular Subtype Future. Current Gastroenterology Reports. 2019;21(2).

  5. Alexander E, Kennedy G, Baloch Z, Cibas E, Chudova D, Diggans J et al. Preoperative Diagnosis of Benign Thyroid Nodules with Indeterminate Cytology. New England Journal of Medicine. 2012;367(8):705-715.

  6. https://www.drugtargetreview.com/article/54235/rna-and-machine-learning-rational-design-for-multidimensional-biomarkers/

你可能感兴趣的:(大数据,机器学习,人工智能,python,编程语言)