最近几天在搞一篇拖了好久的综述(和华科同济医院合作),机器学习在卵巢癌诊断和预后中的应用,当时分析完文献后发现大部分的文章都是高通量组学的(转录组、代谢组、微生物组等等),因为我本人是搞图像出身的,所以一脸懵逼。正好我的研究生导师希望我未来能够承担一项单细胞测序分析的课题,于是送我去了华大基因青岛研究院学习单细胞转录组测序,顺便在那边把其他几个组学的知识搞清楚了。今天分享的是一篇斯坦福大学生物医学物理系和计算机系合作于2019年发表在Information Fusion(IF = 10.716)的综述,“集成多组学数据的机器学习在生物学和医学中的应用:原则、实践与机会”。重点已经用加粗字体标注出来了,一起看看大牛的综述吧!
集成多组学数据的机器学习在生物学和医学中的应用:原则、实践与机会
摘要:新技术使人们能够以前所未有的规模和多个维度研究生物学和人类健康。 这些维度包括描述基因组,表观基因组,转录组,微生物组,表型和生活方式的众多属性。 但是,没有任何一种数据类型可以捕获与了解某种现象(例如疾病)相关的所有因素的复杂性。 因此,结合了多种技术的数据的集成方法已成为重要的统计和计算方法。 开发此类方法的主要挑战是确定有效模型以提供全面且相关的系统视图。 理想的方法可以通过利用跨生物学变异多个维度的异构数据来回答生物学或医学问题,识别重要特征并预测结果。 在这篇综述中,我们描述了数据集成的原理,并讨论了当前的方法和可用的实现。 我们提供了生物学和医学领域成功进行数据集成的示例。 最后,我们讨论了生物医学整合方法中的当前挑战以及我们对该领域未来发展的看法。
1 引言
了解复杂的生物系统一直是许多研究人员的不懈追求。 高通量测序成本的迅速下降,大规模并行技术的发展以及新的传感器技术,使得能够生成描述多维生物系统的数据。 这些维度包括DNA序列[1],表观基因组状态[2],单细胞基因表达活性[3],蛋白质组学[4],功能和表型测量[5]以及生态和生活方式特性[6]。 在过去的十年中,数据生成技术的进步推动了生物信息学领域的发展,随着研究人员开发数据分析工具,生成的数据量不断增加。 这些数据通常与特定的分析手段相联系,现有的分析方法旨在专门分析一种数据类型。使用这些方法,我们解决了一些生物难题。然而,理解一种疾病的某种现象仅使用一种数据类型是远远不够的。因此,生物学和医学的许多复杂性仍然无法解释。 如果该领域严格依赖于单一数据类型研究,则永远不会解释。
理想情况下,可以结合不同类型的数据来创建细胞,人类健康和疾病的整体图。 研究人员开发了多种方法来完成此任务,因此解决了庞大且异构的生物医学数据所带来的挑战。例如,可以通过基于家庭和人口的数据的关联研究来识别DNA序列变异,然后将其与分子途径信息整合在一起,以预测患上特定疾病的风险[7]。数据集成可能具有多种含义,在本文中定义为,将广义上不同类型的生物医学数据组合为预测变量的过程,从而可以对生物医学相关结果进行更彻底,更全面的建模。正如早先的研究[8-10],多组学的集成比一种数据类型的分析更彻底、更富有信息。组合多种数据类型可以补偿任何单一数据类型中丢失或不可靠的信息,并且指向同一结果的多种证据来源不太可能导致假阳性。 仅当考虑到从基因组和转录组到生物环境的不同维度的信息时,才可能发现像人体这样的系统的完整模型。
在这篇综述中,我们描述了数据集成的原理,并提供了目前用于集成生物医学数据的机器学习方法的分类。 我们讨论了当前方法的实现及在生物学和医学中的成功应用。 此外,我们讨论了优化和解释多组学数据组合的挑战以及集成多种数据类型的优点。 例如,一种技术可以解决另一种技术的缺点,以提供对人类疾病的更精确的洞察力。 此外,我们提供了有关将来集成数据分析如何发展的观点。
2 生物学和医学数据集成面临的挑战
当人们开发机器学习方法以整合生物医学数据时,就会出现一些挑战。 生物和医学数据集的固有复杂性超出了其规模。 生物医学数据集也是高维,不完整,有偏见,异构,动态和嘈杂的。 我们在下面简要描述这些挑战:
(1)生物医学数据通常是高维且稀疏的。 这与其他领域中的大型数据集(例如社交网络,计算机视觉和自然语言)形成对比,后者通常包含大量高质量的示例。 一个典型的全基因组关联研究(GWAS)[11]基因型为每个个体提供了成千上万的单核苷酸多态性。 但是,这些数据通常只能针对相对少数的具有特定表型的个体进行收集。 此外,这些数据的稀疏性质,即每个多态性仅存在于少数个体中,这对下游分析应用提出了额外的挑战。将这些数据转换为具有生物学和临床意义的见解仍然是一项重大挑战。 如果不整合其他类型的数据,例如途径或分子网络信息[12-14],仅GWAS数据就很难确定与目标表型相关的有意义的模式。
(2)另一个重要的挑战来自生物医学数据通常不完整和有偏差的性质。 这一挑战源于测量技术的局限性[15],自然和物理约束[11,16]以及调查偏见[17]。 例如,即使考虑跨器官等离子的信息,也仅对几千个基因提供有关哪些化学物质与哪些基因结合的信息[18]。 此外,每个基因的相关化合物数量高度不均[19],许多未表征的基因在药物作用中起重要作用[20]。 此外,生物医学数据是按层次结构组织的,涵盖了分子,途径,细胞,组织,器官,患者和人群[21-23],并且涵盖了广泛的时间尺度和物种。 显然,对生物学的全面理解需要多尺度建模,从描述分子的原子细节到有机种群的新兴特性。 此外,当生物医学数据随时间变化时,结合数据的机器学习方法需要考虑这些动态因素(个人理解是说不能在建立模型时仅考虑生物医学数据的某个时间横断面,要考虑数据在整个治疗或者疾病过程中的动态变化,和下文的垂直数据集成相关)。 例如,癌细胞,细菌和病毒迅速进化以获得耐药性[24],而忽视药物反应的动态可能导致预测药物功效和毒性的性能下降。
(3)生物医学数据科学中的一个基本挑战在于在现有知识领域之外发现新知识,例如,将动物模型中的药物反应外推到人类患者中。 现有方法通常假定在其上训练了算法的数据集代表了可以对其应用算法的所有数据。 然而,建立模型来预测例如抗癌药在给定患者中的功效是具有挑战性的,因为新患者可能是独特的并且可能不在训练后的模型的假设空间之内。 由于生物医学数据集不完整,仅反映了迄今为止发现的科学知识,模型只能在这些不完整的数据集上训练模型,因此当有新的没有出现在模型假设空间内的新样本被测试时,其性能可能会很差。基于上述原因,部署机器学习系统,以支持风险敏感发现和临床实践中的决策仍然是具有挑战性的任务。
总之,由于生物医学系统的复杂和相互关联的性质,在任何单个数据集上训练的任何单个模型都只能触及整个生物医学知识的一小部分。 是这个 我们必须整合不同的信息来源,以获得对生物学和医学的全面理解。
3 数据集成方法的概念组织
3.1 根据数据分类
(1)垂直数据集成:同一种组学类型,跨越空间和时间尺度组合模型和数据集的方法,指在多个时间尺度上对细胞,细胞类型,组织,生物和种群模型的集成[23,26,27]。
(2)水平数据集成:侧重于在一个特定级别[28,29],例如在微生物组[30]或表观基因组级别[2]上组合数据集和模型。
3.2 根据算法分类
根据集成的方法,分为以下三种不同的数据集成方法[8,31–33](图2):
(1)早期集成(多组学单模型)(图2b):首先将所有数据集转换为基于特征的表或基于图形的表示形式,在分析和预测之前,在原始或降维处理级别将来自不同数据类型的数据集组合起来,然后输入机器学习模型中分析和预测。 从理论上讲,这种方法功能强大,因为只要在分析之前单个数据集没有崩溃,机器学习方法就可以考虑特征之间的任何类型的依存关系。 早期的集成方法通常依赖于自动特征学习的方法,例如降维[34]和表示学习[35,36],将原始的高维数据集投影到低维向量空间中,然后将它们组合在一起,通过级联或其他简单聚合技术进行的低维表示。
(2)后期集成(多组学多模型)(图2d),将分别为每个数据集或数据类型建立一个第一级模型。 然后,通过训练使用第一级模型的预测作为特征的第二级模型或通过获得多数表决或合并第一级模型的预测权重的元预测器[37]来组合这些第一级模型 [38,39]。
(3)中间集成(图2c),例如多核学习[40,41],集体矩阵分解[33,42,43]或深度神经网络[44,45]可以学习许多数据集的联合表征。中间集成依赖于显式解决数据集多样性并通过联合模型推断将其融合的算法。重要的是,中间数据集成方法既不合并输入数据,也不为每个数据集开发单独的模型。 相反,它旨在保留数据结构并仅在分析阶段合并它们。 中间集成方法可以带来卓越的性能,但是它通常需要开发一种新算法,并且不能与现成的软件工具一起使用。
最后,数据集成方法可以生成各种类型的预测输出,类似于分析单个数据集的方法(图3)。 特别值得关注的一个领域是对生物医学实体(例如基因)的定量或分类性质(label,例如基因功能)的预测。 例如,许多研究整合了大量网络数据,包括蛋白质-蛋白质和遗传相互作用网络,以预测导致特定表型或特定功能的基因[46,47](8.1节)。 除了预测个体实体的标签之外,许多研究还旨在预测关系,即生物医学实体之间的分子相互作用,功能关联或因果关系。例如,多核学习方法可以结合从多种数据(例如药物的结构相似性,药物的表型相似性和靶标相似性)得出的内核,以预测药物与可能是药物靶点的蛋白质之间的新关系,即药物—靶点相互作用(9.1节)。最后,存在数据集成方法来识别复杂的结构,例如在组合的基因相互作用网络中检测到的基因模块或簇[49](第8.2节),并生成结构化的输出,例如从混合数据分布推断出的基因调控网络 [50]。
4 本文的重点
这篇综述面向那些对机器学习在生物学和医学领域的最新发展和应用以及在当今产生大量异构数据的情况下其在推进生物医学方面的发展潜力感兴趣的计算机研究人员。在本综述中,我们重点介绍用于数据集成的统计方法和机器学习方法。 我们描述了整合方法的原理,并概述了用于解决各种生物医学问题的一些方法,实施这些分析的可用工具以及整合方法的各种优点和缺点。 此外,我们重点介绍了使用新的机器学习方法进行探索所面临的挑战和机遇,并就整合方法在未来的发展方式提供了看法。
一些现有的综述已从不同的视角介绍了生物医学数据集成,或者特别关注了特定的生物医学问题。例如,Rider等人 [51]专注于网络推理的方法,并特别关注概率方法。Bebek等人 [52]和Cowen等人 [49]专注于从多个生物数据集构建和统计分析生物网络的方法,以及可视化工具。相关综述[8, 53-55]已研究了在转化医学中高通量组学技术和基于数据集成的方法的进展,并列出了供领域相关科学家使用的工具的列表。Karczewski等[9]描述了数据整合的应用,集成方法结合了各种类型的数据以理解,诊断和寻找疾病的治疗方法。 他们讨论了在临床和个性化医学中实施整合方法的技术挑战。Teschendorff等人[10]综述了基于生物测序数据建立的预测算法,并重点关注了基因测序数据的统计分析分析。
在这篇综述中,我们分析了多种生物医学水平的数据集成的进展。 本文的逻辑结构按照遗传信息的表达顺序组织,首先介绍基因组水平,其次是转录组水平,最后是表观遗传水平。这些水平之内和之间存在异构数据。 我们从DNA序列水平开始,描述甲基化模式和其他表观遗传标记(Sections 5 and 6),从单个细胞水平的基因表达(Sections 7),蛋白质变异和细胞表型(Sections 8)着手,达到患者群体水平(Sections 9 and 10)。 最后,我们讨论了组合各种数据的潜力以及整合方法在人类健康和疾病中的核心作用(Sections 11)。
5 表观基因组变异与基因调控
尽管多细胞生物中的单个细胞通常具有几乎相同的DNA序列,仍会形成不同的细胞类型。这些不同的细胞类型表现为不同的物理形态学变化并具有不同的行为模式,其根源是代表了不同的基因表达程序。 不同的基因表达程序还会在特定位置对DNA和与其相互作用的数千个生物分子进行物理和化学变化。 其中包括对DNA碱基的化学修饰[56-58],以及将DNA包装成核小体结构的组蛋白的化学修饰[59,60]。 收集DNA、其包装和相关的生物分子被称为染色质。 十位生物学家将染色质的物理和化学变化状态称为细胞的表观基因组[61](表1),并沿基因组逐个基础地测量其特性。
研究人员使用称为测定法的调查性实验来确定基因组中每个区域的表观基因组特性(表2)。例如,DNA包裹的组蛋白会经历称为组蛋白修饰的各种化学变化[59]。染色质免疫沉淀-测序(ChIP-seq)[69-72]法可以绘制组蛋白修饰图,一次一张。另一个例子,核小体通常一致地定位在特定的DNA区域,特别是特定的细胞类型。 无核小体区域或开放染色质在控制基因调控中起着至关重要的作用。 多种技术映射核小体和开放染色质,包括脱氧核糖核酸测序 (DNase-seq)[74]和检测转座酶可访问染色质(ATAC-seq)[62]。
表观基因组测序分析通常将基因组DNA分解成约200个碱基对(bp)长度的片段。 这种片段化使染色质中某些令人感兴趣的表观基因组特性富集起来,例如特定的组蛋白修饰。 这些分析的目的是通过测序片段池中的富集,寻求感兴趣的性质。在其他类型的基因组测序实验中,我们可能会发现产生的测序读物中的遗传变异很有趣。 相反,在表观基因组测序测定中,我们通常主要感兴趣的是这些读数在参考基因组中的定位以及频率。 对于基因组中的每个位置,我们都可以计算映射到该位置的读数的数目,并将其视为所分析的表观基因组特性的强度或频率的信号。 因此,我们可以将实验结果视为整个基因组的数值载体。 通常,我们还包括其他归一化步骤,以说明实验参数的差异,例如除以映射读取的总数。 这会将初始整数计数转换为实值向量。 对于全分辨率的人类基因组,该载体将具有30亿个成分。
由于表观基因组数据可能仅与所关注的生物学现象间接相关,因此机器学习吸引了人们对解释的兴趣[78]。 研究人员已经设计了许多方法来从表观基因组数据得出有关基因表达控制及其对表型的影响的结论[79,80]。 在本节中,我们调查了表观基因组数据分析中的几个问题以及解决这些问题的一些方法。
5.1 半自动基因组注释
为了完整了解基因组各部分的表观基因组状态,研究人员必须结合多种测定的结果。 大型财团已经产生了检查表观基因组状态许多方面的数据集[2、82、28],并且可以将这些方面组合成一个数据矩阵。 可以将这个数据矩阵划分为行向量,每个分析一个。 或者,可以将矩阵分成列载体,每个列载体用于基因组中的每个位置。 无论哪种方式,原始信号数据都很难单独解释和探索。
半自动基因组注释(SAGA)方法[29]通过表观基因组特性方面的相似性将基因组区域聚集在一起,从而在此过程中提供了帮助。 可以根据识别数据矩阵中相似列向量的群集来描述任务。 但是,我们不能假设列向量之间是独立的。 实际上,每个列向量中的数据高度依赖于其邻居。 因此,SAGA方法还可以同时分割基因组,从而动态且异质地定义区域的宽度。 该过程导致基因组的划分,称为分段,每个区域分配给不同的簇,通常称为标记[83]或染色质状态[84]。
我们几乎可以完全自动化SAGA方法的同时分段和聚类。 “半自动化基因组注释”中的“半”是指由人类专家对所得簇进行的解释。专家检查每个簇的各个部分和集合特征,并根据假定的生物学作用描述捕获的模式。 所确定的角色可能包括基因的开始,基因的末端和增强子(一种驱动明显距离的基因表达的基因组元件),以及许多其他基因。 所有这些都有特征性的基因组模式,SAGA方法有助于特征化这种模式的新实例[85]。 研究人员已经使用这些方法来注释许多基因组,包括人类[83,84,86,87],小鼠[88]和果蝇[89],使研究人员能够快速将功能分配给基因组区域。
诸如HMMSeg [86],ChromHMM [84],Seg way [83],EpiCSeg [90]和IDEAS [87]之类的方法提供了一种无监督的学习方法来查找具有相似特征的区域。 这些方法中的大多数采用图形化模型在整个基因组区域的表观基因组数据中找到相似之处。
这些模型将观测到的数据视为由具有定义参数的某些理论状态发出,以反映该区域的功能。 第一个SAGA方法HMMSeg [86]收集输入表观基因组测定,使用小波对数据进行平滑处理,并使用隐藏的马尔可夫模型[91、92、93、94、95、96],其中隐藏状态表示簇成员 船。 ChromHMM [84]使用隐马尔可夫模型,该模型将输入信号作为随机伯努利变量的向量。 伯努利向量化基于每个区域的信号是否超过基于泊松背景分布的有效阈值,将每个区域的输入数据二进制化为离散的“开启”或“关闭”类别。EpiCSig [90]使用类似的方法,尽管它采用原始排序计数并将其建模为负二项式分布的排放量。相反,Segway [83]使用单分量或多分量高斯模型对实值信号数据进行建模[97]。 Segway生成器使用动态贝叶斯网络[98]来对隐藏的马尔可夫模型进行分析,该模型可以对段长度施加硬约束。Segway还可以执行半监督学习,并且可以在完全监督的管道中充分利用它[99]。 最后,IDEAS [87]一次迭代地分割多种输入细胞类型的基因组,并使用无限状态隐马尔可夫模型对跨细胞类型的相似区域进行分类。
5.2 转录因子结合位点预测
(这部分不是很感兴趣,以后有机会再翻译)
5.3 拓扑相关的域预测
(这部分不是很感兴趣,以后有机会再翻译)
5.4 组蛋白修饰和DNA甲基化预测
组蛋白修饰预测还受益于ChIP-seq的计算替代方案。 Epigram [125]识别跨细胞类型的序列基序,强烈提示组蛋白修饰。 Epigram然后采用随机森林分类器来预测这些基序的组蛋白修饰和DNA甲基化。 ChromImpute [126]从一组常用的表观基因组测定方法的核心预测了其他表观基因组测定方法的信号。 为此,ChromImpute在存在感兴趣的数据类型的样本上训练回归树。 通过对这些先前实验的结果进行平均,ChromImpute可以从未进行的实验中推断出信号。 PREDICTD [127]推测了缺失的组蛋白修饰和甲基化信号以及大的因素分解。
6 非编码变异效应
研究人员和医学专业人士通常想知道DNA改变对细胞和器官器官表型的影响。 尽管解释蛋白质序列编码变化的影响相对容易,但解释构成复杂基因组或非基因组基因组大部分的非编码序列却被证明更具挑战性。 许多非编码序列变异与特定的表型性状或遗传疾病有关[128]。 通过表观基因组和基因表达变化介导的十种非编码变化引起表型效应[129]。 我们希望将良性非编码变量与有害变量区别开来。 有害的非编码效应通常发生在控制基因调控的特定区域,称为调控区域。 调控区域包括增强子[130]和基因起始区域[131]。
某些方法旨在仅基于序列来识别调控区和严重的非编码变化。 例如,gkm-SVM [132,133]找到指示增强子活性的短序列(k-mers)。 然后,它使用支持向量机(SVM)在随机序列背景下找到训练集中的丰富k-mer。 它还允许这些k聚体在序列中具有任意数量的断裂或缺口。 训练数据集通常由给定转录因子的结合位点组成。 该SVM的内核计算两个序列之间的相似性得分,这些序列表示为包含缺口的短序列。 DeepSEA [134]在基因组序列上训练深层卷积神经网络,以预测表观基因组状态。 它可以预测转录因子结合和组蛋白修饰状态。 DeepSEA通过比较未修饰序列和修饰序列的预测来检验序列变化的影响。 Basset[135]单独从序列中学习染色质可达性,使用序列上的深卷积神经网络来获得DNase-seq信号的概率预测。
我们还可以通过结合基因组保守性数据来确定突变的有害性。 保守性衡量的是在进化过程中序列几乎没有变化。 几乎可以肯定的是,在进化过程中,保守区已经发生了突变,但是那些降低器官适应性的突变将大大减少当今的流行率。 因此,我们假设在物种间或同一物种的种群之间保持保守的序列表明,突变将造成高度有害,致病或致死。
有几种方法使用保守性来识别有害突变。 组合注释依赖型耗损(CADD)使用线性核支持向量机[136]集成了63个功能,包括从保守性和表观基因组数据中提取的注释。为了标记SVM的训练数据,CADD的作者区分了自人类-黑猩猩的共同祖先以来发生变化的常见序列变体和枯竭的模拟变体。 相比之下,本征则采用了一种无监督的方法,该方法使用了来自各种突变数据库的保守评分,蛋白质功能评分和所有频率[137]。 通过将它们组合成一个块矩阵,并采用该矩阵的特征组成,Eigen可以找到每个突变对有害性的预测准确性。
预测有害的非编码序列变体的某些方法依赖于来自相互干扰的基因组相关元素的自然选择推断(INSIGHT)[138],以识别这些变体上自然选择的强度。 IN SIGHT使用复杂的进化模型,该模型融合了来自多个物种的知识,并解释了基因组不同部分的杂种新发现。 fit Cons方法对DNase-seq,RNA-seq和组蛋白修饰数据进行聚类,与上面的SAGA方法不同[139]。 然后,它估计在自然选择下IN SIGHT识别为强烈的每个簇中的碱基比例。 fitCons根据INSIGHT的自然选择概率,为每个基因组区域标注重要性得分。 LINSIGHT的使用过程与fitCons大致相同,但是对于将观察到的表观基因组特征与INSIGHT分数相关的广义线性模型,避免使用fitCons的聚类步骤[140]。 与fitCons一样,它为每个基因组区域输出INSIGHT评分的适合度。
7 整合单细胞测序数据分析
生物学中的一个主要问题是如何描述和量化人类等多细胞生物[141]中的每个细胞,其中可能包含无数种不同类型的细胞。 通常根据细胞所处组织的功能以及该组织的独特形态学特性来定义细胞类型,例如肌肉或神经[142]。 然而,在单一细胞类型内的细胞中大量的细胞间变化表明存在不同的细胞状态(例如,有丝分裂,迁移)和各种细胞行为,这取决于特定微环境中每个细胞的局部活性。 即使在单个组织内,也存在着不同的细胞群体,代表着该组织的不同表现形式。
研究组织的传统方法依赖于bulk测定,并使用来自特定组织(即大量细胞)的大量细胞样本的加权平均值,这可以掩盖样本中各个细胞之间的差异。 单细胞技术的进步使得能够在单细胞分辨率下进行测量,并开辟了新途径来研究整个组织以及细胞群体中细胞的异质性[143]。 单细胞技术从各种角度分析单个细胞,包括基因组学[144],表观遗传学[145],转录组学[146]和蛋白质组学[147]。 但是,多组学单细胞测量对数据分析,集成和解释提出了重大挑战[148],可以从机器学习中受益。
单细胞集成分析的重点是:(1)鉴定和表征细胞类型,并研究细胞亚群在空间和时间上的组织结构;(2)利用多组学数据推论基因调控网络,和评估跨细胞的网络稳定性。
7.1 细胞类型发现和探索
单细胞RNA测序(scRNA-seq)是一项强大的技术,可以测量单个细胞的基因表达并表征细胞群的异质性和功能多样性[149]。 为了表征细胞群,需要确定每个细胞中表达哪些基因以及该基因表达的强度。 给定样本中有关细胞异质性的信息可以回答传统的基于集合的方法无法解决的问题,在传统的基于bulk的方法是将bulk中所有细胞的基因表达测量值平均化。
最近的研究表明,通过对scRNA-seq数据信息的无偏分析,新的细胞类型发现和识别功能不同的细胞亚群是可能的[150]。然而,与bulk的RNA-seq数据相比,与scRNA-seq相关的独特挑战包括高dropout率 [151] (大量基因在某些细胞中的读取为零,但在剩余细胞中相对较高的表达),以及维度诅咒(高维特征空间中细胞之间的区别都比较大)。
为了解决这些挑战,自从对scRNA-seq的首次研究以来[157],提出了各种无监督的计算算法[152、153、154、155、156]。 这些计算算法中的大多数要么依赖于降维技术[153、154、156],要么利用来自多个聚类结果的共识[152、155]。 例如,零膨胀因子分析(ZIFA)是解决dropout事件的最早的降维方法之一,它假设基因的辍学率相对于预期的表达水平遵循双指数分布。 该基因在人群中[153]。 CellTree [158]结合了具有潜在基因组的潜在狄利克雷分配模型,通过检测到的树状结构概述了单细胞样品之间的较深的弓形关系来引入生物学先验知识,从而测量细胞之间的距离。 Cleary等。 [154]通过利用压缩感测以及以压缩格式收集scRNA-seq数据作为基因线性组合的复合测量的假设,从另一个角度出发。 然而,这些降维方法成立的前提是基于合适的数据分布的强有力的统计假设。但这样的假设并不总是成立,而取决于特定的scRNA-seq技术或平台。
与降维方法不同的是,集合方法首先为cells生成多个近似表示或聚类,然后以原则性的方式集成它们。例如,SIMLR [152]首先生成多个内核来表示近似的细胞-细胞变异性,然后使用非凸优化框架来精炼和整合这些内核,并输出对细胞-细胞相似性矩阵的详细且细粒度的描述 。 这个学习到的相似度矩阵可以对scRNA-seq数据进行有效的聚类和可视化。 SC3 [155]采用了类似的策略,即它首先使用不同的基因子集生成多个聚类结果,然后将这些聚类结果与多数投票相结合。
到目前为止,描述的scRNA-seq数据分析方法处理的是通过单个实验生成的scRNA-seq数据。 当涉及对来自多个患者组,组织中不同样品以及多个条件的scRNA-seq数据进行综合分析时,可用方法的数量有限。 唯一的挑战在于以下事实:伴随的生物学和技术变化往往会主导来自多个种群的汇集单个细胞聚类的信号。最近的努力[159]开发了一种多任务聚类方法来解决该问题。 该方法引入了具有嵌入式特征选择的多任务学习方法,可以同时捕获细胞簇之间以及所有细胞群体或实验中差异表达的基因,从而获得更好的单细胞簇精度。
7.2 单细胞多组学分析
除了scRNA-seq数据外,其他单细胞测序技术还可以测量各种生物学维度,例如DNA甲基化[160],组蛋白修饰[161],开放染色质(scATAC-seq和scDNase-seq [162、163]), 染色体构象[164],蛋白质组[165]和代谢组[166]。 单细胞多组学数据可能比任何单个组学数据更强大地提供对细胞的全面了解[167],但是它们的分析给机器学习带来了有趣的挑战。 特别是,不仅需要发现在各种组学数据之间共享的信息,而且还需要发现特定于特定组学数据类型的辅助信号(图4)。
当前用于分析单细胞多组学数据的方法是基于相关性或基于聚类的[168]。 首先,一种流行的方法考虑了组学数据集,并通过测量数据集之间的相关性来产生假设。 例如,一些研究[169,170,171,172]应用规范的相关性分析(CCA)[173,174,175],该方法已被广泛用于bulk数据分析,以估计相关性。 估计单细胞DNA甲基化与SCRNA-seq数据之间的相关性。 CCA学习了组学数据集的低维表示形式,它捕获了所有数据集之间共享的公共信息。 但是,基于CCA的分析是有限的,因为它无法考虑dropout事件。dropout事件是一种特殊的缺失值,其原因是测序实验中的RNA转录本数量少以及单细胞水平上基因表达的随机性。因此,这些辍学事件成为基因-细胞表达矩阵中的零,这些“假零”与“真零”混合,表示根本没有在细胞中表达的基因。为了克服这一dropout问题,估算方法使用多组学数据之间的相关性来估算缺失值。 例如,MAGIC [176]通过将扩散模型应用于基因-基因相关矩阵来估算缺失值。 类似地,scImpute [177]从相似单元的组中提取信息,以完成稀疏数据矩阵并获得单元间相关性的更好表示。
集成单细胞多组学数据的另一个方向是采用两个阶段的方法:首先,为每个组学数据集构建一个单独的聚类,然后将这些聚类进行组合以进行比较和分析[171、178、179、180 ]。 这种方法的优点是能够推断每种数据类型的重要性并识别所有数据类型共有的信息的能力。 例如,研究[179,180]采取的方法是首先基于每个组学数据集对细胞进行聚类,然后使用统计关联测试对聚类进行广泛的比较。 相似的,MATCHER [181]使用单细胞多组学数据的manifold比对。MATCHER首先使用高斯过程潜变量模型独立地对每个组学数据集中的每个细胞进行聚类。然后比对不同组学生成的聚类簇,将他们组合到一个全局的聚类结果中。这些聚类方法的优点是可以检测单细胞多组学数据中的互补模式和通用模式。 然而,由于许多聚类的广泛生成和统计比较,它们可能会遭受计算复杂性的困扰。
7.3 大规模单细胞生物信息学
随着单细胞技术的发展,每次测序可以测定的细胞数量迅速增加,这要求了更高效和适用于大规模数据的生物信息学方法[151]。 当前用于大规模单细胞数据的分析方法有:(1)近似推断[182]和快速软件实现[183]或者(2)采用深度学习方法,将小批细胞作为输入[184,185]。
例如,bigScale [182]使用大样本量来近似模拟具有数百万细胞的噪声和聚类数据集的精确数值模型。 SCANPY [183]提供了一个基于Python的高效实现,可以轻松地与Tensorflow [186]等其他机器学习包进行交互。
这方面的另一个方向是使用基于深度学习(DL)的方法,DL可以使用小批量随机梯度下降算法来训练多层神经网络。 例如,[184]应用深层自动编码器以获得低维表示,该低维表示优化了原始噪声输入的重构。 同样,SAUCIE[185](用于无监督聚类,插补和Em填充的稀疏自动编码器)使用多任务深度自动编码器,并执行一些用于单单元数据分析的关键任务,包括聚类,批处理校正,可视化, 去噪和插入。 SAUCIE经过训练,可以在2D嵌入层中减小其维数后重建其自己的输入,该层可用于可视化数据。 与传统的深度自动编码器不同,SAUCIE使用了两个附加的模型正则化:(1)信息维正则化,以惩罚根据每个神经层的归一化激活值计算出的熵,从而鼓励适用于聚类的类似于二进制的编码, (2)修正批次效应的最大平均差异(MMD)惩罚。 尽管这些深度学习方法取得了可喜的成果,并且能够处理大型单细胞数据,但其黑盒性质和缺乏可解释性限制了它们在实践中的广泛采用。
8 细胞表型和功能
在过去的十年中,我们生成序列数据的能力一直在迅速提高,并且这种趋势可能会在下一个十年中持续下去(第5节)。 这些序列中的绝大多数是功能未知的蛋白质,通过了解它们的生物学作用,它们的价值可以大大提高。 蛋白质功能的正确注释是在分子水平上了解生命的关键,并且对生物医学和药学都有重要意义。 许多研究工作,如DNA元素百科全书(ENCODE)[1](第5节)和基因型-问题表达(GTEx)[187]项目,扩大了现有数据的广度有助于蛋白质功能预测(Figure 5).
蛋白质功能是描述涉及蛋白质的分子事件的生化和细胞方面的概念。 蛋白质功能可分为三大类:(1)分子功能,例如,酶催化的特定反应;(2)生物学过程,例如,酶参与的代谢途径;以及(3)系统 或生理事件,例如,如果该酶参与呼吸,光合作用或细胞信号传导。 人们还可以考虑第四层,即细胞成分,它描述了蛋白质在其中起作用的细胞区室,例如细胞膜和细胞器。蛋白质的功能也可以在空间和时间上变化,例如在moonlighting蛋白质(即多任务蛋白质)的情况下。 此外,许多蛋白质功能是通过相互作用的蛋白质组来实现的,并且可以预测这些相互作用。
大多数蛋白质在实验上表征不佳,我们对其功能知之甚少。 此外,具有已知功能的蛋白质的绝大多数来自模型生物,但是即使对于那些模式生物,其基因组中编码的所有蛋白质的很大一部分也仍有待鉴定。 例如,在大肠杆菌中,4,225种蛋白质中的大约三分之一的在功能上仍然未被注释(即孤儿蛋白), 类似的比例也适用于酿酒酵母。
8.1 蛋白质功能预测
可以根据氨基酸序列相似性[196],基因表达[197],蛋白质-蛋白质相互作用[47、198、196],代谢相互作用[199],遗传相互作用[200],进化论来推断蛋白质功能 关系[201],3D结构信息[202],生物医学文本的挖掘[203]以及这些数据的任意组合。 在最基本的层次上,蛋白质功能预测方法可分为两类(1) 基于类似蛋白质共享相似功能的原理的无监督相似性方法,以及(2)使用基因本体中蛋白质功能分类的监督方法(GO)[204]。
基于相似性的预测方法将功能未知的蛋白质与功能已知的蛋白质相关联。 最简单,最常用的方法是使用序列相似性搜索。 给定查询蛋白,相似性搜索程序(例如基本局部比对搜索工具(BLAST)[205])会在序列数据库中扫描具有已知功能或结构的同源蛋白,并将其功能转移到查询蛋白中。 如果查询蛋白与具有已知功能的任何蛋白都不同源,则可以从头预测查询蛋白的功能。 从头预测使用有关查询蛋白质的各种信息来识别具有相同功能的所有蛋白质之间共享的生物学特性(例如,具有相同功能的蛋白质可能在相似的条件下(例如在特定的人体组织中)起相似的作用 )。 这些特性随后被用于选择功能转移到查询蛋白的蛋白质[48]。例如,[15,206]开发了一种低维矩阵分解方法,该方法将遗传相互作用网络与其他类型的基因-基因相似性网络相结合。 这些方法使用网络来学习每种蛋白质的嵌入(即特征向量)。 这是通过优化网络重建目标来实现的,假设每个蛋白质的嵌入都依赖于蛋白质邻居在网络中的嵌入。 然后将学习到的嵌入用作聚类算法的输入。 已证明许多矩阵分解[34]和张量分解[207]方法可用于蛋白质功能预测[208]。 例如,[209,210]使用张量计算来组合许多加权的共表达基因相似性网络。 同样的方法也用于鉴定蛋白质复合物,即形成分子机制并共同执行特定功能的两种或多种蛋白质的组合[211,212]。 同样,[213,214,22]使用贝叶斯潜在因子模型并结合基因表达,拷贝数变异(CNV)和甲基化数据来预测蛋白质功能。 作为最后一个例子,许多方法旨在通过组合来自不同组织[22、215、23、216]或不同物种[217、218、219、220、221、222]的数据来了解蛋白质的功能。 例如,OhmNet [23]在多层网络中组织了107种人体组织,其中每一层代表一个组织特异性的蛋白质—蛋白质相互作用网络。OhmNet使用组织层组织模型对网络层(即组织)之间的依赖关系进行建模,开发了一种无监督的特征学习方法,通过考虑每一层内的边缘(即蛋白质-蛋白质相互作用)以及跨层的边缘(即组织与组织的相似性),学习多层网络中每个节点(即蛋白质)的嵌入。
如果存在具有特定功能的蛋白质的实例,则可以将它们用于鉴定具有相同功能的其他蛋白质。 这是通过基因优先排序来实现的(图6)。 给定一组功能未知的基因,基因优先排序会将它们按与功能已知的基因(即种子基因)的相似性进行排序。 排名最高的基因与种子基因最相似,因此可能具有与种子基因相同的功能。 基因优先排序方法可分为四类:(1)使用过滤技术独立分析每个数据集的相似性评分方法[223],(2)聚合来自不同数据集的基因特征向量的方法(例如,通过级联);以及 然后使用聚合的向量作为下游分类器的输入[224],(3)方法分别使用每个数据集来估计基因与种子基因的相似性,然后通过线性或非线性加权将相似性得分相结合[225,226] ,227]和(4)的方法,为每个数据集构建一个独立的基因-基因相关网络,并在种子基因的监督下组合网络[228,47]。
功能预测的监督方法在GO [204]中使用蛋白质功能分类来指定监督预测任务。 该任务为机器学习方法提出了四个有趣的挑战。 首先,蛋白质的功能被分类为40,000多个GO术语,这个庞大而复杂的空间对任何分类方法都构成了挑战。 其次,GO术语之间存在依赖性,导致蛋白质在不同的抽象级别(例如,细胞转运与细胞外氨基酸转运)被分配给GO中的多种功能。 此外,蛋白质通常具有多种不同的功能,使功能预测本质上是一个多标签,多类别分类的问题。最后,高水平的生理功能,如细胞间转运或心率调节,是一种简单的分子相互作用,需要许多蛋白质参与,因此这些功能通常不能通过单独考虑单个蛋白质来预先决定。为了应对这些挑战,许多方法使用联合潜在因素模型[191,189]、多标签学习[47]和集成学习[39,235,218,236]。还开发了一些机器学习方法,以整合调控网络和路径信息来预测功能模块,即功能相关蛋白质组[237, 238, 51, 236, 239, 240],这些方法仅隐含地调用了上述相似性原则。
另一个考虑因素是从数据中直接推断功能本体论(即蛋白质功能的层次结构)[241,242]。例如,[241]使用分层网络通信检测算法和酿酒酵母的蛋白质-蛋白质相互作用网络来推断其覆盖范围可与手动管理的GO-anno-tations相媲美的本体。另一种常见的方法是使用神经网络来预测蛋白质功能。例如,[23]使用神经网络预测组织特异性蛋白质功能,即在特定细胞类型、组织、器官或肝系统中发生的功能。使用神经网络的另一个例子是[243],他们使用深度学习来学习蛋白质嵌入我们的蛋白质序列数据、跨物种蛋白质-蛋白质相互作用网络以及蛋白质功能之间的GO层次关系。按照类似的思路,[244]使用几百万个基因来训练一个神经网络,其结构由GO层次决定。作为生物应用的一个例子,[244]证明了神经模型几乎可以和实验室实验一样精确地模拟细胞生长。
8.2 蛋白质-蛋白质相互作用预测
研究细胞表型和功能的一个主要策略是分析蛋白质之间的物理相互作用网络。这些物理蛋白质-蛋白质相互作用(PPI)网络工作执行细胞的核心功能,因为相互作用的蛋白质往往与相似的表型相关,并参与相似的功能[17]。蛋白质-蛋白质相互作用也或切斯特复杂的生物过程,包括信号和催化(图7)[50]。
随着实验技术的进步,PPI的识别数量不断增加[245]。然而,我们还远未完全了解ppi及其在网络层次上的特征。由于其他类型的蛋白质数据(如蛋白序列和结构信息)的显著增加,预测PPIs的计算方法最近变得流行,这表明PPIs是一种预测方法。
蛋白质可以与其他生物分子相互作用或共同定位,并能形成稳定的复合物。这些复合物可以与DNA结合,改变基因表达,改变细胞表型。Jansen等人的预测方法。[246]改进了基于下拉分析的分析,实验发现蛋白质与输入蛋白质相互作用。然而,这些往往是带有噪音的,往往是不完整的。
为了解决这个问题,Jansen等人的[246]方法使用贝叶斯推断,通过从各种数据集中的相互作用蛋白质对,以及转录组和必要性信息,找到完整的相互作用网络。另一个例子是Chrom � Net[247],它利用表观基因组数据预测染色质相互作用蛋白质(如转录因子)中的ppi。它通过识别特定基因组区域存在的蛋白质之间的条件依赖结构来做到这一点。在另一个例子[248]中,来自各种人和动物细胞和组织的9000多个质谱蛋白质相互作用数据集被组合成人类蛋白质复合物的综合图谱并预测PPI。有趣的是,组合图显示了数千个ppi,而这些ppi没有被任何单独的质谱实验所识别,从而证明了数据集成的价值。这个分析是由一个基于网络的蛋白质复合物发现管道完成的。计算管道首先使用来自所有输入数据集的特征在交互网络中生成一个整合蛋白。该方法训练了一个基于支持向量机(SVMs)的蛋白质相互作用分类器。为了预测蛋白质复合物,该方法对图采用马尔可夫聚类算法,并优化了与文献报道的蛋白质复合物训练集相关的聚类参数。
9 计算药理学
计算药理学的目标是使用数据来预测和更好地理解药物对人体的影响,支持药物发现过程中的决策,改进临床实践并避免不必要的副作用(关于excel-lent综述,见[254,20])。药物的性质及其与人体的相互作用可以用多种方式来描述,并在物理化学、药理学和表型水平上进行测量。人们可以测量药物的物理化学性质,如化学结构、熔点或疏水性。还可以通过量化结合强度、动力学活性和细胞状态或基因表达的变化来测量药物与其靶蛋白之间的相互作用。此外,可以使用表型数据,例如关于某一特定药物治疗的疾病、药物副作用以及药物与其他药物的相互作用的信息。这些数据有助于数学表达,然后对数学表达进行分析,以指导药物的发现和实验室的体内实验。
9.1 药物-靶点相互作用预测
在最基本的水平上,药物通过与靶蛋白结合并影响其下游活性而对人体产生影响。因此,确定药物与靶点的相互作用对于了解药物的关键特性(包括药物副作用、治疗机制和医学适应症)非常重要。传统的药物-靶点相互作用预测使用分子对接[253],这是一种结合3D建模和计算机模拟的方法,将候选药物对接到蛋白质结合袋中,然后计算两种药物相互作用的可能性。这种方法提供了对相互作用的结构本质的洞察,然而,当靶蛋白的三维结构不可用时,分子对接的性能受到限制。
由于分子对接的计算要求很高,基于配体的方法[254]已经成为药物与靶点相互作用预测的一种替代方法。一种基于配体的方法指定了一个化学性质的ab � stract模型,该模型被认为对与所选靶蛋白的相互作用很重要,然后它根据该模型对候选药物进行比对和评分。然而,当所选择的目标蛋白只有少量已知的结合配体且抽象模型的质量较低时,基于配体的方法表现不佳(表3)。
近年来许多研究集中在利用机器学习进行药物与靶点相互作用的预测上。这些努力都是基于关联有罪原则,即相似药物倾向于共享相似靶点的原则,反之亦然。利用这一原理,可将预测表述为二元分类任务,其目的是预测药物与靶点之间是否存在相互作用。这种直接的分类方法将已知的药物-靶点相互作用视为阳性标记,并使用药物的化学结构和靶蛋白的DNA序列作为输入特征(或核)[255-257]。此外,许多方法将副作用信息整合到分类模型中,如药物副作用[18258]、基因表达谱[259]、药物疾病作为社会[260]和基因功能信息[261]。这些数据为药物-靶点相互作用预测提供了多视图学习设置[262263]。例如,[262]使用核化矩阵分解并组合多种类型的数据(即视图),每种数据类型被视为不同的核,以获得比单核方案更好的预测性能。另一种常见的方法是将多种类型的数据表示为异构网络(图8),并使用随机游动预测目标蛋白。这些方法使用扩散分布来计算网络中每个节点(蛋白质)的得分,这样得分反映了蛋白质被特定药物靶向的概率[260264265]。除了随机游动,还可以使用元路径[266]从异质网络中提取药物和蛋白质特征向量,然后将它们输入分类器[267]。
然而,手工设计的特性,如元路径,通常需要专家知识和特性工程方面的大量工作,因此可以防止方法被扩展到大型数据集。基于这些原因,矩阵分解算法被用来学习异质网络到潜在特征空间的最优投影。所学习的潜在空间用于通过矩阵运算的序列推断药物靶点网络,所得到的药物靶点网络用于预测药物靶点相互作用[268]。经典矩阵分解的一个潜在限制是它以一个同质网络作为输入,因此需要将一个异质网络分解为一个同质网络,从而丢弃潜在的有用信息。这种局限性被多视角、集体和张量因子分解方法克服,用于药物-靶点相互作用预测[262269270]。在浅特征学习算法中,除了使用矩阵分解外,还可以使用深特征学习算法,如deep autoencoders[271]来集成药物相关信息。这些算法为数据集中的每种药物和蛋白质生成一个特征向量。利用所学习的药物和蛋白质特征,该方法找到从药物空间到蛋白质空间的最佳投影,使得药物的投影特征向量在几何上接近这些药物靶向的蛋白质的特征向量[19]。学习投影以最小化药物-靶点相互作用的训练数据集上的预测误差[274]。在模型训练之后,该方法通过根据蛋白质在投影空间中与药物载体的几何相似性对蛋白质进行排序来预测特定药物的靶蛋白。
9.2 药物-药物相互作用和药物组合预测
联合用药是一种常见的治疗方法。许多患者同时服用多种药物治疗复杂疾病或共存疾病[278]。一种药物组合包括多种药物,每种药物通常作为一种有效药物在患者群体中使用[279]。由于药物组合中的药物可以调节不同蛋白质的活性,因此药物组合可以通过克服非进化生物过程中的冗余来提高治疗效果[280]。虽然使用多种药物可能是治疗许多疾病的良好做法,但药物组合对患者的一个主要后果是更高的副作用风险,这可能是由于药物-药物相互作用所致[190,281]。这种副作用可能会出现,因为一种药物如果与另一种药物一起服用,其活性可能会改变。这意味着联合用药会导致患者出现夸大的反应,超出了我们在没有相互作用的情况下预期的反应。
药物相互作用是药物发现中的一个重要问题。它们极难在人身上识别,因为有多种组合方式,一种给定的药物组合可以在临床上表现出来,而每种组合只对特定的患者子集有效。尽管如此,在相对较小的临床试验中,几乎不可能测试所有可能的药物对[282],也不可能观察副作用。鉴于药物的数量庞大,药物成对组合的实验筛选在成本和时间上构成了巨大的挑战。例如,给定n种药物,有(-1)/2对药物组合和许多更高阶的组合。此外,不必要的副作用被认为是医疗体系中一个日益严重的问题,影响了近15%的美国人口[281]。为了解决候选药物组合的这种组合爆炸,开发了计算方法来识别潜在相互作用的药物对[282]。
药物-药物相互作用通过协同作用和拮抗作用的概念定义[283,284],并通过测量剂量-效应曲线[285,286]或细胞活力[280,287-292]进行生物量化。
计算方法使用这些测量来识别药物的组合,通常是药物对,它们可能相互作用。这些方法通过估计代表药物对相互作用整体强度的分数来预测药物-药物相互作用。现有的方法是基于分类或相似性的。基于分类的方法认为药物相互作用预测是一个二元分类问题[280,288,290,292–294]。他们使用已知的相互作用药物对作为阳性例子,其他药物对作为阴性样本。这些方法首先获得每个药物对的特征表示。例如,他们在每种数据类型上使用线性或非线性降维算法来导出每种药物的特征向量[290,295],然后聚集单个药物的特征向量以获得药物对的集成特征向量。最后,利用药物对的特征表示训练二值分类器,如logistic回归分类器、支持向量机或神经网络。相反,基于相似性的方法假设相似的药物具有相似的相互作用模式[33,252,287,289,296–298]。这些方法通过聚类或标签传播来聚合相似性度量,以预测新的药物-药物相互作用[301,302,303]。
除了预测药物相互作用发生的可能性之外,最近的方法还确定了给定药物对在患者群体中的临床表现[46,304,305]。这些方法使用分子、药物和患者数据来预测与成对药物相关的副作用。例如,Decagon[46]构建了蛋白质-蛋白质相互作用、药物-蛋白质相互作用和药物-药物相互作用的多模态图(图8)。该方法将多模图中每种类型的边效应表示为不同的边类型。Decagon利用图表开发了一种图表卷积神经网络,一种为图表数据设计的神经网络[37],用于预测药物对的副作用。
9.3 药物再利用
药物再利用(也称为“药物再定位”,图9)寻求已知药物和新分子的新用途。药物再利用的基础是以下两个观察结果。首先,许多药物具有多靶蛋白[306],因此多靶点药物可能用于多种目的。第二,不同的疾病有共同的遗传因素、分子途径和症状[307,17],因此,作用于这些重叠因素的药物可能有益于一种以上的疾病。
在高水平上,药物再利用方法可以被归为四类:(1)根据蛋白质-靶点相互作用网络预测现有药物新用途的方法[308、309、310、311、274],(2)通过分析不同药物治疗方案后的基因表达激活来进行预利用的方法[312、313],(3) 方法根据药物副作用进行预测[314、315、316、317]和(4)考虑各种疾病相似性和药物相似性度量的方法,每个方法捕获不同类型的生物医学知识[262、318、319、320、321、322、323]。
例如,[324,262,322274]使用异构相似网络上的随机游动对给定疾病的候选药物进行排序。在另一个例子中,[322]设计了相似度量来构造药物相似网络、疾病相似网络和药物-疾病相互作用网络,然后使用随机游动来预测医学发现。该方法是基于类似药物治疗类似疾病的观察。按照相似的思路,[318319]的工作使用了多种类型的药物和疾病相似性度量,并通过大边际法或logistic回归将它们结合起来,以解决药物再利用的任务。
10 疾病亚型和生物标志物发现
许多疾病的特征是患者之间难以置信的异质性。 这包括许多常见的神经精神疾病和自身免疫性疾病(例如,自闭症谱系障碍(ASD),注意力缺陷多动症(ADHD),强迫症(OCD),关节炎,狼疮,慢性疲劳综合征(CFS) )是最多样化的。 这意味着在诊所出现的个人症状范围很广。 例如,自闭症患者包括轻度行为挑战到无力说话的患者。 关节炎会影响非常特殊的关节类型或全身性出现,影响多个器官和组织。 对于许多常见疾病,存在可以临床区分的亚型分类(图10)。
因此,可以根据该临床区别来指导治疗。 另一方面,例如癌症等疾病会以给定器官(例如肺,乳腺,胃等)中的固体团块形式出现,并且在临床上看起来很相似,但是活检和随后的细胞分析显示, 这些肿块可能差异很大,给患者带来了不同的风险和鼻子。 一个很好的例子是乳腺癌,目前在临床上根据基因表达生物标志物区分出至少四种不同的亚型(A和B型,Her2 +,Triple Negative / Basal-like)。 对乳腺癌的进一步研究表明,可能有近十种亚型[326]甚至更多。 因此,似乎在多种疾病之间存在临床和生物学异质性。 癌症的情况告诉我们,疾病的临床和生物学亚分类可能会不一致,实际上,诊所中出现的乳腺癌患者的症状并不表示其分子亚型。
在计算上确定子类型是一个挑战。在理论上,疾病的亚型意味着确定同质的亚患者群,即聚类,然而在实践中,不同类型的患者信息(临床和分子数据)的聚类导致不同的患者群。这种不一致不仅存在于分子和临床数据之间,也存在于分子亚型之间。例如,Cavalli等人。[326]表明,髓母细胞瘤(脑can-cer)患者的基因表达与甲基化之间的差异导致亚群不一致,从而解决了基因表达与甲基化的整合问题。另一个例子是多形性胶质母细胞瘤(GBM),一种非常侵袭性的成人起病脑癌。结合基因表达和拷贝数变异(CNV)的早期分析产生了两个亚型[327],而主要由基因表达分析驱动的后期分析产生了4个亚型[328]。有趣的是,虽然甲基化数据在[328]中可用,但它仅用于解释通过基因外压获得的簇,因此被发现是非信息性的。以甲基化为驱动信号的分析确定了一个非常显著的、现在被广泛认可的IDH1亚型,这是一种导致基因组中高甲基化的突变,对应于临床预后较好的GBM患者的年轻亚群。总之,独立分析每一种分子数据类型会导致不一致的发现,这些发现很难巩固。这些例子说明了数据集成对于识别子类型的重要性。事实上,我们对患者的定义越全面,我们的亚型就越可信,也越有希望与临床相关。
为了识别疾病亚型,已经开发了许多数据集成方法。 最简单的常用方法是将所有可用数据类型连接起来,然后使用长连接向量对患者进行聚类。 这种方法的问题在于,它完全忽略了每个数据集中存在的结构,从而进一步稀释了通常较弱的信号。 避免此问题的另一种简单方法是集群分配(COCA),最初是为了定义癌症基因组图谱(TCGA)乳腺癌患者队列中的子类而开发的[329]。 COCA首先根据各个数据类型对患者进行聚类,然后将这些分配作为二进制矢量输入,并根据这些矢量重新分组患者,从而提供共识。 这种分配的问题在于,它主要是由跨所有数据类型的公共信号驱动的,而不是利用可能由不同数据类型提供的互补信息。 TCGA使用此方法来整合五种数据类型,包括12种癌症类型的mRNA,DNA甲基化,反相蛋白阵列(RPPA),CNV和miRNA数据,它们成功地重新鉴定了大多数癌症类型[330]。 然而,现实是,仅通过使用mRNA对这些样本进行聚类就可以获得非常相似的准确性。 问题出在各种数据类型不一致的临界情况下。 不幸的是,在大多数情况下,COCA并不是特别有用。
有许多更复杂的方法试图捕获内部结构,潜在尺寸和非线性。 例如,iCluster是在套索型优化框架中具有稀疏正则化的高斯潜变量模型[331]。 该方法背后的主要假设是,存在一个潜在的空间来捕获患者的真实分组。 然后,将每个不同的数据类型一起使用以估计此潜在空间。 该方法被用于从METABRIC队列中鉴定出10种乳腺癌亚型[325]。
根据我们的经验,iCluster结果往往由最强的单个数据类型信号决定。 iCluster的另一个缺点是它不能自然地处理数千个变量(基因)。 因此,基因预选必须首先应用于数据。 这种预选择会产生偏差,并且如果预选择的特征不包含与真实子组相关的信号,则很难在选择后集成中恢复它们。 患者特定数据融合(PSDF)[332]是另一种潜在变量方法。 PSDF是一种非参数贝叶斯模型,通过组合基因表达和拷贝数变异来发现亚型。 PSDF估计每位患者的潜在变量,以最小化组合数据类型相互矛盾的样本。 虽然功能强大的非参数框架,但PSDF由于需要推断大量参数以及仅组合两种数据类型的限制而遭受了高昂的计算成本。
用于集成数据以识别子类型的另一种方法是基于网络的。 这种方法的一个例子是相似网络融合(SNF)[43]。 SNF不会尝试在难以对各种数据类型进行校准和比较的原始测量空间中合并数据,而是在患者相似性空间中合并数据。
简而言之,SNF包含两个步骤: 首先,它为每种可用的数据类型创建一个相似性患者网络,一旦构建了所有网络,它就基于迭代跨多个图的想法,以迭代非线性方式组合了这些网络。 事实证明,SNF在五种癌症上的表现均优于上述方法[43],随后已在癌症以外应用,以结合图像和临床数据以及针对多种疾病的多种实验室测试[326,333-336]。 从本质上讲,SNF类似于多核学习(MKL),也可以用于构造和组合相似性[337]。 SNF和MKL之间的主要区别在于MKL的线性特性,这会损害其在集成过程中的性能,如图[43]所示。 尽管还没有太多的方法可以使用网络融合来执行子类型化,但是在[338]中可以找到对该主题的简短回顾。
关于生物标志物的发现,有无数的论文,但是,当涉及综合分析时,识别真正的综合生物标志物的应用程序的数量很少。 一种早期且非常有趣的方法是使用基于基因组模型的数据集成的PAthway识别算法(PARADIGM)[339]。 简而言之,该方法对每个基因的活性水平进行建模,将其表示为潜在变量。 该方法依赖于大型公共基因网络,包括激活和抑制相互作用。 然后将此网络转换为贝叶斯网络,遵循以下生物学假设:对于每个基因,拷贝数变化(CNA)影响表达,从而影响蛋白质水平,从而影响潜在的蛋白质活性。 该图表示参考(正常)状态。 给定特定疾病的数据,将为所有潜在活动节点计算联合事后分布。 通过比较活动前和活动后的水平,PARADIGM获得了由疾病引起的改变的定量测量。 该方法已在癌症研究中应用[330],并鉴定了生物学相关的失调。
11 挑战和未来方向
在机器学习和生物医学数据集成的交叉处有很多机会。 但是,同样也需要克服巨大的挑战。 尤其是,孤立地,彼此独立地研究生物医学数据集的日子正慢慢走到尽头,而还原主义范式正在寻找“低垂的果实”(即,一个可以充分解释特征的变量) 越来越不流行了。 仅在一种数据类型中执行所有分析可能会限制发现新的生物医学见解的潜力,这一认识促使人们开发了许多新的思想和方法来整合生物医学数据。 但是,这些方法只是开始,对最佳设计的关键原理知之甚少。 此外,用于许多生物医学问题的金标准方法,例如识别非编码DNA变异体(第6节),对单细胞进行多组学分析(第7节)以及对患者群体进行分层(第10节)等,都刚刚出现。 此外,异构数据和新的机器学习方法的结合使我们能够从根本上提出新的生物医学问题。
有许多方向可以应对这些挑战。 简而言之,我们着重指出了必须解决的突出问题和机遇,以充分实现机器学习在生物医学数据交互方面的潜力。
11.1 结合混合技术数据
不同技术产生的数据的结构和分布(例如,基于测序的技术与基于阵列的技术[340]产生的基因表达数据)可能会非常不同,因此将这些数据进行合并具有挑战性。 因此,在分析混合技术数据时,数据标准化是必不可少的第一步。 此外,存在大量不同的测定法(例如,表2和第7节),并且在下游分析之前适当地归一化从这些测定法得到的数据仍然是主要挑战。 归一化非常重要,因为它可以调整可能掩盖感兴趣信号的有害生物和技术噪声。 例如,在单细胞转录组学中一种广泛使用的归一化策略是全局缩放[341],该缩放通过将每个细胞内的基因表达测量值缩放一个恒定因子来消除特定于细胞的偏倚。 通过使用下一代机器学习方法,可以将数据标准化方法向前推进的机会很多。 例如,可以使用生成对抗网络(GAN)生成具有真实数据属性的数据,然后使用创建的数据对真实数据进行规范化。 未来的方法可能包括综合策略,其中归一化是特定类型的分析所固有的(例如[342]),以及通用工具,它们可以对数据进行归一化,然后可以将其用作任何下游分析的输入(例如[ 343–345])。
11.2 多尺度和higher-order高阶方法
计算生物学的一个中心目标是建立一个细胞的预测模型,该模型能够预测一系列表型并回答生物学问题。为了能够预测多种表型,而不仅仅是一种类型的结果,我们需要了解表型是如何相互关联的。在这里,多尺度模型发挥作用是因为单元在三维结构和功能上都是以分层的方式组织的[21]。类似地,如果只有一个人能够找出如何正确地结合这些测量,那么细胞的高阶结构和功能可能会从许多分子测量和相互作用数据集中显现出来。细胞的多尺度预测模型是一个非常普遍的框架,但它是否能充分捕捉生物复杂性的程度还有待观察。此外,还不清楚如何将细胞模型组合或外推到生物体(即人类患者)的规模。细胞模型和组织模型之间的这种差距带来了根本性的新挑战,必须最终加以应对。而且,由于目前大多数机器学习模型的参数在模型训练后是固定的,因此这些模型与生物进化是不相容的。已经采取了应对这些挑战的第一个关键步骤。例如,多层次图和网络基序理论的最新进展使我们能够研究例如基因调控网络的高阶组织[346,347]和生态系统的多层性质[26]。此外,这些挑战为下一代机器学习算法(例如基于深度表示学习和拓扑数据分析的算法)提供了一个极好的机会,以开发多尺度[23]和更高阶[348]细胞模型,并最终开发人类患者模型。
11.3 Interpretability and explainability
许多机器学习方法的黑箱性质给生物医学应用带来了额外的挑战。很难从生物医学的角度对这些方法的输出进行比较,这一挑战限制了方法提供见解的效用。这尤其适用于高级方法,例如深层神经网络,它以一种很难确定每个特征的相对重要性或特征是否与结果正相关或负相关的方式来转换输入数据。理解黑盒预测在机器学习中是一个开放性的挑战,特别关注如何解释一个特定的模型如何将输入与其输出联系起来[349-352]。现在迫切需要将黑盒方法转换为白盒方法,这些方法可以被打开并有意义地解释。可解释性在生物医学中的早期应用包括[353],一种集成来自医院信息管理系统的高保真数据的方法(例如,来自病人监视器和麻醉机、药物、实验室结果的数据,以及电子医疗记录)预测手术期间低氧血症的风险,并解释导致该风险的患者和手术特定因素。以类似的方式,Ma等人。[242]使用了一个神经网络,并将GO的先验生物知识集成到神经模型中[203]。一个特定的基因型-表型关联可以用细胞系统的层次结构来解释,这种层次结构被确定为一个神经激活图。
11.4 整合自我报告、生活方式和生态数据self-reported, lifestyle, and ecological data
尽管近年来产生基因组数据的成本和速度大幅下降,但在收集表型数据(即,单个或组织或个体的所有表型信息集合,见第10节)方面的进展并没有跟上步伐。为了开始应对物候学挑战,需要进行新的研究,以促进广泛和深入的物候分类,并最大限度地利用收集的数据,同时尽量减少个人负担。尽管研究传统上使用病历作为医疗条件的金标准信息,但新兴研究认为,互联网和移动技术是一种可行的方法,可用于大规模人群的广泛表型分类。
相对于病历回顾,基于互联网的表型识别可以很快。例如,Tung等人。[354]在大约12个月内,仅用一小队人评估了20000多人的50种表型,如克罗恩病、炎症性肠病缓解和糖尿病。新兴的研究已经证明了将这些自我报告的数据与个人的基因组信息结合起来的价值。
例如,Hu等人。[11] 对自我报告的早晨(即早晨喜欢早起和休息)进行全基因组关联分析,然后利用生物途径分析新发现的基因变异。沿着类似的路线,海德等人。[16] 最近使用了来自300000多个个体的自我报告数据,并将其与全基因组关联研究相结合,以确定与抑郁症相关的遗传变异。此外,将其他类型的生活方式和生态数据与分子信息结合起来,有很大潜力揭示新的生物学机制。例如,Smits等人。[30]是该领域的一项早期工作,它将人类肠道微生物群数据与生活方式信息结合起来。综合数据显示,不同季节间肠道微生物群落的显著差异取决于不同类型食物的季节供应情况。
12 结论
机器学习正在成为现代生物医学研究的一个组成部分。重要的是,已经出现了可以集成来自许多不同生物医学数据集的数据的方法。这些方法旨在弥合我们产生大量数据的能力与我们对生物医学系统的理解之间的差距,从而反映生物学的复杂程度。正在进行的方法学发展和机器学习的新兴应用为生物医学数据集成带来了令人兴奋的未来,尽管很可能没有一种方法能最好地解决所有问题。因此,需要根据不同类型的领域特定模型、特定类型的数据和不同类型的生物医学输出来选择方法。在这篇综述中,我们描述了目前可以实现的各种方法,以执行强大的综合分析。随着综合方法变得更容易使用,系统生物学和系统医学很可能成为产生生物学和医学新知识的核心计算策略。