Nature子刊综述:机器学习在神经退行性疾病诊疗中的应用

摘要:对神经退行性疾病的有效治疗存在巨大的需求。神经元变性的复杂性和患者群体的异质性给这些疾病的早期诊断工具和有效治疗的发展带来了巨大的挑战。机器学习是人工智能的子领域,它使科学家、临床医生和患者能够应对其中的一些挑战。在这篇综述中,作者讨论了机器学习如何实现医学图像的早期诊断和解释,以及新疗法的发现和发展。机器学习的不同应用具有一个统一的主题,即集成多个高维数据源,这些数据源都提供了对疾病的不同看法,并自动推导出可操作的见解。
1 引言
人工智能于1955年首次被约翰·麦卡锡描述为“制造智能机器的科学和工程”,它是一个计算机科学研究领域。近年来,机器学习算法在医学和科学研究中的应用得到了广泛的应用。在过去的十年里,患者数据的快速积累使得新技术成为可能。这些大型健康数据集是高维的,且往往是稀疏的、有噪声的,缺乏统计能力,这使得使用传统的数据分析方法从这些数据中获得生物学见解极其困难。数据分析的这些问题由于各种数据类型的集成而进一步复杂化。为了应对这些挑战,先进的机器学习模型越来越多地应用于生物医学和卫生保健数据。传统的计算机科学通过应用预定义的规则从输入数据中获得结果,而机器学习直接从输入数据中学习规则和见解,从而允许在新的情况下应用这些规则从数据中做出预测。机器学习方法有助于克服高维数据带来的挑战,因为它减少了分析的特征数量。也可以使用不同的机器学习算法来整合不同模态的数据,以增加统计能力。许多研究人员从健康人和患有神经退行性疾病的人那里收集了丰富的高维数据集;例如,阿尔茨海默病神经成像倡议(ADNI)、艾伦大脑图谱和英国生物库。在这篇综述中,作者重点介绍了使用机器学习来挖掘神经退行性疾病相关数据集的最新进展,包括机器学习在诊断、预后和新疗法开发中的应用。
2 机器学习模型
机器学习方法大致分为有监督、无监督和强化学习方法(图1)。有监督机器学习算法是目前最常用的应用于神经退行性疾病相关数据的方法,需要一个标记的数据集来学习。通常,这些标签需要手动管理或专家评估。为有监督的机器学习收集足够大量的准确标签可能是一项挑战。有监督的机器学习分为分类和回归算法。分类算法预测每个数据样本的分类输出。回归算法预测每个数据样本的实值变量。大多数机器学习算法都有支持分类和回归的变体。与有监督的机器学习相比,无监督的机器学习算法不需要带标签的数据。除了分析现有数据外,非监督聚类算法还可用于进行预测。监督学习方法和非监督学习方法可以结合起来,形成半监督学习方法。半监督方法用额外的未标记数据来丰富一小部分标记数据,这使得聚类(非监督)方法能够改善分类(监督)方法的性能,并用额外的数据使预测模型正则化。同样,转导式学习方法将测试数据用作未标记数据,以改进标准的监督分类方法。
Nature子刊综述:机器学习在神经退行性疾病诊疗中的应用_第1张图片

图1 机器学习的分类。机器学习方法可以分为三大类:监督学习、非监督学习和强化学习。监督学习依赖于一组由专业人员标记的数据来训练算法,以提取特定的疾病特征。一旦经过训练,该模型就可以在未标记的数据集中识别感兴趣的特征,以帮助诊断。无监督学习学习在没有标签的情况下确定数据集中的模式和类别,并且在识别将不同的患者疾病组分类为分子亚型的分子签名时特别有用。在强化学习模型中,决策过程和输出是从先前经验中获得的知识的结果。该算法是在试错的基础上进行训练的,通过一系列试验,奖励或惩罚推动学习过程和技能的获得。这种方法对于自动化和机器人技术来说是理想的,尽管在医学上的使用正在增加。
3 模型选择
有两个因素对于选择正确的算法特别相关:形态(数据所在的形式)和体积(数据样本的数量)。就体积而言,对于具有低样本与特征比(SFR<10:1)的数据集,除分类外,算法将难以学习有用的“特征化”(图2)。数据特征化要求算法识别和提取数据中的特征或“特征”,这些特征或“特征”使得随后能够将数据点分成类。SFR越高,算法识别分隔数据点的特征就越容易。支持向量机将数据集映射到一个空间,以便将两个类别尽可能广泛地分开。随机森林使用一种不同的方法来实现支持向量机。随机森林算法构建了许多不同的独立决策树,每一棵决策树都需要对数据进行一系列二进制选择。以这种方式,每个决策树为输入数据提供分类,然后该算法从不同的树中选择最常见的输出预测。这种方法纠正了使用单个决策树时可能发生的过度拟合。人工神经网络,包括流行的深度神经网络,被广泛用于分析多种形式的数据。人工神经网络通常被安排成一层或多层并行的“神经元”,将其输入转换为输出;包含两层或更多层的网络称为深度神经网络。在每一个连续的层中,神经网络能够处理数据的更抽象的表示。与支持向量机或随机森林相比,人工神经网络在预处理过程中需要的人工数据处理步骤甚至更少,在某些情况下,将分类器的选择归入网络的体系结构。卷积神经网络(CNN)从人类视觉系统中汲取灵感,在越来越高的抽象水平上提取特征,最初结合局部信息,最终整合整个图像中的大规模信息。图像分类中的许多问题都可以通过这些算法来解决。另一种类型的深度神经网络称为递归神经网络(RNN),可以从数据序列中提取信息,对于分析临床记录特别有用。RNN模型,如长短期记忆(LSTM)和门控递归单位,构成了大多数序列任务中使用的构建块。这些模型包含一个存储单元,它允许算法学习长期依赖关系,以及控制存储内容的暴露和根据输入对存储内容进行更改的程度的门。在选择机器学习模型时需要缓解的一些关键技术风险包括数据量不足、数据表示不正确、过度拟合、不正确的超参数选择和丢失数据。
Nature子刊综述:机器学习在神经退行性疾病诊疗中的应用_第2张图片

图2 确定给定问题的最佳机器学习模型。有两个因素与机器学习模型的选择特别相关:数据形式(例如,时间序列或成像)和数据量(数据点的数量)。在小数据量时,需要人工特征和规则化的分类器。随着数据量的增加,可以使用从数据中自动发现特征的学习表示,并且最终不再需要学习表示上的单独的定制分类器。选择与数据类型匹配的正确模型使机器学习能够从数据中提取有意义的表示,该表示可以与各种分类器配对。
4 诊断和预后
在包括AD、PD和MND在内的许多神经退行性疾病中,患者直到46-48岁才会出现症状,这使得早期诊断非常困难。因此,对机器学习模型在早期诊断中的应用的研究正在增长。这些研究的目的是使用机器学习来检测相对容易收集的数据(例如,电子健康记录(EHR)或磁共振数据)中的预后信号,从而能够对老龄化人口进行前瞻性筛查。然后,机器学习驱动的自动诊断可以标记个人进行下一步的临床研究。这种方法需要机器学习模型,这些模型足够灵敏,可以检测早期疾病信号,也足够具体,不会让卫生系统因不必要的后续测试而负担过重。目前,检测结果需要由训练有素的工作人员进行分析和解释,这可能会导致诊断的延误。这些延迟可以通过将机器学习方法应用于在临床中收集的数据来减少。历史健康记录为预后算法提供了有用的训练数据集,因为它们可以覆盖整个疾病跨度。
4.1 神经成像技术
神经成像技术,如CT和MRI,经常用于神经退行性疾病的诊断,而放射学是最早受益于医学计算机化和“智能机器”引入的领域之一。90年代初引入了有监督的基于知识的专家系统,该系统能够根据神经放射学团体收集的大量数据和知识识别大脑中的病理事件。最初的研究使用了临床上相关的诊断特征,如皮质厚度或特定脑区的形态,以对患者进行分类,并帮助放射科医生做出诊断。这种方法被称为计算机辅助诊断,并在整个21世纪初得到继续发展和改进。由于机器学习纯粹以证据为基础,可以公正地分析问题,这种方法有助于对医学图像做出客观诊断,并在速度、精度和准确度方面往往超过训练有素的专业人员的表现。
磁共振成像产生的图像分辨率高于CT。然而,CT的诊断性能可以通过使用机器学习算法来提高。例如,在一项研究中,一种用于自动检测白质病变的随机森林算法被应用于一组来自急性缺血性中风患者的CT图像,其执行方式类似于放射学家标记MR图像。该算法的失败率为4%,平均处理时间不到2分钟,为类似方法扩展到神经退行性疾病的诊断提供了可能性。机器学习可以快速评估图像,因此它可以用于标记在危及生命的场景中需要放射科医生紧急检查的CT图像中的发现。快速图像分析可以扩展到MRI,这可能对患有MCI的人特别有用。
神经成像是研究大脑活动的一种方法。其他监测大脑活动的方法,如脑电(EEG),也可以受益于机器学习驱动的数据分析。脑电数据已被用于区分阿尔茨海默病患者与健康对照或受其他形式痴呆影响的患者,以及检测多巴胺能神经元的功能变化以诊断PD。为了做到这一点,我们分析了大脑不同区域的电活动频率随时间的变化。已经产生了基于人工神经网络的算法,仅使用未经处理的脑电数据来区分AD患者和MCI患者,目的是加快诊断并简化对痴呆症进展的监测。
4.2 运动功能
许多神经退行性疾病,如MND、亨廷顿病(HD)和帕金森病(PD),以运动功能障碍为特征,通常最终导致运动障碍。了解运动性退行性变的进展和时间顺序对于在疾病的每个阶段适当地支持患者是至关重要的。机器学习可以用来以省时的方式评估个人在复杂任务中的表现。将机器学习技术引入写作任务分析,可以帮助对帕金森病患者进行分类,并作为一种诊断工具。
有关运动的数据在AD的研究中很有用。临床医生可以观看患者进行日常生活工具活动(IADL)(例如,洗澡、穿衣和吃饭)的电影片段并手动评分。然而,这种方法可能很耗时,自动化这一过程将对研究IADL的神经学家有重大好处。深度学习和基于CNN的机器学习算法能够从视频片段中识别动作,并且该技术已被应用于IADL记录中的动作识别。然而,使用摄像机监控IADL会影响患者的隐私。诸如随机森林算法驱动的SmartFABER这样的新技术解决了隐私问题,方法是从放置在家里的运动和接触传感器收集数据,将这些数据反馈给安装在个人计算机上的软件,并分析用户的移动和与对象的交互。来自可穿戴传感器的数据也被用于基于机器学习的活动识别。
4.3 分子和基因数据
提高我们对神经退行性疾病的分子基础的了解是开发新的治疗方法以及诊断和预后的关键。下一代测序技术提高了DNA测序的速度,使大量数据能够相对较快地获得。产生的大量基因组数据,特别是在GWAS和其他大型队列研究中,需要一种完善的分析方法,而机器学习技术在这一领域被证明是有用的。已确定138个与AD相关的基因,但该病的特发性及其高度遗传性表明,进一步的遗传风险因素或复杂的遗传交互作用可能在疾病的发生或进展中发挥重要作用。例如,在一项研究中,一种基于监督支持向量机的算法被用来挖掘大脑特定的基因表达数据,目的是识别新的AD相关基因。作者使用了一个包含335个AD相关基因和335个非AD相关基因的训练数据集,这些基因是通过之前的GWAS和其他遗传学研究确定的,并整合了大脑特定基因表达数据来训练分类器以识别AD相关路径。然后,作者使用训练后的算法来识别与大脑特定网络中已知的AD相关基因密切相互作用的基因,并根据AD关联概率对这些新的候选基因进行排序。
应用机器学习来研究患者样本中的蛋白质特征可以帮助发现生物标记物,这反过来可能会改善疾病诊断。在Ray等人2007年发表的一项研究中,一种名为微阵列预测分析的分类算法被用来识别血浆蛋白,当给予一组盲目样本时,这些蛋白可以区分AD患者和健康人。从使用酶联免疫吸附试验评估的120种蛋白质池开始,作者识别了18种信号蛋白,其血液表达水平在AD患者和健康对照组的样本之间区分,准确率接近90%。这18种蛋白也被用来识别在样本收集后2-6年内进展为AD的MCI患者。几年后,在Agarwal等人的一项研究中,用于特征选择和分类的无监督人工神经网络算法被应用于与Ray等人使用的相同的数据集。人工神经网络识别了一组较小的9种蛋白质,而不是18种,这些蛋白质将AD患者与健康对照区分开来,其准确性与Ray等人的发现相似,从而显著节省了经济成本。在这九种蛋白质中,有七种在两项研究中是共同的,而两种是新发现。此外,Agarwal等人还鉴定了一组29种蛋白质,这些蛋白质确定了MCI患者将进展为其他痴呆以及AD患者。类似的研究突出了机器学习方法的进步如何改进和提高疾病分类和预测的准确性,以造福患者健康,以及降低经济成本。
图片

图3 自20世纪90年代以来计算和机器学习技术在神经成像中的关键发展和新应用。20世纪末,人们对机器学习及其在医学上的应用产生了兴趣,这导致了之前耗时的人工分析和测量神经成像数据的自动化。这些人工智能驱动方法的低方差和高重现性使其成为临床环境中使用的有吸引力的工具。
5 治疗进展
许多神经退行性疾病缺乏有效的治疗方法,但这些疾病的临床试验失败率很高,导致大型制药公司撤出投资。例如,在2002至2012年间,对AD的潜在治疗方法进行了400多项临床试验,但只有一种药物获得批准。同样,在过去的20年里,50项治疗MND的药物临床试验都没有显示出积极的结果。利鲁唑和依达拉奉是唯一被批准用于治疗MND的药物,这两种药物在患者生存和功能能力方面都只显示出适度的改善。这些不幸的失败突显了开发治疗大脑疾病的疗法的复杂性,并为药物开发的新方法创造了机会。
5.1 目标识别
神经退行性疾病涉及到大量的机制,这些机制都有助于疾病的病理。例如,在MND中,如RNA代谢、轴突运输、线粒体功能和自噬,都与运动神经元的退化和死亡有关。以彻底、全面和有效的方式探索与这些途径相关的数据的能力是理解疾病的关键,但对科学家个人来说可能是一项挑战。机器学习可以帮助理解这种复杂性,甚至可以预测药物目标。
识别药物目标的一种机器学习方法是在知识图谱上进行关系推理,它将基因、疾病和药物等实体联系起来。知识图谱通常是从多种数据类型的集成中构建的。知识图谱方法可以了解疾病和生物药物靶标之间不明显的联系(例如,根据其与已知在特定疾病中突变的蛋白质的相互作用来识别新的治疗性蛋白质靶标)。单独使用这些方法的一个缺点是,它们在生物关系(例如,不同大脑区域的背景)中可能缺乏粒度,这可能导致预测的特异性较低。这在神经科学中可能是一个特别的问题,不同大脑区域之间基因相互作用网络的差异可能对理解疾病的病理生理和治疗潜力很重要。已经发表了几种关系推断方法,这些方法在包括神经退行性疾病在内的广泛疾病的基准数据集上表现良好。然而,到目前为止,使用这些方法产生的新假设还没有得到科学验证。
5.2 患者分层
临床表现、疾病进展和遗传倾向的异质性通常存在于被诊断为相同神经退行性疾病的个体群体中。这种异质性使得从整个诊断组来研究疾病机制变得困难,因为不同的机制可能对不同的个体的疾病负责,并使确定有效的治疗方法更具挑战性。因此,根据标准对研究参与者进行分层正变得越来越普遍。以此为目的机器学习技术正变得越来越流行,因为可以将个人的整个临床历史和附加数据,包括转录、神经成像或生物标记物表达数据馈送到算法中。使用深度数据进行患者分层的一种方法可能是使用无监督机器学习方法来降低高维标签数据中的维度,并得出患者结果的分类器。这种方法可以识别具有不同亚型或内型的患者,以便进一步研究疾病机制或发展内型特异性治疗策略(图4)。
患者群体的异质性也是临床试验设计的一个问题。结果变量的自然异质性是一个无益的噪声来源,它可能掩盖治疗干预的效果。缺乏生物标志物意味着临床医生经常依靠主观的自我报告的临床测量来诊断和检测对治疗干预的反应。因此,使用机器学习模型对患者进行分层,并从临床和分子数据中识别治疗反应的生物标志物可以提高临床试验的有效性。事实上,患者分层和生物标记物识别是ADNI等大型公共资助数据库的主要目标。
Nature子刊综述:机器学习在神经退行性疾病诊疗中的应用_第3张图片

图4 应用机器学习方法开发和实施神经退行性变的治疗方法。患者分层是一种将不同的患者群体分成特定类型的过程,有助于识别不同的疾病病因以及表征这些疾病的目标或特征。无监督的机器学习算法可以在诊断时提供所有患者信息,以及随着疾病的进展而收集的新信息,以便更好地了解潜在的疾病病因。在治疗过程中,任何重大事件,如不良反应、缺乏反应或与其他药物的交叉反应,都可以输入机器学习算法,以帮助建立对疾病和药物的更好理解,以及每个患者的最佳治疗过程。在药物治疗领域之外,机器学习算法可以为痴呆症患者提供治疗化身,也可以为行动不便的患者提供间接接触点。此外,神经化学人工智能领域正专注于开发新药以及修改和/或重新调整现有药物的用途。
6 结论与挑战
机器学习算法可以识别模式,并从大量多维数据中做出新的推断,这是人类无法做到的。然而,利用机器学习来辅助诊断、预后和治疗的发展仍处于起步阶段。在未来,机器学习技术可能使更精确、更早的诊断神经退行性疾病的病史,分子概况和影像信息,并通过识别更具体的诊断生物标志物。更精确的诊断之后,可以根据患者的内型进行个性化治疗方案。机器学习还可以通过实现有效的患者分层和识别治疗反应的准确生物标志物,从而减少临床试验所需的时间和成本,并增加成功的可能性。机器学习技术的最新进展是由于多中心计划策划的大型多维数据集的可用性增加,通过开源代码和库使机器学习算法民主化,以及高性能计算基础设施的可承受性的提高。
尽管机器学习很有潜力,但创建和应用机器学习算法来处理神经退行性疾病数据仍然很困难。一个挑战与数据本身有关——机器学习模型的强大程度取决于它们所依赖的数据。许多疾病缺乏大数据集,尤其是多维患者数据,这是机器学习应用的障碍。患者数据集通常只包含数十名或数百名患者,由于测量不一致、错误或参与者退出,数据往往很杂;这些因素都使统计分析更容易出错。
需要对机器学习模型的性能进行稳健评估,为任务选择最佳模型,并确保临床医生对模型的输出有信心。对于定义良好的任务,可以在标记的基准数据(即真实的来源)上训练监督模型,并且可以通过比较模型输出和基准数据来评估这些模型的性能。然而,神经学中的许多其他任务,如患者分层,需要不涉及基准数据的无监督模型,这意味着评估模型的性能提出了一个重大的挑战。因此,评估无监督模型的性能需要使用专家的反馈来确定模型输出是否合理,或者输出与其他已知特征(如临床标志物)的相关性。即使对于定义良好的任务,基准测试数据通常也是稀疏的,这意味着模型在基准测试数据上的性能并不一定代表模型在新数据集上的性能。基准数据的稀疏性尤其令人担忧,因为已知一些机器学习模型容易过拟合,这意味着它们针对基准数据,在新数据集上表现不佳。如果机器学习模型不能可靠地推广到新的、看不见的场景,实际应用就会受到限制。糟糕的绩效评估方法也可能导致对结果的过度解读和对因果关系的错误假设。
解决将机器学习应用于神经退行性疾病数据的挑战,需要生物医学和机器学习专家之间的合作。为了应对在一个高度复杂且往往模糊的空间开发机器学习系统的迫切需求,需要更多的跨学科培训项目。将机器学习广泛地集成到医疗保健环境中也将带来一些实际挑战。例如,在诊所实施新系统时,需要考虑到现有卫生保健人员的工作保障和职业发展方面的问题,并且需要以使人员能够适应新技术的方式进行培训。调查医生的观点在临床实践中,人工智能实现医学人工智能系统的商业化和法律、道德、责任的供应商系统中主要的担忧。
总之,机器学习的集成诊断和预后神经病学实践,以及未来疗法的设计,可能是通过国家和国际努力建立多学科组专家解决本评论文章中讨论的一些主要挑战。
参考文献:Applicationsof machine learning to diagnosis and treatment of neurodegenerative diseases

你可能感兴趣的:(脑科学前沿研究/文献解读,机器学习,人工智能,算法)