Predicting risk of stillbirth and preterm pregnancies with machine learning
Aki Koivu1* and Mikko Sairanen2
死产的定义是婴儿出生后没有生命迹象的门槛约20-22周的妊娠。早产儿(PTB)是指妊娠37周前分娩的妊娠。已被提出的评估死产风险的风险模型从受试者工作特征曲线(ROC)来看,孕产妇人口统计学数据的预测效果在0.64 - 0.67之间,当添加生物物理变量时,预测效果为0.82。这些模型基于高度相似的产妇人口统计和医疗历史,也依赖于经典的线性统计模型,决策边界是线性的。
在这项研究中,我们利用最先进的机器学习方法来预测早期死产、晚期死产和早产怀孕。该实验目的是发现新的风险模型,可用于临床设置。使用近1600万份CDC数据集进行特征选择、参数优化和模型验证,另一个NYC数据集用于外部验证。采用逻辑回归、人工神经网络和梯度推进决策树等算法构造分类器。实验还验证了这些分类器的集成学习策略。使用外部NYC测试数据时,表现最好的机器学习模型获得了早期死产0.76、晚期死产0.63和早产0.64的AUC。
关键词:风险预测 死产早产 机器学习
二、方法
1. 数据集
CDC数据集2013 - 2016年美国婴儿出生和死亡数据集包含怀孕数据。在15 976 537例怀孕中,15 883 784例为活产,92 753例为婴儿死亡。这相当于以婴儿死亡结束的怀孕的总患病率为0.58%。而1,532,538例活产为PTB分娩,患病率为9.6%。
NYC数据集是纽约市健康和心理卫生部门提供的包含2014年至2016年怀孕情况的出生数据集,在总共364,124名孕妇中,有363,560名是活产,有564名在创造记录时被报告为无生命。这相当于以婴儿死亡告终的怀孕的总患病率为0.15%。在活产中,PTB分娩31,600例,患病率为8.7%。目的是进一步评估使用CDC数据创建的预测模型。
2. 数据预处理和变量选择
该数据集包含的变量要么是无法用于预测建模的,例如出生时间,要么是用于确定不完整国家报告的旗帜等功能变量。根据文献[11,25,29,33]和实用主义推理进行初始变量选择,将有意义的人口统计学、危险因素和感染预测变量减少到26个。
将CDC数据划分为4组;特征选择数据、训练数据、验证数据和测试数据。特征选择数据单独用于特征变量分析,训练数据用于模型训练,验证数据用于正则化和模型训练时的早期停止,测试数据与NYC数据集一起用于最终模型评估。为了维持结果变量的类别分布,分别使用10%、70%、10%和10%的类别分层随机分割。
采用相关分析和单变量分析来确定最终的变量集。在相关分析中,采用Pearson相关系数对所有可能的预测变量进行线性相关性分析,由于高度相关的预测变量对因变量[8]具有相同的影响,因此其中一个相关性小于−0.5或大于0.5的变量被排除。这是基于中等相关性[21]的定义。这减少了数据的冗余,并产生了更健壮的模型。使用相关分析来确定机器学习模型的最终预测集。
本研究采用Logistic回归(LR)、梯度推进决策树(GBDT)的(LGBM)版本和两种人工神经网络(ANN)模型进行风险预测。
不损失大量准确性的情况下大幅提高执行速度。反复实验后,叶子的数量设为48,在一片叶子中观测到的最少数据数为500,树模型的最大深度不受限,收缩率设置为0.001,feature和bagging设置为1,选择梯度增强算法为梯度增强决策树。最大迭代被设置为2000,并且在500次迭代后停止。
SELU网络选择了4个隐藏层,每层隐含节点个数为输入变量个数,每一个都能激活SELU。这些节点的α-dropout设置为15%,使用LeCun正常权重初始化,采用0.001学习率的Adam梯度下降优化更新权值,采用Sigmoid激活函数作为最终节点进行二进制分类。当batchsize=256,epoch=10时测试为最优。
对于晚期死产、早期死产和PTB的病例分类,构建了正常妊娠与病例的二元分类器。由于类不平衡,类权值w由训练数据集计算
w = s/(c ∗ f (y))
s为样本数,c为不同类别的数量,f(y)为数据标签y中类别出现的频率。利用分区测试集和NYC数据集对分类器的性能进行测试,通过ROC曲线估计临床显著假阳性率(FPR)的真阳性率(TPR)。
采用平均和加权平均(WA)集成学习策略对同一案例的不同模型进行实验,考察不同先验条件和假设条件下的模型是否能够相互补充形成更好的预测。在平均集成中,对多个模型的预测概率进行平均,创建一个新的集成预测。在WA中,如果y是不同模型产生的一组概率,α是一组权重,则加权和y用
以非负值的结果向量加起来100%为条件,采用穷举网格搜索方法计算所有可能的WA权值组合,最大化预测AUC。
性能指标是AUC,TPR at 10% FPR。
R 和Python作为统计分析和建模的工具。
R包: readr用于读取数据集文本文件,caret包用于读取数据分区。
Python包: scipy和pandas用于数据管理,scikit-learn用于逻辑回归。该实现具有基于进程的并行性,使其在多个CPU核上并行执行。对于ML建模,使用tensorflow结合keras对神经网络进行建模。使用lightgbm 包实现了梯度推进决策树。它具有多线程的bagging功能,因此计算可以从多个CPU核中受益。
基于gpu的计算使用的是Nvidia生产的RTX 2080 TI,Intel Xeon E5-1603处理器。
三、实验结果
相关分析
图1显示,母亲的BMI和体重是高度相关的(0.94),不孕药物和辅助生殖技术(ART)的使用与不孕治疗相关(0.68和0.67),由于数据是不确定的,我们只能推测潜在的影响,所以三个不育相关的变量被包括在特征集。没有发现其他显著的相关性,也就是其他特征相关性小于−0.5或大于0.5。
图一:特征变量的皮尔逊相关矩阵
单变量分析
Logistic单因素分析显示,26个预测变量中,p < 0.05具有统计学意义的优势。
图二:单变量分析结果,每个被选择的结果变量被突出显示
预测结果
在三个病例分类中,早期死产分类总体表现最好。所有模型都能够在外部NYC数据集中实现类似的性能;晚期死产分类表现最差,所有模型在NYC数据集上的表现都略差。
在所有二值分类任务中,SELU网络的性能都优于深度神经网络。由于模型之间的相似性,仅采用SELU网络作为集合。在CDC和NYC数据的早期死胎和PTB分类任务中,平均集成模型的表现与最佳模型相似。对于晚期死产,其AUC为0.63,TPR为NYC预测的最佳个体模型。在CDC病例中,AUC与最佳个体模型相当,但10% FPR时TPR增加1%。
对于CDC测试数据的所有结果,WA集合的表现与最佳模型相似。根据NYC的数据,早期死产和PTB的结果也是如此。然而,晚期死产模型在10% FPR时实现了26%的显著TPR增长,而第二好的LGBM TPR为22%。在这个集成中,logistic回归的权重为0.0,SELU网络的权重为0.2,LGBM的权重为0.8。总体而言,集成模型在早期死产和PTB预后方面没有显著提高。晚期死产是受益于集成学习的唯一结果。图3中的权重网格搜索显示,当权重改变时,只有当早期死产和PTB模型反应更迟钝时,才显示出一些影响。所有模型结果汇总见图三,图四。
图三:CDC试验数据的模型结果
图四:NYC试验数据的模型结果
结论:
机器学习模型作为工具生成风险预测模型,比多变量logistic回归模型具有更高的临床预测能力。作为对照,表示当前的标准方法。
此外,跨越三种算法的集成模型进一步改善了晚期死产的性能。在所有病例条件下,使用CDC测试集,我们能够提高性能,TPR为10% FPR, AUC平均分别提高3%和0.02。对于外部NYC数据集,这种改善是可重复的,采用ML方法,TPR平均提高4%,AUC提高0.02。
对于早期死产,SELU网络表现最好;晚期死产,平均集成表现最好;对于PTB, LGBM和SELU网络表现最好。
与其他已发表的模型相比,我们的模型对晚期死胎表现出相似的性能。对于PTB,由于外部验证,我们能够达到类似的表现,但没有过拟合的实验证据。目前没有发布早期死产预测的早期模型,这显得我们的SELU网络还是不错的。
本研究中使用了算法的多类实现,即一个模型预测所有四个类,但实验中再预测晚期死产和早期死产分类方面表现较差。有人怀疑,研究数据中类别不平衡分布导致更倾向于两个比例最大的类别(正常妊娠和PTB妊娠),
增加晚期死产风险的变量有大龄和高BMI,有不良反应的妊娠史,各种并发症和ART妊娠。
与死产相比,早产有个很大特点:已知约25-30%的PTB病例与传染性疾病有关。
此外,文化程度提高也能对降低不良妊娠。
SELU网络实验中显示,添加的隐藏层超过4层的话并没有太大改善,用无论大小的epochs , 更小的batch sizes,也没有什么改善,有可能是数据集中大量的类别不平衡导致的原因,但需要实验来佐证。
LGBM对模型的训练经常在500次迭代之后就停止了,这表明超过这个范围,验证数据的性能会开始降低。
未来走向:
本研究中使用的机器学习模型为添加生化和/或生物物理标记物进一步提高这些风险模型的敏感性和特异性提供了坚实的基础。