使用机器学习方法预测退行性颈椎病手术后的预后

使用机器学习方法预测退行性颈椎病手术后的预后

Using a machine learning approach to predict outcome after surgery for degenerative cervical myelopathy

提出基于机器学习的分类模型,来预测病人退行性颈脊髓病DCM的术后结果。

摘要

退行性颈脊髓病(DCM)是一种脊髓疾病,导致颈椎脊髓的渐进性非创伤性压迫。脊柱外科医生必须考虑与疾病表现、影像学特征和患者特征相关的大量信息,以确定患者是否能从DCM手术中获益。我们应用了一种有监督的机器学习方法来开发一个分类模型来预测DCM术后患者的个体结果。作为AOSpine CSM-NA或CSM-I前瞻性多中心研究的一部分,接受DCM手术的患者被纳入分析。在757例患者中,605例、583例和539例患者分别在6月、12月和24月有完整的随访信息,纳入分析。主要结果是SF-6D生活质量指标评分通过最小临床重要差异(MCID)得到改善。次要结果是MCID改良日本骨科协会(mJOA)评分的改善。预测变量反映了术前疾病严重程度、疾病表现、患者人口特征和共病的信息。采用特征工程、数据预处理和模型优化的机器学习方法,建立最准确的DCM术后预后预测模型。数据预处理后,分别在6、12和24个月选取48、108和101个特征进行模型训练。表现最好的预测模型使用随机森林结构,其平均曲线下面积(AUC)为0.70,分类准确率为77%,在未用于模型训练的测试队列上评估的敏感性为78%。术前疾病严重程度较差、DCM症状持续时间较长、年龄较大、体重较高和当前吸烟状况与较差的手术结果相关。我们开发了一个模型,在独立的测试队列中预测DCM的阳性手术结果,在个体患者水平上具有良好的准确性。我们的分析证明了机器学习在脊柱外科预测建模中的适用性。

材料与方法

患者群体

患者需要符合以下资格标准:
1)年龄为18岁;
2)有症状的DCM,伴一种或多种脊髓病征象;
3)颈脊髓压迫的影像学证据;
4)既往无颈椎手术。
排除标准为无症状DCM、活动性感染、肿瘤疾病、类风湿性关节炎、创伤、强直性脊柱炎或合并腰椎管狭窄。所有入选的患者都接受了颈椎手术减压,包括或不包括器械融合。

数据预处理和特征工程

丢失的数据有两种处理方法。对于超过5%的数据缺失的特征,整个特征被排除。对于缺失数据小于5%的特征,采用k-最近邻算法(kNN)对缺失数据进行归因。将所有样本绘制在一个111维特征空间中,并对每个样本识别出10个具有最小欧氏距离的邻居。然后通过计算10个邻居的平均值来推算缺失值。对数据进行预处理,为分类特征创建虚拟变量,对有序特征和连续特征进行定心和缩放。
采用递归特征消去法进行特征选择。生成以SF-6D改进为结果的随机森林模型,并记录均方根误差(RMSE)。特征的重要性是通过计算使用每个特征的树的数量来确定的,最重要的特征会被剔除。然后用剩余的特征生成随机森林模型,并不断迭代,直到所有特征被消除。产生最低RMSE的特征集被选为最终特征集。数据集被分成训练/验证和测试数据集。数据被分割,使训练/验证和测试数据集之间的类频率相等。

模型选择

模型选择、培训和测试是使用RStudio™和用于机器学习功能的Caret包完成的。
初始模型选择是通过比较随机森林、支持向量机、逻辑回归、简单决策树和人工神经网络模型,使用所有的特征,并以SF-6D的改进作为结果。为了进行初始模型比较,使用了4次重复交叉验证。随机森林、支持向量机、logistic回归、决策树和人工神经网络模型使用了Caret包提供的默认超参数。

结果

数据预处理

757例患者因随访信息不完整而被排除,6个月随访605例,12个月随访583例,24个月随访539例。6个月随访数据集的基线特征如表1所示。
为分类特征创建了不同数量的虚拟变量,使得所有分类特征只有两个类。术前保险信息缺失值大于5%,与保险相关的特征被排除。所有其他特征要么没有缺失值,要么缺失值小于5%。然后采用k近邻算法对剩余特征中的缺失值进行补全。最后,将序数变量和连续变量居中并缩放到均值为0,标准差为1。这就留下了111个特征需要在模型选择和特征工程中进行。

模型选择

111个特征进行模型选择,SF-6D评分得到改善。使用6个月、12个月和24个月的数据集训练随机森林、支持向量机、逻辑回归、简单决策树和人工神经网络模型。四种模型的拟合和性能比较见表2。随机森林模型在所有时间点上表现最好,在6个月、12个月和24个月的receiver operating characteristic curve (AUC)下面积分别为0.64、0.68和0.7。随机森林模型在所有时间点上也表现出了最佳的预测性能,在6个月、12个月和24个月的准确率分别为70%、71%和69%。因此选择随机森林模型进行进一步优化。

介绍

退行性颈脊髓病(DCM)是一种脊髓疾病,导致颈椎脊髓的渐进性非创伤性压迫[1,2]。DCM是全球脊髓功能障碍最常见的原因,可导致患者生活质量和功能的显著损害。手术减压是改变DCM病程的首选治疗方法,已被证明可以改善大多数但不是所有患者的功能预后和生活质量。事实上,DCM手术患者改善程度的可变性是惊人的[4-8]。
选择将受益于DCM手术的患者,需要考虑与疾病表现、影像学特征和患者特征相关的大量信息。以往的研究使用经典回归模型将术前临床因素与手术结果联系起来,并确定了良好手术结果的预测因素[9-11]。更长时间的DCM症状和更严重的脊髓病被认为是更糟糕的手术结果的最重要的预测因素[6,12]。
机器学习是一种将计算机科学和统计学结合起来的数据建模方法,其目标是提供最大的预测准确性。近年来,许多研究将这些新的分析工具应用于临床数据库,以预测各种疾病和治疗结果,包括动静脉畸形放疗、儿童急性淋巴母细胞白血病和蛛网膜下腔出血[13-15]。这些研究表明,机器学习技术比传统统计方法具有更高的预测能力和鲁棒性。
在本研究中,我们的目的是应用监督机器学习方法来开发一个分类模型来预测DCM术后患者的个体预后。第二个目标是使用机器学习方法来识别与良好手术结果相关的因素。

你可能感兴趣的:(论文阅读,机器学习,r语言,人工智能)