今天给同学们分享一篇实验文章“Data-driven identification of post-acute SARS-CoV-2 infection subphenotypes”,这篇文章发表在Nat Med期刊上,影响因子为82.9。
结果解读:
图1显示了作者的整体分析流程。使用两个CRN,作者从2020年3月至2021年11月提取了对SARS-CoV-2进行核酸扩增或抗原病毒检测呈阳性的患者的电子健康记录(EHR)。作者编制了一个包含137个潜在PASC诊断类别的列表(方法),只保留了在后急性感染期间有这些疾病新发病例记录的患者。每个患者最初被描述为一个137维的二进制向量,编码了他/她的后急性感染期间是否出现了特定的疾病(步骤1)。接下来,从这些向量中学习了一组“PASC主题”;在这个上下文中,PASC主题指的是一组根据它们的发生概率一起出现的疾病(步骤2)。然后,根据每个主题在他们的后急性期记录中的表示程度,进一步描述了这些主题对患者的特征(步骤3)。最后,通过主题诱导的特征进行聚类分析,以识别亚表型(步骤4)。
作者的研究包括来自INSIGHT和OneFlorida+ CRNs的20,881名和13,724名SARS-CoV-2病毒检测呈阳性的患者(方法)。分析了这些患者在SARS-CoV-2感染后期的国际疾病分类(ICD)-10代码的诊断信息。INSIGHT队列的中位年龄为58.0岁(四分位数范围(42.0-70.0)),中位区域剥夺指数(ADI)为15.0(四分位数范围(6.0-25.0))。其中包括58.37%的女性(n = 12,188),33.59%的白人(n = 7,013)和22.85%的黑人(n = 4,771)。OneFlorida+队列包括中位年龄为51.0岁(四分位数范围(35.0-65.0))的患者,社会经济状况较差,中位ADI为59.0(四分位数范围(42.0-76.0))。其中白人患者比例较高(52.28%,n = 7,175)。
在INSIGHT队列中,从2020年3月到6月,有33.04%的患者被确认感染了SARS-CoV-2病毒(相比之下,OneFlorida+队列为8.83%)。这反映了纽约市在美国COVID-19第一波疫情中的重要性。从2020年7月到10月,OneFlorida+队列中有更多的患者被检测出阳性(26%对比INSIGHT的6%)。这两个队列的摘要统计数据可在表1中找到(更详细的信息请参见附表1)。
作者编制了一个由ICD-10诊断代码和CCSR分类定义的137个潜在与PASC相关的诊断组的列表(附表2)。作者首先通过概率TM(方法)研究了SARS-CoV-2感染确认后30-180天内不同诊断之间的共现模式,该方法最初用于学习具有不同语义主题的文档中的词共现模式。通过这种方法,作者确定了十个独特的“PASC主题”,每个主题都具有在137个个体病况中独特的后急性感染发生率概率分布。
图22显示了从INSIGHT队列中学到的主题热图矩阵。每一列是一个学到的主题,每一行是一个潜在的PASC病症类别(作者在热图中展示了31个,并将其余106个合并,因为它们在任何一个学到的主题中的发生概率都没有超过0.1)。矩阵中的每个条目对应于相应主题中特定PASC病症的发生概率。主题T1、T2和T5主要涉及肌肉骨骼系统、消化系统和神经系统的病症。主题T4、T7和T9包括呼吸系统病症与睡眠障碍、焦虑以及头痛和胸痛等症状。主题T3包括液体和电解质紊乱以及贫血和心脏并发症。主题T6主要涉及肌肉骨骼和皮肤病症,以及头痛和疲劳。主题T8主要包括贫血和消化系统病症。主题T10包含了循环系统病症、肾功能衰竭、液体和电解质紊乱等其他病症的混合。
在确定潜在的PASC主题之后,作者可以使用这些主题描述患有PASC的患者,并根据患者群集(方法)得出潜在的PASC亚表型。具体而言,从INSIGHT队列中确定了四个亚表型。表2总结了它们在基线期间的患者人口统计学特征、医疗利用情况和既往病史以及急性期疾病严重程度(根据医疗利用情况提供更多详细信息,请参见附表3)。在不同的亚表型中,作者展示了特定潜在PASC病症的发病率(图3,数值结果请参见附表4)和药物处方(扩展数据图1)。作者将详细描述这些亚表型如下。
为了研究已确诊SARS-CoV-2感染的患者与未感染患者之间潜在的PASC共同发生模式的差异,作者构建了一个队列,包括那些在医院就诊但SARS-CoV-2检测结果为阴性的患者,并通过严格的匹配过程考虑了患者人口统计学和基线特征。扩展数据图2a定量地展示了在INSIGHT队列中,对于SARS-CoV-2感染呈阳性和阴性的患者,数据可以如何根据不同主题数量进行建模。作者观察到,对于表征SARS-CoV-2检测结果为阴性的患者,需要更多的主题数量。此外,作者计算了从SARS-CoV-2感染呈阳性和阴性患者中学习到的主题之间的相似性,并在扩展数据图3c中以热图的形式展示。从中作者可以观察到,从COVID-19阳性和COVID-19阴性患者中学习到的主题彼此之间并不相似。为了进一步研究学习主题在个体条件上的集中模式,作者计算了每个主题向量的熵值,较高的熵值表示较少的集中模式,即每个主题向量中的概率值更均匀地分布在个体条件上。附表6展示了从SARS-CoV-2感染阳性或阴性患者中学习到的每个主题的详细熵值,作者可以观察到从SARS-CoV-2感染阴性患者中学习到的主题显示出较高的熵值,与从阳性患者中学习到的主题相比。这些调查结果表明,与测试阴性的匹配患者相比,随访期间的病情发生模式更不明确,即这些病情更随机地出现,没有明显的共同发生模式。这进一步加强了作者确定的潜在PASC亚型的有效性,因为它们是特定于SARS-CoV-2感染阳性患者的。
作者还绘制了137种潜在PASC病情的后急性共同发生率矩阵的热力图,其中包括每个亚表型中患者及其匹配对照组的数据,见附图1。作者观察到,与其匹配对照组相比,这些PASC亚表型的患者与PASC病情的共同发生率更高。作者进一步在图4中可视化了28种选择的潜在PASC病情的网络模式,这些病情在任何PASC亚表型中的发生率大于1%,其中每个网络中的节点代表特定的潜在PASC病情,其大小与相应组的患者记录中的发生率成比例。连接一对节点的每条线表示这对潜在PASC病情的共同发生,其粗细与相应组的共同发生率成比例。图4显示,用于描述每个PASC亚表型的病情明显与较大的节点相关,代表较高的发生率。对于具有匹配对照组的组别,节点大小没有明显差异。作者还观察到PASC亚表型之间的连接更加密集,这表明潜在的PASC病症并非独立出现,而是集体出现,并且那些更大的节点包含更多相互连接的网络中枢。
作者迄今为止的分析是基于从现有文献和临床医生的输入中编制的一个包含137种潜在PASC病症的全面列表。对于特定的患者队列来说,要保证在随访期内所有这些病症都与SARS-CoV-2感染呈阳性和阴性的患者的发病率过高相关是具有挑战性的,因为人群异质性和电子病历中信息获取的不完整。TM的一个关键特点是它可以有效地抑制电子病历中发病率较低的病症的影响,并更加关注常见的病症(图2)。然而,如果只考虑那些与SARS-CoV-2感染呈阳性的患者相比,与SARS-CoV-2感染呈阴性的患者相比,在随访期内与统计学上显著过高风险相关的病症,亚表型是否会发生变化仍不清楚。
作者在一组更为严格的PASC条件中检验了已确定的PASC亚表型的稳健性。具体而言,通过高维倾向性评分(PS)调整流程 20,21 和对PASC的现有研究 10,21,22 ,作者在INSIGHT队列中确定了44种PASC条件(附表7),这些条件在随访期内对于SARS-CoV-2感染呈阳性与阴性的患者来说,风险显著增加。然后,作者基于这44种PASC条件实施了相同的亚表型划分过程。最后,作者量化了这些新得到的亚表型与图3中显示的亚表型之间的交集程度。
附图2a展示了从这个限制条件集中学到的PASC主题,其中最佳主题数量是根据附图2b确定的。作者进一步用余弦相似度定量比较了这些主题和从图2中显示的137个PASC条件学到的原始主题集,其结果显示在附图2e中作为热图,表明它们之间非常相似。附图2c显示了这些新派生的亚表型内的主题分布。最后,附图2d定量衡量了从44个和原始的137个PASC条件中识别出的亚表型之间的交集,结果显示超过90%的患者将保持在相同的亚表型中。这证明了PASC亚表型分类的稳健性。
作者在OneFlorida+队列上重复了图1所示的相同亚表型过程。扩展数据图4显示了所有学习到的潜在PASC主题的热图,作者可以看到主题集中在肌肉骨骼系统(T1)、消化系统(T2)、神经系统(T5)以及与呼吸系统和血液/循环系统疾病混合的主题(T3),还有头痛和睡眠-觉醒状况(T7)。一些主题还包括多种诊断的混合。例如,T9包括喉咙/胸痛以及呼吸/心跳异常;T6是肌肉骨骼疼痛、头痛、不适和疲劳以及皮肤感觉异常的混合;T8和T10包括电解质/液体紊乱和贫血/心律失常;T4包括涉及消化、神经和呼吸系统的后遗症的组合。作者定量评估了从INSIGHT和OneFlorida+队列学习到的主题之间的两两相似性(方法),并在扩展数据图5中可视化了结果,显示了从两个队列学习到的主题之间的一对一对应关系。
扩展数据图。图66和图77显示了OneFlorida+队列中后急性感染期不同亚表型中PASC病症和药物处方的发病率,更多详细信息请参见附表8和附表9。结果显示,亚表型1主要由偶发的心脏和肾脏病症组成,其中包括25.43%的年龄较大的患者(中位年龄为62.0岁,IQR为49.0-74.0),男性比例最高(46.93%,相比整体人口的38.29%),住院率最高(57.34%,相比整体的36.69%),机械通气率最高(8.57%,相比整体的3.39%)和重症监护入院率最高(12.52%,相比整体的6.07%)。这种亚表型与潜在疾病的患病率较高以及治疗循环系统、血液和内分泌疾病的药物处方较多相关。亚表型2主要由偶发的呼吸系统病症、睡眠障碍和焦虑症组成,是最大的亚表型,包含5,281名患者(占38.48%),中位年龄为47.0岁(IQR为33.0-61.0)。这个亚表型在基线时有更高的呼吸系统疾病患病率,包括慢性阻塞性肺疾病、肺炎和上呼吸道疾病,并且在后急性感染期有更高的呼吸系统药物处方率。亚表型3主要表现为肌肉骨骼和神经系统的发病情况。其中包括3,205名(占总数的23.35%)患者,中位年龄为48.0岁(IQR(33.0-61.0)),急性期住院率最低(27.8%)。这个亚表型在基线时有更高的肌肉骨骼和结缔组织疾病以及哮喘的患病率,并且在后急性感染期有更多的疼痛药物处方,包括氯胺酮和布洛芬。亚表型4主要表现为消化系统和呼吸系统的偶发疾病。它是年龄最小的亚表型(中位年龄46.0岁(IQR(32.0-60.0)),患者数量最少(1,748名,占总数的12.74%),女性比例最高(67.11%,相比总体的61.70%),急性期机械通气率最低(0.97%),重症监护入院率最低(2.8%)。这个亚表型与消化系统疾病的基线负担更高以及更多针对消化系统的新处方药物有关。这些观察和特征与INSIGHT队列中确定的亚表型高度一致。此外,作者还在附表10中提供了关于每个亚表型的性别分析结果,涉及患者人口统计学特征、基线和急性感染阶段的医疗利用情况、潜在疾病患病率以及新发PASC发病率。
作者还使用OneFlorida+队列中对SARS-CoV-2感染测试结果为阴性的匹配患者进行了对照分析。与INSIGHT队列中的观察结果类似,需要更多主题来描述SARS-CoV-2感染测试结果为阴性的患者(扩展数据图2b)。这些主题与SARS-CoV-2感染测试结果为阳性的患者学习到的主题不相似(扩展数据图3d),且具有较少的集中模式(附表6)。137种PASC病症和28种选定病症的共现模式对比结果显示在附图3和扩展数据图8中,这些结果与INSIGHT队列的观察结果高度一致。
总结
总之,作者的研究通过使用机器学习,将SARS-CoV-2感染确认后30-180天内新发病情的复杂性和异质性分解为四个可重复的亚表型,基于两个大型临床研究网络的电子健康记录库。这些发现对于临床医生和卫生系统在制定满足PASC患者需求的护理模式方面可能是有用的。对这篇文章的思路感兴趣的老师,欢迎咨询!