统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章

欢迎报名2023年郑老师团队系列科研统计课程!

2023年郑老师多门科研统计课程:含孟德尔随机化方法

最近看了篇2区的文章,中国学者发表的,统计学方法是倾向得分匹配与预测模型都有。我就纳闷了,倾向得分和预测模型好像从来没有勾结搭背的场景呀。于是瞅一瞅。

各位看官先看看文章,我们文章末尾再论一论!

2023年7月16日,中国学者在Front Endocrinol (Lausanne)(二区,IF=5.2)发表题为:Prognosis prediction and comparison between pancreatic signet ring cell carcinoma and pancreatic duct adenocarcinoma: a retrospective observational study 的研究论文。

这项研究患者的数据来自1998年至2018年监测、流行病学和最终结果(SEER)数据库。通过倾向评分匹配(PSM)、Kaplan–Meier生存曲线、Cox风险回归分析和最小绝对收缩选择算子(LASSO)分析,根据这些分析结果构建了列线图,以预测PSRC和PDAC患者的生存结果。 结果表明,PSRC和PDAC患者在相同条件下的预后相似;然而,PSRC患者可能更难接受更好的治疗,从而导致其预后不佳。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第1张图片

摘要与主要结果

一、摘要

背景:胰腺印戒细胞癌是一种罕见的侵袭性癌症,主要作为病例报告。由于有限的大规模流行病学和预后分析,在缺乏公认的一线治疗策略的情况下,PSRC患者的结果差异很大。本研究旨在比较PSRC和胰腺导管细胞癌(PDAC)的临床特征、治疗和预后,并建立这些亚型的预测模型,PDAC是癌症最常见的亚型。 

方法:1998年至2018年PSRC和PDAC患者的数据来自监测、流行病学和最终结果(SEER)数据库。此后,通过倾向评分匹配(PSM)、Kaplan–Meier生存曲线、Cox风险回归分析和最小绝对收缩选择算子(LASSO)分析,评估两组的临床、人口统计学和治疗特征以及两组的差异和影响因素。接下来,构建预后模型,并通过KM和ROC分析进行验证。最后,根据这些分析结果构建了列线图,以预测PSRC和PDAC患者的生存结果。

结果:本研究共纳入84789名患者(432名PSRC患者和84357名PDAC患者)。研究结果显示,与PDAC患者相比,PSRC患者更有可能是男性,年龄在58~72岁之间,肿瘤肿块较大,不太可能接受化疗。PSM前,PSRC组的总生存率和癌症特异性生存率显著低于PDAC组,但PSM后两组的预后无差异。此外,淋巴结比(LNR)、淋巴结阳性对数比(LODDS)、肿瘤大小、年龄、t分期、婚姻状况和总分期是PSRCC的独立预后因素 。最后,基于这些预后因素的预测模型和列线图可以在SEER数据集和外部验证数据集中准确预测患者的生存率 

结论:PSRC和PDAC患者在相同条件下的预后相似;然而,PSRC患者可能更难接受更好的治疗,从而导致其预后不佳。

二、研究结果

1.PSRC和PDAC基线临床特征的比较

该研究共纳入了来自SEER数据库的84789例患者(432例PSRCC和84357例PDAC)(图1)。PDAC组和PSRCC组之间的一些基线临床特征存在显著差异(p <0.05);例如,与PDAC患者相比,PSRCC患者更可能是男性(59.7% vs. 51.7%, p = 0.001),年龄在58-72岁之间(50.5% vs.44.7%, p = 0.018)。此外,与PDAC组相比,PSRCC组在“诊断年份”类别中“>2009”组的比例较低(49.3%比60.5%),而“≤2004”组的比例较高(26.9%比17.4%)(p <0.001)。此外,与PDAC组相比,PSRCC组接受化疗的患者比例更低(p <0.001)。此外,在肿瘤特征方面,PSRCC患者比PDAC患者更常见较大的肿瘤肿块(p = 0.001)。此外,PSRCC患者远端肿瘤总分期(58.1% vs. 43.6%, p <0.001)和肿瘤分级3期(39.4% vs. 14.1%, p <0.001)的百分比高于PDAC患者。两组患者TNM分期差异有统计学意义(p <0.005)。然而,一些变量,如原发部位、LNR、LODDS、手术/放射序列治疗、放射治疗、序列号、肿瘤总数、种族、婚姻状况和家庭收入中位数,在两组之间相似。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第2张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第3张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第4张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第5张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第6张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第7张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第8张图片

2.PSM和生存分析

PSM用于平衡PDAC和PSRC组之间的基线临床特征(所有标准偏差≤0.05;表1),在PSM分析后,共有862名患者(431名PSRC和431名PDAC患者)被纳入本研究。

PSM分析后,对PSRC和PDAC患者进行KM生存分析。在PSM之前,共有85289名患者参与了分析,PSRC和PDAC组的中位OS分别为3个月和6个月,而中位CSS分别为4个月和7个月。与PDAC组相比,PSRCC组的预后较差,1年、3年和5年OS发生率分别为21.60%对30.10%、6.35%对8.12%和4.95%对4.76%,1年和3年CSS发生率分别分别为25.97%对33.59%、8.60%对10.11%和7.10%对6.47%,p<0.001;图3A、B)。然而,PSRC和PDAC组的PSM后OS和CSS与这些结果不一致。PSM后,PSRC组和PDAC组的OS中位数分别为3个月和4个月,CSS中位数分别为4个月和5个月。此外,两组的OS和CSS发生率相似,1年、3年和5年OS发生率分别为21.65%对26.32%、6.37%对5.74%和4.96%对2.90%,p=0.015,1年和3年CSS发生率分别分别为26.03%对28.62%、8.62%对6.48%和7.11%对3.60%,p=0.054;图3C、D)。尽管PDAC患者在PSM前的预后似乎比PSRC患者好,但PSM后的结果表明,在排除人口统计学信息、肿瘤特征和治疗信息的影响后,两种病理类型的预后没有显著差异。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第9张图片

3.单变量和多变量分析 

进行单变量和多变量Cox回归分析,以确定可能影响PSRC患者预后的潜在临床特征。单因素回归分析显示,原发部位、LNR、LODS、手术/放疗、放疗、化疗、肿瘤大小、婚姻状况、年龄、总分期和TNM分期是PSRCC患者OS和CSS的预后危险因素。此外,序列号是PSRCC患者OS的预后因素(p<0.05)(图4)。

多元回归分析显示,较高的LNR('>0.6'vs.'0.1-0.6',OR(95%CI)3.38(1.42~8.05),p=0.0 0 6),LODS较低(“≤-1.1 L vs.”-1.1–0.2“,OR(95%CI)4.27(2.11–8.64),p<0.001),肿瘤大小较小(“≤35 vs.”35-45“,OR)1.48(1.1–1.99),p=0.009),年龄较大(“≥73”vs.“≤57”,OR(95%CI)1.28(1–1.63),p=0.047),T分期较高(“T3”vs.”T0\/Ti\/TX“,O R(95%CI)1.63(1.06–2.52),p=0.028)是与PSRCC患者OS相关的独立危险因素。此外,化疗(“是”与“否/未知”,OR(95%CI)0.33(0.26–0.43),p<0.001),婚姻状况(“已婚”与“DSW”,OR)0.78(0.61–1),p=0.046),和区域肿瘤(“区域”vs“远处”,OR (95% CI) 0.61(0.42-0.89), p = 0.01)被确定为与PSRCC患者OS相关的5个独立保护因素(图5)。

同时,胰腺体癌症(“体”与“头”,OR(95%CI)1.41(1–1.97),p=0.047),较高的LNR(“>0.6”与“0.1–0.6”,O R(95%CI”)4.85(1.79–13.1),p=0.002),较低的LODS(“≤-1.1”与“-1.1–0.2”,OR,p=0.003)被确定为与PSRCC患者CSS相关的独立风险因素。此外,化疗(“是”与“否/未知”,OR(95%CI)0.32(0.24–0.41),p<0.001)和区域肿瘤(“区域”与“远处”,OR)0.65(0.44–0.97),p=0.036)被确定为与PSRCC患者CSS相关的独立保护因素(图5)。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第10张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第11张图片

17dec8e99790eda6463335228fe319a2.png

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第12张图片

4.PDAC和PSRCC的OS和CSS预测模型的构建

基于单因素分析筛选的PDAC/PSRCC预后因素,采用LASSO回归分析构建预测PDAC/PSRCC OS和CSS模型。OS(图6A、B)和CSS(图7A、B)的预测模型是通过整合重要的预后因素和组信息构建的。经过10倍交叉验证,OS和CSS模型的最佳l值分别为0.0195和0.0198。最后,为OS预测模型确定了11个预后因素,包括LODS、年龄、肿瘤大小、组、Tstage、原发部位、婚姻状况、总结阶段、放射治疗、化疗和序列号(图6A)。

此外,根据风险评分对862名经PSM筛查的患者进行生存分析,OS模型的最佳临界值确定为-0.586。之后,根据最佳临界值将患者分为高风险组和低风险组。两组患者的KM曲线分析显示,OS模型可以预测预后良好或不良的患者。高风险组的OS比低风险组短(HR(95%CI)3.41(2.90–4.02),p=3.1e-54;图6C)。同样,根据中位风险评分,患者可分为高评分组和低评分组,生存分析显示,高评分组的OS比低评分组短(HR(95%CI)3.26(2.82–3.77),p=9.5e63)。时间依赖性ROC分析显示,1年、3年、5年、7年和9年OS预测的风险评分AUC值为0.83,分别为0.84、0.86、0.84和0.82(图6D)。  

同时,CSS预测模型确定了9个预后因素,包括LODS、年龄、肿瘤大小、T分期、原发部位、婚姻状况、放射治疗、总结分期和化疗(图7A)。有趣的是,OS预测模型中包含的因素也包含在CSS预测模型中。同样,在KM分析中(图7C),根据最佳临界值(3.616;HR(95%CI)3.23(2.72–3.85),p=7.9e-44)或中位风险评分(HR(95%可信区间)3.24(2.78–3.78),p=5.2e-56),高风险组的CSS比低风险组短。在CSS预测模型中,预测1年、3年、5年、7年和9年CSS的风险的AUC值分别为0.83、0.84、0.86、0.84和0.82(图7D)。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第13张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第14张图片

5.OS和CSS预测模型的验证和可视化

为了验证预测模型的预后性能,使用湘雅二医院的90名PDAC或PSRC患者作为验证数据集。图8A、B分别显示了外部验证数据集中OS和CSS的KM生存曲线。患者的OS和CSS生存结果存在显著差异(OS p=0.01,CSS p=0.02)。ROC曲线用于评估外部验证数据集中风险评分模型对患者预后的敏感性和特异性。结果显示,OS的曲线下面积(AUCs)在3个月、6个月和12个月时分别为0.76、0.76和0.66(图8C)。外部数据集中3个月、6个月和12个月的AUC分别为0.76、0.76和0.66(图8D)。但由于没有存活时间超过20个月的患者,3年和5年的AUC无法计算。总体而言,OS和CSS的AUCs显示出预测模型的良好预后能力。

我们的研究中使用了诺模图和校准曲线来说明预测模型(分别见图9A-D),并提高了其实用性。通过LASSO回归分析获得的预后因素进一步进行COX分析,并使用R包“rms”整合生存时间、生存状态和特征评分,建立列线图并绘制校准曲线。从总点轴到两个结果轴的垂直线使我们能够预测PSRC和PDAC患者的1年、3年和5年OS或CSS的预后(图9A,C)。OS和CSS预测模型的总体C指数分别为0.762(95%CI 0.746–0.779,p=1.6e-212)和0.760(95%CI 0.7 43–0.777,p=1.3e-188)(图9B,D)。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第15张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第16张图片

设计与统计学方法

一、研究设计

P(Population)研究对象 :1998年至2018年来自监测、流行病学和最终结果(SEER)数据库PSRC和PDAC患者的数据。

E(exposure)暴露因素两组的临床、人口统计学和治疗特征以及两组的差异和影响因素。

O(Outcome)结局:SRC和PDAC患者的生存结果。

S(Study design)研究类型队列研究

二、统计方法

1.初步数据处理

对于数据处理,人口统计信息被记录为性别(男性或女性)、种族(白人、黑人或其他人/未知)和婚姻状况(单身、已婚、离婚/分居/丧偶(DSW)或未知)。肿瘤特征记录为组织学类型(PDAC或PSRCC)、原发部位(头部、身体、尾部或导管)、肿瘤总数(1-5)、肿瘤分级(1、2、3、4或未知)、TNM分期(T分期:T0\/Ti\/TX、T1、T2、T3或T4;N分期:N0、N1、N2或NX;M分期:M0、M1或MX)、总结分期(远处、局部、区域或未知),序列号(仅一个原色或2个或多个原色中的第一个原色)。最后,治疗信息记录如下:手术/放射序列治疗(有或无放射和/或手术)、化疗(有、无或未知)和放射治疗(有、否或未知)。

X-tile软件(v3.6.1)用于计算将连续变量(诊断年份、诊断年龄、肿瘤大小、LNR和LODS)转换为分类变量的最佳截止值。变量“诊断年份”分为“≤2004年”、“2004–2009年”和“>2009年”诊断时的年龄(年)分为“≤57”、“57–72”和“>73”;肿瘤大小(mm)分为“≤35”、“35-45”、“>45”和“未知”;LNR分为“≤0.1”、“0.1–0.6”、“>0.6”和“未知”;LODS分为“≤-1.1”、“-1.1–0.2”、“>0.2”和“未知”(图2)。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第17张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第18张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第19张图片

2.倾向性得分匹配与生存分析

由于卡方检验或Fisher精确检验显示SEER数据库中PSRC和PDAC病例的临床特征是异质的,我们进行了PSM以调整两组的基线特征。使用R软件包“MatchIt”(v4.1.0)执行以下PSM设置:1对1配对和最近邻方法,卡尺为0.05(13)。PSM包括上述所有变量。OS和癌症特异性生存率(CSS)被设定为本研究的结果终点。OS被定义为任何原因导致的诊断和死亡之间的时间间隔,而CSS被定义为癌症导致的诊断与死亡之间的持续时间。通过Kaplan–Meier(KM)分析构建生存图,并通过log-rank检验对PSRC和PDAC患者在PSM前后进行比较。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第20张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第21张图片

3.cox回归分析

进行单变量和多变量Cox回归分析,以确定PSRCC患者OS和CSS的潜在预后变量。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第22张图片

4.最小绝对收缩与选择算子回归分析与可视化

COX回归分析常存在共线干扰。在PSM和Cox回归分析之后,我们使用LASSO回归分析来确定不同病理类型和临床特征的最佳加权系数,并建立了一个模型来确定这些特征是否可以预测PSRC和PDAC患者。PSRCC和PDAC患者OS和CSS的LASSO回归模型是通过使用R软件包“glmnet”进行十倍交叉验证而建立的(14)。此外,OS和CSS的最佳λ值分别为0.0195和0.0198。

此后,使用R软件包“pROC”分析10年随访结果和风险评分的受试者操作特征(ROC)曲线,并确定曲线下面积(AUC)和置信区间(CI)(15)。根据风险评分的最佳临界值或中位数,将患者分为高风险组和低风险组,并使用R包“生存率”进一步分析两组之间的预后差异。然后使用log-rank检验评估两组患者预后的显著差异。

此外,为了从外部验证风险评分模型,我们的研究共包括90名来自湘雅二医院肝胆外科的PDAC或PSRC患者作为外部验证数据集。根据外部验证数据集中的中值截断值,将患者分为高风险和低风险评分组,以验证模型的稳健性。使用OS或CSS的KM分析来测试高分患者和低分患者之间的区分效果。最后,使用ROC曲线来评估外部验证数据集中模型的准确性和预测能力。

最后,通过R包“rms”整合LASSO-COX分析的生存数据,构建列线图,预测PSRC和PDAC患者的1年、3年和5年OS和CSS。列线图通过整合多个预测因素并绘制多条线来计算疾病风险或个人的生存概率,并使用C指数来评估列线图的功效。此外,绘制了1年、3年和5年的校准曲线来评估列线图的有效性。

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第23张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第24张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第25张图片

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第26张图片

闲来郑语

为什么倾向得分方法和预测模型不会在一起,那是因为倾向得分方法是聚焦于一个变量而筛选一部分数据分析,而预测模型不会单独聚焦于一个变量,所以两者不会有合作的时候。

你们看明白了没有,这篇文章怎么就在一起呢?真相是,这篇文章与研究了两个主题!统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第27张图片

现在SEER数据库想发2区真不容易呀,内容要多,主题要有特色。所以这篇文章就堆内容,首先,开展PDAC或PSRC两型癌症的预后差异性比较,用的倾向得分匹配;另外两种癌症的预后分别构建预测模型;

所以倾向得分方法和预测模型还是没有在一起的。

更多实战课程

2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、结构方程模型、孟德尔随机化等10门课。如果您有需求,不妨点击查看:

10门科研与统计课程介绍:含孟德尔随机化课程

统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章_第28张图片

你可能感兴趣的:(统计解读:倾向得分匹配与预测模型在一起,发了篇2区SCI文章)