2020-10-27 由科室小讲课学到的两个概念

原因:今天科内小讲课,讲课内容提到:诺欣妥可以对心衰患者全覆盖,包括:HFrEF、HFmrEF、HFpEF。由今年ESC发布的研究PARALLAX证实。这个观点和我的认知有冲突,晚上有空查了一下这个研究,还没有发布全文。但是查到了两篇解读,如下:

1.https://www.sohu.com/a/415812582_732020

作者是:诺华新见解。显而易见这个是诺华的宣传号。该篇文章在写结论时竟然把post hoc分析的结果放在第一位,而把主要终点、次要终点放在后面。让读者产生诺欣妥有明确改善终点事件的错觉,真是本末倒置。

2.http://news.medlive.cn/all/info-progress/show-172046_129.html

作者是安贞的医生,这篇解读就说的很中肯。


有两个概念复合重点事后分析值得注意一下:

1.复合终点

2017-11-15 19:17

有人说搞研究其实就是搞数据,没数据的时候,你会愁咋写文章,但是有了数据以后你可能会更愁,因为数据太多了,该咋整。当然,你可以考虑做N多个图表来展示所有的结果,不过还是要考虑如何选择合适的结果放在最终的paper中。

问题来了,如何确保在这样一个“微缩版”的研究报告里把事儿说对了,说明白了,避免出现我们常说的“选择性报告”(即阳性结果通通放在文章里,阴性结果就当没看见),这就需要下一番功夫。

Stuart J. Pocock在《Journal of the American College of Cardiology》上发表了系列文章,介绍了临床研究报告的一些统计学考虑[1]。接下来一起聊聊临床研究中容易被错误解读的终点事件。

复合终点

临床研究的疗效评价指标通常被分为主要终点和次要终点,其中主要终点是研究者最感兴趣的,它的选择事关整个临床研究的成败,一般会选择那些能够客观量化、操作性强、可以重复验证的指标,当然,这些指标通常也是某个研究领域公认的“金标准”。

然而,理想很丰满,现实却很残酷,有时候临床上很难找到这样一个能综合评价疗效的金标准。这种情况下,往往会出现多个疗效评价指标,带来的结果就是主要终点不再是单一指标。

此时,比较常用的处理方法是构建一个综合反映多个主要终点的“复合终点”。问题也瞬间简单了,直接比较不同治疗组“复合终点”有无差异,就可以得出研究结论了。例如,心血管领域的临床研究多采用复合终点作为主要终点。但是,采用复合终点作为主要结局指标有时会掩盖各个终点事件间的巨大差别。

SYNTAX研究[2,3]比较了冠脉旁路移植术(CABG)与Taxus药物涂层支架(DES)用于治疗3支血管病变或冠脉左主干病变患者的获益。主要结局为复合终点,包括全因死亡、卒中、心梗及再次血运重建。随访1年时,DES组心脑血管事件(MACCE)的发生风险显著高于CABG组(P=0.002)。如果只盯着这个数据,显而易见,DES要劣于CABG。

但是,如果再仔细观察复合终点中各个终点事件的发生情况,结论就没有那么简单了。两组主要的区别集中在再次血运重建上,尤其是重复PCI(4.7% vs. 11.4%, P<0.001)。再比如,在随访1年时,CABG组卒中的发生率明显高于DES组(P=0.003),但是两组全因死亡、卒中或心梗的复合终点却没有显著差异(RR=1.00, 95%CI: 0.72-1.38)。因此,复合终点可能无法很好地反映出两组实际获益情况。(表1)

表1. SYNTAX研究随访1年和5年结果

另外,重要的组间疗效差异可能需要随访足够的时间才能观察到。SYNTAX研究在随访第5年时,DES组心梗发生率出现显著升高。与此同时,复合终点的结果也支持采用CABG治疗。

尽管复合终点在临床试验中常被广泛使用,但是无法回避的是,有时候复合终点的结果并不好解读。研究者会宣称某某治疗措施的疗效覆盖了所有的终点事件,但是仔细分析才发现疗效可能更多地集中在某一个终点事件,比如上述提到的SYNTAX研究结果。

因此,复合终点的使用需要注意以下内容:

1.复合终点的发生例数是指经历一个或多个终点事件的患者总数;

2.复合终点的有效性取决于各终点事件对患者是否同等重要,治疗对各终点事件的影响是否相同,各终点事件发生的次数是否相近;

3.当各终点事件之间差异较大时,应放弃采用复合终点。

次要终点

正如前面聊到的,主要终点是研究者最关心,也是一项研究最终要回答的问题,研究假设的建立、样本量计算以及最终的研究结论都要依据主要终点;次要终点也是研究者感兴趣的,通常作为整个研究的支持性证据,在研究报告中也是紧跟主要终点结果出现。

举个例子,PEGASUS-TIMI54试验[4]比较了替格瑞洛两种不同剂量联合低剂量阿司匹林或安慰剂联合低剂量阿司匹林在有心梗病史患者中的疗效。主要结局是心血管死亡、心梗及卒中的复合终点。

结果显示,替格瑞洛60mg和90mg均能够显著降低有心梗病史患者主要心血管事件的发生。除了替格瑞洛90mg组未观察到全因死亡风险降低(HR=1.00)外,次要终点方面也观察到相似的趋势,即替格瑞洛可降低各心血管事件发生风险(HR<1)。(表2)

表2. 主要终点和次要终点示例(PEGASUS-TIMI 54试验)

相信研究者都会羡慕上面的例子,主要终点有意义,次要终点还有意义,简直太完美了!但是,搞研究还是要踏实点、不急不躁,尤其是面对意想不到的结果。比如说,一项临床研究主要终点没啥意义,但是次要终点却发现显著差异,怎么下结论?

来看一个实例,PROactive研究[5]比较了吡格列酮与安慰剂在治疗T2DM合并大血管病变高危患者的疗效,共纳入5238名T2DM患者,平均随访3年。主要结局为复合终点,包括全因死亡、心梗、卒中、急性冠脉综合征、心脏介入、下肢血管重建或者截肢。

结果显示,吡格列酮可降低10%的主要终点事件发生风险(HR=0.90,95%CI:0.80-1.02, P=0.095),但是组间差异没有统计学意义;而在次要终点(死亡、心梗及卒中)却达到了显著性差异(HR=0.84, 95%CI: 0.72-0.98, P=0.027)。

该研究据此宣称:吡格列酮降低了心血管高风险的T2DM患者的全因死亡、心梗和卒中的综合发生率(图1)。结论一出瞬间引起轩然大波,争议满天飞:研究主要终点为阴性结果,仅仅依靠次要终点的证据能否支持该研究的结论?借用一句评论“The glass is half full”,显然PROactive研究还需要提供更多的证据来支持其结论。

图1. PROactive研究

来看另外一个相反的例子,MATRIX研究[6]比较了比伐卢定和肝素对于接受PCI治疗的急性冠脉综合症患者的获益,包含两个主要终点,分别为主要心血管事件(全因死亡、心梗或卒中)和净不良事件(出血并发症或主要心血管事件)。

根据研究结果,研究者认为比伐卢定相较于肝素并没有显著降低患者主要心血管事件(10.3% vs. 10.9%: RR=0.94, 95%CI: 0.81-1.09; P=0.44)和净不良事件(11.2% vs. 12.4%; RR=0.89, 95%CI: 0.78-1.03; P=0.12) (图2)。

图2. MATRIX研究

主要终点是阴性结果,下结论认为两组没有什么差异,似乎理所当然,没什么毛病,但是次要终点确实妥妥地被忽略了。虽说次要终点因为“次要”,解读往往需要谨慎,尤其是存在多个次要结局指标的时候,但是使用比伐卢定后会出现更多的支架内血栓(HR=1.71, 95%CI: 1.00-2.93; P=0.048),却是不得不打起十二分注意,小心对待。

次要终点如果发现新的治疗措施对于患者存在潜在危害,争议就不可避免会出现。SAVOR-TIMI 53研究[7]评估了沙格列汀用于T2DM患者的心血管安全性,患者平均随访2.1年。主要终点是由心血管死亡、心肌梗死、卒中组成的复合终点。

结果显示,沙格列汀相较于安慰剂主要终点事件发生风险并未显著降低(7.3% vs. 7.2%; HR=1.00, 95% CI: 0.89-1.12)。然而,沙格列汀组因心衰住院的患者比例却显著高于安慰剂组(3.5% vs. 2.8%; HR=1.27, 95%CI:1.07-1.51, P=0.007)。关键是沙格列汀组仅出现1例因心衰住院的患者,是偶然误差,还是真实情况?That’s a question!

EXAMINE[8]和TECOS[9]两项研究分别评价了阿格列汀和西格列汀(与沙格列汀同为DPP-4抑制剂类药物)在T2DM患者中的心血管安全性,发现接受治疗的患者因心衰住院的风险并没有显著差别(结论与SAVOR-TIMI 53研究并不一致)。

然而,为什么同类药物的不同品种之间存在差异?针对该问题进行Meta分析,合并HR=1.13(固定效应模型,P=0.04)和1.12(随机效应模型,P=0.18),进一步异质性检验,仍然未发现统计学意义(P=0.16)(图3)。

Meta分析结果阐明这样一个逻辑:3个研究同质性较好,且合并HR提示DPP-4抑制剂类药物并不会增加患者因心衰住院的风险,那么SAVOR-TIMI 53研究的结果是偶然误差导致的可能性就比较大,但是因为缺乏相应生物学证据,该问题仍没有完全的定论。

图3. DPP-4抑制剂类药物因心衰住院的发生风险meta分析

总之,研究者面对的一个重大挑战就是如何对研究发现做出一个恰当的解释。无论是主要终点(复合终点),还是次要终点的解读都需要谨慎,避免以偏概全。此外,研究设计之初还应该制定详细科学的统计分析计划(SAP),明确主要终点和次要终点,阐明结果解读的优先顺序,例如一般是主要终点、次要终点(包括安全性考虑)以及探索性分析(例如亚组分析)。


2.post hoc 分析(事后分析)

为什么要预设分组,post-hoc 分析又是啥

通常,临床研究的统计分析方案需要在设计阶段就制定完成,为了保证研究结论科学、真实、可靠,在统计分析方案中往往预先指定研究的分组情况,提出研究假设,并基于此进行样本量的估计。简单理解,只有基于假设检验和足够样本量所分析得到的 P 值才是「真 P 值」

而 Post-hoc 分析,即事后分析,是指在数据收集完毕后,根据数据本身特点额外设定分组,提出研究假设,并进行统计分析。

比如,某临床研究发现,试验药物相比对照组能显著延长患者的生存时间。而研究者是个「星座控」,突发奇想把试验人群又基于星座进行了分组与分析。结果发现:射手座的患者应用试验药物显著延长生存时间(P<0.05);而处女座的患者应用试验药物与对照差异不显著(P>0.05)。于是得出结论:射手座患者比处女座患者应用该药的生存获益更大。

上述情况,显然不科学。因为分组情况非预设,且研究假设是在观察完数据的特征后提出,所以分析也就不具有统计学意义。可以简单认为此时得到的 P 值是「假 P 值」,无论是否小于 0.05,都不代表是否有「统计学差异」,只能视为体现某种趋势,可为后续预设研究设计提供思路。

事实上,事后分析常被称为数据疏浚(data dredging)或数据捕鱼(data fishing),其动机往往是为了得到阳性的结果。因此,事后分析结果一般不被各国药品监管部分接受作为药物有效性的证据

你可能感兴趣的:(2020-10-27 由科室小讲课学到的两个概念)