JAMA Oncology长文|专家综述比SEER数据库大3倍的数据库

摘要

重要性

国家癌症数据库(NCDB)是美国外科医生学会癌症委员会和美国癌症协会的一项联合质量改进计划,已创建了共享研究文件,该文件改变了美国对癌症护理的研究。读者和研究者对数据库的细微差别,优势和局限性的透彻理解至关重要。这篇综述描述了使用NCDB研究癌症护理的方法,重点是使用数据库的优势以及影响NCDB研究解释的重要考虑因素

目的

NCDB是世界上最大的癌症注册机构之一,并已迅速成为研究美国癌症护理的最常用数据资源之一。 NCDB描绘了癌症治疗的全面情况,包括许多不太常见的细节,这些细节使得人们可以对治疗的细微差别进行研究。另一方面,NCDB中未收集一些潜在的重要患者和治疗属性,这可能会影响比较可调整的程度。最后,在过去十年中,NCDB发生了几项重大变化,可能会影响其完整性和可用数据的类型。

结论

NCDB为美国的癌症护理提供了至关重要的观点。为了利用其优势并适应其局限性,研究人员及其听众应该熟悉NCDB的优缺点,以及其随着时间的发展。

前言

国家癌症数据库(NCDB)于1988年作为美国外科医生学院和美国癌症协会之间的一项联合质量改进项目而启动。截至2016年,NCDB已积累了超过3400万例癌症患者记录(几乎是(SEER)数据库的大小),使NCDB成为世界上最大的临床癌症注册机构。为了便于以患者为中心的癌症研究,已知NCDB数据集的公开共享子集作为参与者用户文件(PUF)的文档,已在2013年通过应用程序提供给美国外科医生学会癌症委员会(CoC)认可的癌症计划研究人员。每年一次更新PUF的发布使NCDB研究的发表数量增加了(从2007年的11个增加到2016年的200多个),这很可能反映了捕获的信息的广泛性和用户界面的用户友好设计。实际上,在2016年,即PUF广泛可用的仅仅三年之后,已发表的NCDB研究的数量几乎等于SEER和SEER-Medicare的数量。最后,进一步证明了NCDB在相对较长的时期内所产生的影响在很短的时间内,国家综合癌症网络的治疗指南中引用了多项NCDB研究。

与大多数大型数据集一样,NCDB包含许多独特功能,细微的技术差异以及随时间推移的过渡,这对于调查员及其听众识别至关重要。本概述旨在介绍NCDB PUF,促进分析并增强使用此宝贵数据集进行的研究的解释。

The NCDB Patient Population

  • NCDB人群由在CoC认可的癌症计划中接受过某些癌症治疗(治疗或诊断)的患者组成。没有得到护理但仍在CoC机构与医生互动的患者不会向NCDB报告。例如,没有报告曾在肿瘤委员会接受第二诊治但在其他地方接受过所有治疗的患者。从1998年开始,要求CoC认可的癌症计划向NCDB报告所有新诊断出的合格癌症病例,这是获得认可的要求。尽管这些计划约占美国医院的30%,但NCDB目前捕获了约70%的新诊断出癌症的患者,代表了广泛的医院环境。尽管CoC认证被广泛认为是一项质量指标,因为截至2016年,几家著名(且数量庞大)的医院均未获得CoC的认可(例如,《美国新闻与世界报道》排名前50位的癌症医院中的4家),因此没有为NCDB做出贡献。此外,对数据使用的某些限制使来自CoC认可的少数几家医院(向NCDB提交信息)的数据不能包含在PUF中(例如,退伍军人事务部或国防部设施)。

  • 符合条件的患者包括那些被诊断患有大多数原位或浸润性原发肿瘤的患者,以及大多数患有良性脑病变的患者。另一方面,由于存在多种皮肤癌和子宫颈原位癌,因此可免除NCDB的治疗。这些肿瘤的数量众多且治愈率很高。NCDB人群是在没有收集个人识别码(例如姓名和社会安全号码)的情况下捕获的,这可能导致两种有趣的情况,有可能影响NCDB人群。如果患者在CoC认可的多家机构接受护理,则每个机构都必须向NCDB报告患者。由于重复报告可能会在数据库中造成偏差,因此NCDB使用专有算法通过人口统计学,肿瘤和其他数据项来识别重复患者。然后选择最完整的记录用于分析目的(NCDB不合并记录)。

  • 第二种情况涉及被诊断出患有多于一种恶性肿瘤的患者(在同一时间或在不同时间)。每个诊断将构成一个单独的NCDB条目,并且无法链接这两个诊断。 (但是,报告机构应更新这两种癌症的记录,以表明它们不是患者的唯一癌症,并指出其发生顺序[例如,第一癌,第二癌]。此信息由报告机构输入,并且(不是由NCDB的记录链接生成的。)NCDB确实表明所报告的恶性肿瘤是否代表患者唯一的癌症,从而使研究人员可以排除患有多种癌症的患者,并最大程度地减少先前恶性肿瘤的影响。

Data Sources for the NCDB

NCDB数据由经过认证的肿瘤登记员从病历的所有可用成分中提取。报告设施还必须包括在其设施之外进行的癌症治疗要素(例如,另一家医院或医师办公室的辅助化疗),即使其他设施未获得CoC认可。尽管此过程通常非常有效,但是外部机构的不同合作可能会影响NCDB记录的完整性(与诸如Medicare之类的理赔数据不同,该数据中的所有护理要素均由中央实体记录)。

NCDB捕获的数据

NCDB共享文件(PUF)是特定于站点的(用于结肠癌,乳腺癌,肺癌等的单独的PUF),并且包含80多个可识别的数据项,这些数据项描述了丰富的社会人口统计学,肿瘤,治疗和随访信息。 NCDB仅在患者的第一个治疗过程中获得护理,NCDB将其定义为“……治疗计划中记录的所有疾病治疗方法,并在疾病进展或复发之前给予患者。” 11(p22)因此,术后化疗(佐剂)将包括在内,但随后诊断为(转移)脑转移的伽玛刀将不包括在内。可以在http://ncdbpuf.facs.org在线获得有关数据字段的详细说明。下面简要描述了一些细微差别和数据功能,并在表1中列出。

Facilities

NCDB允许确定报告CoC设施的一些属性。除了人口普查部门的设施位置和附属机构(即学术机构或社区)(请注意,对于儿科和成年成年人而言,设施位置和附属机构均受到抑制,因为考虑到较少的患者),NCDB在PUF中为每个机构分配一个随机标识符。尽管此随机标识符不能用于标识实际设施,但可以用于研究在设施级别(例如手术量)组织的患者护理。例如,最近的一项关于食管癌的NCDB研究发现,与距离较近的小医院相比,到大医院的更长旅行距离与改善的生存率相关。因为设施可能会在研究期间改变CoC认证状态,所以重要的是要分别考虑每年(而不是简单地将研究期间的平均数量)。彼此关联的医院(在同一实体的网络或单独的园区内)通常保留独立的报告状态(即,单独的NCDB医院标识符);但是,医院合并在PUF数据中被报告为1个设施。结果,一些医院标识符实际上代表了异构的护理环境

Patient Data

NCDB包含一系列社会人口统计信息(例如年龄,种族/民族,性别和保险类型),其中一些是通过将患者邮政编码与美国人口普查和美国农业部经济研究服务数据集相关联来推断的(即,中位数收入以及城市与农村居民的比较)。尽管使用国际疾病分类第9版和第10版诊断代码来捕获单个合并症,但PUF仅报告经过修改的Charlson-Deyo合并症评分(即0、1或≥2)。该量表被截断为2或更高,因为只有少数患者的得分大于2。NCDB无法以其当前形式捕获许多潜在的重要健康相关因素(例如体重,体重指数,吸烟状态,表演状态或居住安排)。

Staging

  • NCDB包括特定于诊断时有效的美国癌症联合委员会的临床和病理分期信息。对于跨越美国癌症分期联合委员会分期系统修订期的研究,NCDB可能包含足够的数据以“进入晚期”(即,许多用第六版捕获的肺癌病例可能会在第七版中编码)。或者,较新近的病例可能“退回”到较早的美国癌症联合委员会分期系统。此外,从2004年到2015年,NCDB包括了协作登记系统,这是一个统一的数据收集系统,旨在满足多个不同登台系统的需求。合作分期系统包括几个针对特定地点的因素,这些因素为许多类型的癌症提供了更多详细信息(例如,结肠癌的癌胚抗原水平和肺脏内脏胸膜浸润的水平)(表2)。13,14这些因素将继续被收集,尽管NCDB在2015年停止使用协作分期系统。

  • 过渡数据的一致性根据NCDB报告要求而有所不同。临床分期在2008年成为强制性的,提高了该数据字段的完整性。在NCDB中未捕获为告知临床阶段而进行的研究和程序类型(例如,正电子发射断层扫描,内窥镜超声和纵隔镜检查)(尽管可能会进行前哨淋巴结活检)。缺乏有关分期评估的数据可以掩盖“过度编码”效应,后者指的是根据治疗团队认为不准确的数据,抽象者对患者的编码处于较高的阶段。例如,最近的一项NCDB外科手术管理的临床III期肺癌研究(未进行术前治疗)发现,被鉴定为临床III期癌症的患者中有33%的病理学阶段较低,这可能反映了某种程度的过度编码。此外,预后可能与进行的分期评估的数量和类型有关。该信息在NCDB中不可用,但可以从基于索赔的数据集(即Medicare)中获得。

手术

NCDB涵盖了广泛的外科手术程序,这些程序是针对所研究的原发癌的特定部位治疗(即,肺叶切除,肺切除或楔形切除术用于肺癌)。最近,也已经捕获了手术方法(例如,微创或机器人)。但是,未捕获诊断程序(例如,用于腹腔镜检查的分期)和辅助程序(例如,放置饲管)。尽管可以注意到姑息性手术的发生,但无法记录实际的程序(例如,切除胸壁乳腺癌的复发性疼痛)。始终如一地研究转移性疾病的程序也是不可能的。例如,针对结直肠癌或肺癌的PUF不会捕获针对转移性结直肠癌进行的肺切除术。 NCDB还包含一些较不常见的治疗领域,例如是否建议进行手术(“无理由手术”领域)。 “无需手术的理由”字段可用于完善非手术治疗的人群,从而使那些无法健康进行手术的患者被排除在非手术队列之外(即,减少对非手术患者的健康偏见)。或者,拒绝推荐的手术(大概是手术候选人,因此与接受手术治疗的人群具有更高的可比性)也可以在非手术人群中找到。最近,已经对这组符合手术条件但接受过医学治疗的患者进行了研究,以最大程度地降低健康状况不佳对医疗的偏见。例如,大多数接受立体定向放射疗法治疗的早期肺癌患者由于健康状况特别差而实际上不适合手术。 NCDB中关于健康和合并症的数据不足,无法调整特别恶劣的健康竞争生存风险(因为未捕获合并症的严重性)。但是,通过研究接受立体定向放疗的患者拒绝推荐的手术程序,有可能证明肺癌手术(肺叶切除术)与立体定向放疗相比,在可能接受这两种治疗的“更健康”患者中,生存率提高了。

放疗

放射疗法 NCDB包含有关放疗开始,剂量,位置,部位数量以及不进行放疗的原因的详细信息。放射治疗数据还包括递送方法(例如,束放射治疗,立体定向或植入物)。因此,对于大多数类型的癌症,可以将重点放在按照既定护理标准(即,针对相关身体部位的最小剂量和治疗)内接受治疗的患者。

化疗

化学治疗数据包括开始日期,但不包括结束日期或周期数,因此很难知道是否与放疗同时或相继给予(这可能会影响两种方式的疗效)。尽管NCDB可以捕获患者是否接受了单药化疗或多药化疗,但仍未鉴定出特定的化疗药物(例如顺铂)。 NCDB确实指示患者是否接受激素或免疫疗法,但未接受其他靶向疗法(例如,表皮生长因子受体途径抑制)。

Multimodal Treatment

多模式治疗 NCDB确实允许对多模式治疗进行特征化。 NCDB编码与诊断日期(医生做出诊断陈述的第一个日期,可能基于成像结果或通过组织学检查确认的日期)有关的所有事件。因此,可以使用各种治疗或事件(如开始化疗或手术)相对于诊断日期的时间来确定序列。可以使用以下方法确定更复杂的策略(例如手术前后的化学疗法或放射疗法)。 NCDB中的特定序列变量。最近的研究已经使用NCDB中的时间数据来评估延迟辅助化疗对结肠癌20和肺癌生存的影响。

治疗并发症

除了在手术后30和90天内死亡外,NCDB中未列出治疗的具体并发症。对于外科手术患者,可以计算出长期住院时间(并发症的替代指标),并且可以识别出计划外的再次入院。 NCDB仅捕获重新提交给报告机构的信息。几项研究表明,术后再入院的患者中有12%至33%到了进行初次手术的医院之外的其他设施。例如,NCDB结肠癌手术后的再入院率随着患者距离护理距离的增加而降低(<160英里行进者为5.7%,≥160英里行进者为3.7%; P <.001),可能反映了其他医院再次入院的情况。

生存

向NCDB报告的机构负责向NCDB提供生存状态(即生还或死亡)和随访日期,以便计算总体生存率。 NCDB未指定机构如何获取随访信息,但希望机构在5年内提供90%的随访率。NCDB并未捕获患者死亡的原因;因此,无法计算癌症特异性生存率。此外,尚无其他癌症结局,例如复发模式和首次复发时间(无进展生存期)

Key Changes to the NCDB Over Time

随着时间的推移,NCDB和PUF发生了许多重要变化(表2)。这些变化不仅影响可用信息的类型,而且在某些情况下影响数据的完整性(例如,临床阶段在成为数据之前很少被捕获)在2008年强制执行)。因此,对于研究人员及其听众来说,牢记NCDB的发展并包括用于研究的PUF版本非常重要。为了命名上的一致性,PUF版本被列为PUF包含数据的最后一年(2013 PUF包含截至2013年的数据,并于2015年发布给研究人员)。

质量控制

CoC使用各种各样的程序来确保向NCDB报告的高质量数据。向NCDB报告的数据经过一系列600多次电子自动编辑检查,以提醒注册服务商注意缺失的数据字段和内部不一致的数据(例如,如果未记录第一疗程的日期,但记录表明治疗已.此外,经CoC认证的所有设施均经过定期审核程序,以确保数据质量和完整性。

比较NCDB和SEER

  • 目前,美国的癌症护理已被多个大型数据库捕获,这些数据库具有不同的特征,优势和局限性。特别是SEER数据库已被广泛用于分析癌症结局。尽管NCDB和SEER之间存在显着的重叠(在收集的数据类型上,并且在一定程度上包括患者),但在使用这两种数据资源进行分析解释方面可能存在重要差异(表3)。 ).使用不同的编码手册对NCDB和SEER进行编码。 NCDB中的大多数数据项均基于《设施肿瘤学注册管理机构数据标准手册,而SEER拥有自己的编码手册31。但是,定义和标准之间有许多相似之处。实际上,在向两个数据库都报告的机构中,数据通常(但不总是)是相同病历抽象化的结果

  • NCDB和SEER之间最重要的区别也许是各自对美国癌症人群的看法。 NCDB数据基于医院,而SEER数据基于人群。将NCDB包括在内的依据是医院的特征(CoC认证),该特征适用于美国5000所医院中的约30%。结果,病例覆盖率因癌症就诊患者的比例而异。经CoC认可的设施。例如,在北达科他州,只有13.6%的医院获得了CoC认证,但是病例覆盖率包括了88%的新诊断癌症。获得CoC认证的医院的可及性或市场份额的变化导致该地区-或在NCDB中代表性不足(特拉华州89%的患者被捕获,亚利桑那州27%的患者被捕获)。

  • NCDB中某些社会人口统计学层的表示也可能存在差异。例如,西班牙裔人群中只有50%的癌症被捕获,而白人,黑人或亚裔患者中只有65%被捕获。与年龄较大的患者(≥65岁的患者中的63%)相比,NCDB捕获的青年患者(占65岁以下的患者的73%)所占的百分比更高。所捕获的癌症类型也存在差异(例如,NCDB捕获的宫颈癌占80%,而黑素瘤的捕获率则仅为50%,而黑素瘤通常在医师办公室而不是由CoC认可的机构管理)。

  • 结果,并非所有来自NCDB分析的结果都可以推广到整个美国癌症患者人群,因此可能需要单独进行分析以关注特定的社会人口统计学亚组。例如,一些NCDB研究检查了种族/民族和社会经济地位的影响,发现在使用外科手术程序方面存在显着差异,并与美国国家综合癌症网络指南保持一致。另一方面,SEER是一个基于人群的数据库,包容性是基于地理位置而不是设施特征。从战略上定义了SEER的参与者,以描述整个美国不同人群的癌症护理:“根据其操作和维护高质量的基于人群的癌症报告系统的能力以及其流行病学意义,选择地理区域纳入SEER计划30因此,尽管SEER仅捕获了30%的新诊断癌症,但从战略上选择了提交作为美国人口的代表。值得注意的是,许多提供SEER数据的州的机构都是CoC认可的癌症中心,并且还将向NCDB提交数据。 最近的一项研究使用NCDB和SEER-Medicare来确定手术延迟对手术治疗的乳腺癌结局的影响,并从两个数据库分析中得出了惊人相似的总体发现(NCDB分析中死亡率增加了10%,而NCDB分析中死亡率增加了9%); SEER-Medicare)。但是,社会人口统计学分析存在一些重要差异。在这两个数据库中,黑人患者的手术延误风险增加。但是,只有SEER-Medicare表示西班牙裔患者延误,而亚洲患者在NCDB中出现延误。这项研究表明,NCDB和SEER描绘了美国癌症患者总体的相似图景,但可能对特定的社会人口统计学层次提供了不同的见解

结论

NCDB PUF为美国的癌症护理提供了独特而重要的观点。为了充分利用捕获数据的广度和深度,研究人员及其受众必须认识到该数据集的强大之处和局限性。 NCDB为增强PUF所做的持续努力可能会进一步推动这一资源的发展。

jamaoncology_boffa_2017_rv_160024-1.png

jamaoncology_boffa_2017_rv_160024-2.png
jamaoncology_boffa_2017_rv_160024-3.png
jamaoncology_boffa_2017_rv_160024-4.png
jamaoncology_boffa_2017_rv_160024-5.png
jamaoncology_boffa_2017_rv_160024-6.png
jamaoncology_boffa_2017_rv_160024-7.png

你可能感兴趣的:(JAMA Oncology长文|专家综述比SEER数据库大3倍的数据库)