七类一致性检验方法汇总

七类一致性检验方法汇总

一、一致性检验定义

在做数据分析时,我们经常会遇到一致性检验的问题,即判断不同的模型或者分析方法在产出结果上是否具有一致性、模型的结果与实际结果是否具有一致性等。

一致性检验的目的在于比较不同方法得到的结果是否具有一致性。

例如:

        核酸检测鼻拭子和咽拭子检测结果的一致性;

        多位评委对运动员打分结果的一致性;

        甲乙两位专家对肿瘤患者的病理切片的分析评定结果是否一致等。

二、一致性检验常用方法

在SPSSAU系统中,共提供7类一致性检验的相关方法,如下图所示:常见的包括Kappa一致性检验、Kendall协调系数、ICC组内相关系数等。每种方法的功能侧重和对数据格式的要求都略有不同,下面将逐一进行说明。

1Kappa一致性检验

1)数据类型

Kappa一致性检验适用于定类数据。

使用Kappa系数衡量一致性水平。Kappa系数取值在0~1之间,通常情况下:

Kappa<0.2则说明一致性程度较差;

0.2~0.4之间说明一致性程度一般;

0.4~0.6之间说明一致性程度中等;

0.6~0.8之间说明一致性程度较强;

0.8~1.0之间说明一致性程度很强。

2)分类

Kappa一致性检验分为简单Kappa加权KappaFleiss Kappa系数;加权Kappa又细分为线性加权Kappa和二次加权Kappa。

几类Kappa一致性检验区别说明如下:

  •  简单Kappa:普通定类数据

如果研究的数据为绝对的定类数据:如阳性or阴性,此时使用简单Kappa。

例如:研究鼻拭子和咽拭子两种核酸检测方式对于核酸检测结果呈阳性or阴性的一致性程度。

  • 加权Kappa:有序定类 or 考虑权重

如果研究的数据为等级式定类数据:如满意、一般、不满意,此时使用线性加权Kappa。

例如:研究两位学者对于不同作品满意度(满意、一般、不满意)的一致性程度。

(提示:如果使用加权Kappa,一般使用线性加权Kappa)

  • Fleiss Kappa:对比两项以上的一致性

如果研究的数据为对比三项以上的结果一致性,此时使用Fleiss Kappa。

例如:研究三位专家对肿瘤患者病理切片的分析评定结果的一致性程度。

3)数据格式

  • 简单Kappa

如果说数据没有 ‘ 加权 ’ ,共50个样本,那么总共50行;分别表示鼻拭子或者咽拭子的检测结果;此时则没有加权数据,也不需要进行加权项放置,数据格式如下表:

  • 加权Kappa

学者对于作品满意度分为满意、一般、不满意三种。因此3*3共有9种组合;单独使用一列数据表示每种组合的数量(即权重),数据结构如下表:

上表说明,学者1满意,学者2满意的作品数量为8;学者1满意,学者2一般的数量为2等等。

  • Fleiss Kappa

比较两项以上的一致性,数据格式如下表:

提示:Fleiss Kappa不支持 “ 加权项 ” 

(数据均为虚构,仅做展示说明)

4SPSSAU展示

以线性加权Kappa为例:

从上表可以看出,Kappa一致性检验呈现出显著性(p=0.000<0.01),说明A医生与B医生检验结果具有一致性;Kappa值为0.74,介于0.6和0.8之间,说明一致性较强。

2Kendall协调系数 

Kendall协调系数,也称作Kendall和谐系数,或Kendall一致性系数。通常用于比较多组数据的一致性程度。

1)数据类型
Kendall协调数据适用于定量数据。Kendall协调系数用于测量评分数据一致性水平。取值在0~1之间,通常情况下:Kendall协调系数 <0.2则说明一致性程度较差;0.2~0.4之间说明一致性程度一般;0.4~0.6之间说明一致性程度中等;0.6~0.8之间说明一致性程度较强;0.8~1.0之间说明一致性程度很强。


2)数据格式

数据格式为:1个评委为1列;1个选手为1行;4个评委6个选手,因此共有4列和6行数据。
在分析时:需要将对应的6行数据放入分析框中。

如果行列转置,则对应的将数据格式选择为 ‘ 评价者(行)’。

3SPSSAU展示

从上表可以看出:Kendall协调系数检验呈现出显著性(p=0.003<0.05),意味着4个评价者的评价具有关联性,即说明评价具有一致性。同时Kendall协调系数为0.900,大于0.8,说明评价一致性程度很强。

3ICC组内相关系数 

ICC组内相关系数是用于研究评价一致性,评价信度,测量复测信度(重测信度)的一种研究方法。

1)数据类型

ICC组内相关系数相比于Kappa和Kendall系数使用范围更广,适用于定量和定类数据

ICC组内相关系数用于测量评分数据一致性水平。ICC取值在0~1之间,通常情况下:

ICC <0.2则说明一致性程度较差;

0.2~0.4之间说明一致性程度一般;

0.4~0.6之间说明一致性程度中等;

0.6~0.8之间说明一致性程度较强;

0.8~1.0之间说明一致性程度很强。

2ICC模型选择使用

ICC模型选择共涉及三个方面,分别为单向/双向、混合/随机、一致性/绝对一致性,分别说明如下:

单向/ 双向

若希望研究测量的数据是否完全相等时,此时选择单向ICC模型;

若希望研究测量数据之间的一致性程度,此时选择双向ICC模型。

② 混合/ 随机

双向混合和双向随机模型,从原理角度上进行了区分,但从算法计算的角度上看,其二者的数字计算结果完全一模一样,并没有任何区别。因而在分析时,只需描述选择过程,计算结果上双向混合和双向随机模型的结果完全一致。

③ 一致性/绝对一致性

如果研究中考虑系统误差问题,此时需要选择绝对一致性计算类型;

如果不需要考虑系统误差时,此时选择一致性计算类型。

特别说明一点在于,单向模型只有绝对一致性。

综上所述,SPSSAU共提供三类选项,汇总说明如下:

除此之外:不论是双向混合,双向随机,还是单向随机模型;均会输出单一度量或者平均度量这两个指标值。



④ 单一度量 平均度量

单一度量:比如多位医生通过一项测试对抑郁症患者进行抑郁程度打分。此时数据为原始数据,应该使用单一度量。

平均度量:比如多位医生通过对抑郁症患者进行多项测试,得出平均得分后,进行打分。此时的数据为多项测试平均后的得分,故应该使用平均度量。

综上所述,结合3个模型,以及计算类型和度量标准,ICC模型一共可分为六个,如下表汇总:

3)数据格式

ICC组内相关系数的使用范围较广,但其复杂度相对较大;需要特别注意数据格式。

假设3个医生对于10个病人智商分值打分,录入后的ICC数据格式如下:

4SPSSAU展示

若使用的是原始数据,则使用单一度量的ICC组内相关系数0.921;

若使用的是计算后数据,则使用平均度量的ICC组内相关系数0.972。

从上表可以看出三位医生对于病人智商打分的一致性程度很强。

4、组内评分者信度rwg

在社会科学或医学相关研究中,会出现多层次(多水平)层面的跨层数据,比如研究个体是学生,但是学生隶属于学校。

1)数据格式

例如:当前有一项关于员工团队合作能力的打分数据,共有10个员工,并且10个员工分成2个组别。其使用6个测量项进行测量(并且使用5级量表打分制)。因而共有10个员工则为10行数据,并且单独使用group来标识组别(1组和2组),6个测量项共计6列。单独还有一列为subject即员工的编号此列数据在分析时不需要使用无分析意义。最终数据格式如下:


2)指标说明


SPSSAU提供的rwg分析方法,共提供三个指标分别是rwg值,ICC1值和ICC2值,3个指标的意义分别说明如下:RWG值:研究团队成员合作水平一致性情况如何;ICC1研究单独每个裁判(打分者)的一致性情况;ICC2研究几个裁判(打分者)平均一致性的信度情况。事实上rwg值、ICC1值和ICC2值的意义均在于评价一致性情况。但通俗理解来看(从站在角度上),rwg值可理解为研究 ‘行’ 数据的一致性,ICC1或ICC2值研究 ‘列’ 数据的一致性情况。

在本案例中:
rwg值研究整体10个成员的得分一致性情况;ICC1值研究每个测量项的得分一致性情况;ICC2值研究6个测量项得分上的一致性情况。
上述三个指标的常用标准如下:

3SPSSAU展示

5、Bland-Altman图

Bland-Altman分析最初是由 Bland JM和 Altman DG于1986年提出的。它的基本思想是计算出两种测量结果的一致性界限(limits of agreement),并用图形的方法直观地反映这个一致性界限,得出两种测量方法是否具有一致性的结论。

1)数据格式

例如:当前有医生使用两种方法分别做一项实验,现需要对第1种和第2种方法共两种方法的测量数据进行一致性检验;如果有分组数据,例如研究不同性别,此时只需要把性别group放入对应框中即可,group仅在图示中展示出不同的颜色进行区分,对于指标的计算并不会有任何的影响。数据结构如下图:

2)理论说明

Bland-Altman图是一种一致性测量的可视化展示方法。适用于定量数据,其将测量数据相关计算后,进行散点展示出来,如果说散点在可信区间范围内(一般是差值的1.96个标准差范围内),那么就说明数据具有较好的一致性水平。

3SPSSAU展示

上图可以看出:散点基本均落在95%一致性区间(即1.96个标准差范围内),则说明一致性情况良好。

6、相关系数 

当进行一致性检验的时候,还可以使用相关分析进行检验。

相关分析用于研究定量数据之间的关系情况,包括是否有关系,以及关系紧密程度等。

但是相关系数只能用于两个评价者之间的一致性检验,当评价者大于两个时,就会出现多个相关系数,变为两两之间的比较,与一致性检验的目的不符。

由于一般进行一致性检验的数据都比较少,很少满足正态性检验,故如果使用相关分析进行一致性检验,一般使用Spearman相关系数,而不使用Pearson相关系数。

7、Cronbach α系数

判断问卷的一致性可以使用克隆巴赫信度系数(Cronbach α系数)进行。一般情况下我们主要考虑量表的内在信度——项目之间是否具有较高的内在一致性。

针对定量数据

Cronbach α系数值如果在0.8以上,则该测验或量表的信度非常好;

Cronbach α系数值在0.7以上都是可以接受;

如果在0.6以上,则该量表应进行修订,但仍不失其价值;

如果低于0.6,量表就需要重新设计题项。

三、一致性检验方法选择

上面总共介绍了七种不同的一致性检验方法;那么怎样精准地选择最适合的方法进行检验呢?

根据数据类型、数据格式、测量方法的不同,可以确定不同的检验方法进行检验,具体选择标准如下图所示:

你可能感兴趣的:(七类一致性检验方法汇总)