评分员间可信度inter-rater reliability
在统计学中,评分员间可信度inter-rater reliability,评分员间吻合性inter-rater agreement,或一致性concordance 都是描述评分员之间的吻合程度。它对评判者们给出的评级有多少同质性homogeneity或共识consensus给出一个分值。它有助于改进人工评判辅助工具,例如确定某个范围是否适用于度量某个变量。如果评分员间不吻合,要么是这个范围不对,要么是评分员需要重新训练。
有很多统计量可以用于确定评分员间信度,不同的是适用于不同类型的度量。比方说有:吻合的联合概率joint-probability of agreement,科恩的Kappa(Cohen's kappa)及弗雷斯的Kappa(Fleiss' kappa),评分员间相关性inter-rater concordance,一致性相关系数concordance correlation coefficient 以及类间相关性intra-class correlation。
Cohen's kappa
Cohen's kappa 系数是对评分员(或标注者)间在定性(分类的)项目上的吻合性[1] 的一种统计度量。一般认为它比单纯的吻合百分比计算更健壮,因为考虑到了可预见的偶然发生的吻合。
一些研究者[2] 指出,kappa倾向于以观察到的类别种类频率为假设,会产生在也同样普遍用到的种类上的吻合被低估了的效果,处于这个原因,kappa被认为是一个对吻合过于保守的度量。而另外的研究者辩驳[3] 称kappa考虑了偶然吻合。为了有效做到这一点,就需要一个显式的模型描述偶然性是如何影响到评分员决策的。所谓的kappa统计量的偶然性调节认为:当不完全肯定时,评分员只是猜的——这是一个很不现实的方案。
Cohen's kappa 度量两个评分员之间把N个项目分成C个互斥类别的吻合程度。它最早是由Galton(1892)提出的(见Smeeton(1985)[4][5])。

其中Pr(a) 是评分员间相对观察到的吻合,而Pr(e) 是偶然吻合的假想概率,是用观察到的数据计算出的每个观察者随机选择各个种类的概率。如果评分员完全吻合,κ=1;如果评分员间除了期望的偶然发生的吻合(由Pr(e) 定义)外没有吻合,κ=0。
1960年Jacob Cohen在期刊Educational and Psychological Measurement发表文章最早将Kappa最为新技术引入。Scott(1955)提出过类似的统计量,称为Pi,与Cohen's kappa不同的是Pr(e) 的计算。注意Cohen's kappa只是度量两个评分员间的吻合,当评分员多于2的情况有对应的吻合度量——Fleiss' kappa,见Fleiss(1971),不过,它是Scott's Pi统计量在多评分员情况的泛化,而非Cohen's kappa的。
B |
B |
Yes |
No |
A |
Yes |
20 |
5 |
A |
No |
10 |
15 |
计算随机吻合的概率Pr(e) 时我们看到:
因此,他俩同时批准的随机概率就是0.5*0.6=0.3,而俩人同时拒绝的随机概率是0.5*0.4=0.2。于是随机吻合的总体概率Pr(e)=0.3+0.2=0.5。应用Cohen's kappa 公式得到:

Cohen's Kappa 在一个情况下会出问题,即比较这样两对评分员间Kappa 值:两对有相同的吻合百分比,但一对的评级数相近,而另一对的评级数相差则很大[6]。比如下面这个例子,两组数据中A 和B 的吻合相同(都是60/100),于是我们期望相应的Cohen's Kappa 值反映这一点。
Yes |
No |
Yes |
45 |
15 |
No |
25 |
15 |

但是实际计算结果显示,第二组中A与B 相似度比第一组大。
统计显著性差异既没有声称在一个指定应用中的大小如何重要,也没有声称什么样的被视为吻合程度高还是低。Kappa 的统计显著性差异极少被提及,可能是因为即使相对较低的Kappa 值仍然显著异于0,但也还没有大到足以满足调查 [7]:66 。不过,不同的计算程序还是描述[8]和计算[9]了它的标准误差。
既然统计显著性差异不是有用的指标,那么Kappa 多大才反映足够吻合?准则是有用的,但除了吻合其他的因素也能影响其大小,这对一个有疑问的大小给出了解释。Sim 和Wright 指出,(编码是等概率或其概率变化)的发生率(prevalence)以及(两观察者/评分员异同的边缘概率)偏差(bias)是两个重要的因素。当其他因素相同时,编码是等概率的且在两个观察者/评分员的分布相似,Kappa 值会比较高 [10]:261-262 。
另一个因素是编码数量。编码增加,Kappa随之变高。基于模拟研究,Bakeman 及其同事得出结论:对容易犯错的观察者/评分员,编码越少Kappa 值越低。而且,与Sim & Wright 关于发生率prevalence的表述一致,编码严格等概率时Kappa 值更高。因此Bakeman 等人总结说“没有一个Kappa 值是被普遍接受的”[11]:357。他们甚至提供了一个程序,从特定的编码数量及其概率和观察者精度计算出Kappa 值。如:设等概率编码且观察者85%的准确率,当编码数分别为2、3、5、10时,kappa 值对应是0.49、0.60、0.66、0.69。
虽然如此,一些文献还是提出了大小准则。第一个大概是Landis和Koch [12],他们这样划分:值<0为不吻合,0~0.20轻微slight,0.21~0.40正常fair,0.41~0.60中度moderate吻合,0.61~0.80可观substantial,0.81~1几乎完全吻合。但这一套划分准则并没有被普遍接受;Landis 和Koch 是只是主观判定,没有给出证据支持。人们注意到这些准则可能弊大于利 [13]。Fleiss [14]:218 的准则同样武断地将Kappa 值划分为大于0.75为优秀,0.40~0.75为正常至良好,低于0.40为差。
加权Kappa用于计算不同的分歧 [15],当编码是有序的情况下尤其有用 [7]:66。涉及三个矩阵:观察到的评分矩阵、基于随机吻合的期望评分矩阵、以及权重矩阵。权重矩阵对角线上的单元代表吻合,因此由0构成。非对角单元中的权重值代表分歧的严重程度。通常,单元距离对角线为1时权重设为1,距离为2的单元权重设2,一次类推。
Kappa 最大值
Kappa 假定其理论最大值是1,当且仅当俩观察者的编码分布相同,即对应的行和列的和相等。尽管如此,假定分布不相同所能达到的最大Kappa 值有助于解释实际获得的kappa值。
Kappa 最大值方程是:
,k 是编码数,
