friedman test的原理及r实现

目录

背景:

原理和步骤:

r实现: 

背景:

写论文的过程中常常涉及到将自己模型的结果与其它模型相比较,有时候仅仅把两个(或多个)模型在若干个样本上的预测效果(例如准确率,rmse, mae等)列出来作对比是不够的,还需要说明这些模型的差异具有统计学意义,这样也能让文章更饱满和更具说服力。那么通过什么样的统计检验来说明模型之间的性能存在差异呢?可以使用friedman test。

原理和步骤:

friedman test是一个非参数检验,假设有3个算法a,b,c在数据集d1,d2,d3,d4上求预测准确率,得到如下的结果:

算法a 算法b 算法c
数据集d1 100% 85% 90%
数据集d2 100% 80% 90%
数据集d3 95% 90% 90%
数据集d4 95% 80% 90%

那么,在每个数据集上将算法从好到坏排名,得到算法在各个数据上的名次,如果有多个算法在同一数据集上性能相同,则平分名次,得到名次表如下:

注意数据集d3中算法b和c的准确率相同,所以将2、3名平分给b和c,所以b和c的名次都是(2+3)/2=2.5。再计算各个算法在所有数据集上的平均名次,得到以下结果:

算法a 算法b 算法c
平均名次 1 2.875 2.125

将3个算法的平均名次分别记为r1,r2,r3,那么friedman test的原假设h0就是“r1=r2=r3",即三个算法的性能没有明显差异。friedman统计量可计算如下:

\chi_{F}^2=\frac{12N}{k(k+1)}[\sum\limits_{j=1}^{k}r_{j}^2-\frac{k(k+1)^{2}}{4}]

上式中N和k分别是数据集个数和算法个数,在本例中分别为4和3,rj就是第j个算法的平均名次,当原假设h0成立时,上述统计量服从自由度为k-1的卡方分布。计算这个统计量看它的p值,若p值小于显著性水平(通常为0.05或0.01),则拒绝原假设h0,此时可认为各个算法的性能存在显著差异。

r实现:

还是以上面得到的矩阵为例子:

algorithm_a<- c(1,1,0.95,0.95) #算法a在4个数据集中的准确率,下同
algorithm_b<- c(0.85,0.8,0.9,0.8) 
algorithm_c<- c(0.9,0.9,0.9,0.9) 
mat<- cbind(algorithm_a, algorithm_b, algorithm_c)
rownames(mat)<- c('d1', 'd2', 'd3', 'd4')
mat #这个就是我们要用的数据,注意这个数据必须是matrix类型数据,如果不是,
#则要使用as.matrix函数将其转换为matrix
result<- friedman.test(mat) #将friedman test的结果保存在result中
result$statistic #返回统计量
result$p.value #返回p值

结果如下:

> result$statistic
Friedman chi-squared 
                 7.6 
> result$p.value
[1] 0.02237077

可以看到,p值小于0.05,因此可以认为这3个算法在这4个数据集上的性能是有差异的。

你可能感兴趣的:(friedman test的原理及r实现)