一、 应用场景
ROC曲线,也称受试者工作特征曲线,感受性曲线;ROC曲线最初是运用在军事上,当前在医学领域使用非常广泛,用于研究X对于Y的预测准确率情况。
案例:
雷达兵的任务在于监视雷达,观察是否有敌机来袭,当然如果有飞鸟来袭,也会出现信号,如果过于谨慎有信号就报告,会增加误报风险,但如果过于大胆,凡是信号都认为是飞鸟这会出现很大风险。ROC曲线正是解决此类问题,即用于尽最大可能研究敌机信号和飞鸟信号之间的区别,以增加预报准确性。
核心在于研究漏报和误报之间的概率分布情况,横坐标表示飞鸟信息不报告的概率,纵坐标表示敌机信息报告的概率即正确报告的概率,将对应的点连成曲线,这条曲线就是ROC曲线。
二、名词解释
ROC曲线最初运用于军事上,当前ROC曲线在医学领域有着广泛的使用。医学上更多称为“阳性”(比如敌机)或“阴性”(比如飞鸟),对应着X轴即1-特异性也称为假阳性率(误报率),该值越小越好;Y轴敏感度也称为真阳性率(敏感度),该值越大越好。
三、 操作与分析
1.数据背景
本案例研究产妇年龄,产妇体重这两项对于“低出生体重儿”的预测准确率,针对“低出生体重儿”列,数字1表示低出生体重儿,0表示不是低出生体重。数字1表示“阳性”,数字0表示“阴性”,因此切割点设置为1。
PS:非真实收集数据仅作案例使用
2.SPSSAU操作截图如下
3.SPSSAU数据输出说明
分析结果来源于SPSSAU
说明1
从上表可知,针对产妇年龄, 产妇体重共2项构造ROC曲线,用于判断其对于“低出生体重儿”的诊断预测价值,首先进行状态变量的设置。以数字1作为切割点, 1为阳性,0作为阴性。最终从上表可可以看出:阳性(此处即为“低出生体重儿”)比例为68.78%,阴性(此处即为“非低出生体重儿”)比例为31.22%。
ROC 曲线可用于疾病识别能力的判断,首先需要确定金标准(分割点),并且主动设置;第一步:状态变量等于分割点时为阳性,其它为阴性;第二步:可对阳性和阴性的基本频数分布情况进行简单描述。
说明2
从上表可知,针对产妇体重, 产妇年龄共2项构造ROC曲线,用于判断它们对于低出生体重儿的诊断价值,从上表可以看出:产妇体重对应的AUC值为0.601,意味着产妇体重对于低出生体重儿的诊断价值比较低。产妇年龄对应的AUC值为0.549,意味着产妇年龄对于低出生体重儿的诊断价值比较低。
总结可知:产妇体重, 产妇年龄共2项的对就看AUC值均低于0.7,意味着它们对于低出生体重儿的诊断价值较低。
说明3
从上表可以看出:产妇体重对应的AUC值为0.601,意味着产妇体重对于低出生体重儿的诊断价值比较低。产妇年龄对应的AUC值为0.549,意味着产妇年龄对于低出生体重儿的诊断价值比较低。
总结可知:产妇体重, 产妇年龄共2项的对就看AUC值均低于0.7,意味着它们对于低出生体重儿的诊断价值较低。
SPSSAU还提供ROC曲线之AUC比较检验:
例:
如果需要比较两种临床诊断效果ROC曲线面积(AUC值)的差异性(独立样本),可直接在上表进行输入设置得到结果。
第一步:输入对应的两个AUC值,两个标准误(SE值);
第二步:结合生成的z值和p值进行差异判断,如果p<0.05则说明两个ROC面积(AUC)有显著差异,反之无显著差异;
第三步:如果p<0.05,具体差异直接对比AUC差值即可。
4.总结
针对产妇年龄,其最佳界值出现在敏感度为0.277,特异度为0.881(1-特异度为0.119)时,即在该点时,最靠近左上角(此时整体最优),针对产妇体重,其最佳界值出现在敏感度为0.785,特异度为0.407(1-特异度为0.593)时,即在该点时,最靠近左上角(此时整体最优)。
最后针对产妇年龄, 产妇体重这两项的AUC面积是否呈现出显著性差异进行检验,最终显示产妇年龄, 产妇体重这两项的AUC值并没有显著性差异(z =-0.8357,p =0.4033>0.05)。
四、 扩展
ROC曲线是以1 - 特异性即误报率为X轴,以特异性(敏感度)作为Y轴而建立的折线图。ROC曲线以下的面积值代表着预测的准确率情况,称其为AUC值。显然,AUC越大,意味着预测准确率越高,反之说明预测准确率越低。AUC值介于0到1之间,关于AUC值的判断说明如下:
针对ROC曲线的X(检验变量)和Y(状态变量)的进一步说明,X(检验变量)和Y(状态变量)可为任意数据类型(定量和定类数据均可);有以下两点需要特别提示