深度学习常用性能评价指标

深度学习常用性能评价指标

    • 前言
    • 基于准确度的指标
    • 基于排名的指标
    • 基于图数据的指标

前言

深度学习性能指标是用于评价深度学习模型性能的依据,是设计模型的重要依据。

基于准确度的指标

深度学习常用性能评价指标_第1张图片
对于模型而言仅统计预测正确或错误的个数其意义有限,标准化的衡量具有更准确的参考价值。
准确率(Accuracy, ACC):判断正确的结果与所有观测样本之比, A C C = T P + T N T P + F P + F N + T N ACC= \frac{TP+TN}{TP+FP+FN+TN} ACC=TP+FP+FN+TNTP+TN
精确率(precision)或阳性预测值(Positive Predictive Value, PPV):判断正确的结果占预测为positive的比例, P r e c i s i o n = T P T P + F P Precision= \frac{TP}{TP+FP} Precision=TP+FPTP
灵敏度(Sensitivity)或称召回率(Recall)或真阳率(True Positive Rate, TPR):模型预测正确的个数占真实值为positive的比例, S e n s i t i v i t y = T P T P + F N Sensitivity= \frac{TP}{TP+FN} Sensitivity=TP+FNTP
特异度(Specificity)或选择率(Selectivity)或真阴率(True Negative Rate, TNR):判断正确的个数占真实值为Negative的比例, S p e c i f i c i t y = T N T N + F P Specificity= \frac{TN}{TN+FP} Specificity=TN+FPTN
阴性预测值(Negative Predictive Value, NPV):判断正确的结果占预测为negative的比例, N P V = T N T N + F N NPV= \frac{TN}{TN+FN} NPV=TN+FNTN
假阴率(False Negative Rate, FNR):判断错误的个数占真实值为positive的比例, F N R = F N F N + T P FNR= \frac{FN}{FN+TP} FNR=FN+TPFN
假阳率(False Positive Rate, FPR):判断错误的个数占真实值为negative的比例, F P R = F P F P + T N FPR= \frac{FP}{FP+TN} FPR=FP+TNFP
错误发现率(False Discovery Rate, FDR):预测错误的个数占预测值为positive的比例, F D R = F P F P + T P FDR= \frac{FP}{FP+TP} FDR=FP+TPFP
错误遗漏率(False Omission Rate, FOR):预测错误的个数占预测值为negative的比例, F O R = F N F N + T N FOR= \frac{FN}{FN+TN} FOR=FN+TNFN
威胁分数(Threat score, TS)或临界成功指数(critical success index, CSI): T S = T P T P + F N + F P TS= \frac{TP}{TP+FN+FP} TS=TP+FN+FPTP
F分数(F-Score)是精度和召回率的调和平均值: F = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l = 2 × T P 2 × T P + F N + F P F= 2\times\frac{precision\times recall}{precision+recall}= \frac{2\times TP}{2\times TP+FN+FP} F=2×precision+recallprecision×recall=2×TP+FN+FP2×TP
阳性似然比(Positive likelihood ratio, LR+): L R + = T P R F P R LR+= \frac{TPR}{FPR} LR+=FPRTPR
阴性似然比(Negative likelihood ratio, LR-): L R − = F N R T N R LR-= \frac{FNR}{TNR} LR=TNRFNR
诊断优势比(Diagnostic odds ratio, DOR): D O R = L R + L R − DOR= \frac{LR+}{LR-} DOR=LRLR+
接收者操作特征曲线(receiver operating characteristic curve, ROC)是坐标图式的分析工具,其横轴为FPR,纵轴为TPR。
曲线下面积(Area Under Curve, AUC)是ROC曲线下的面积。
平均精度(Average Precision, AP)是衡量精确率和召回率的一种指标,当Recall阈值从0增加到1时,Precision越高,AP越高。Precision-Recall曲线描述了Precision和Recall之间的关系。 好的模型应该改善Recall,同时将Precision保留相对较高的分数。 相反,较弱的模型可能会损失更多的Precision以改善Recall。 与Precision-Recall曲线相比,AP可以更直观地显示模型的性能。

基于排名的指标

平均倒数排名(MRR): MRR是衡量排名模型的常用指标。 对于目标查询,如果第一个正确的项目排在第n位,则MRR分数为1/n,一旦不匹配,则分数为0,模型的MRR是所有查询的分数之和。
Hits@K:通过计算所有真实元组的排名(例如MRR),Hits @ K是排名在前K位的正确实体的比例。

基于图数据的指标

归一化互信息(NMI)和模块度是用来评估图上社区检测(即聚类)性能的两个指标。NMI起源于测量两个变量之间相互依赖性的信息理论。在社区检测场景中,NMI用于度量两个社区之间的共享信息量(即相似性)。模块度被设计用来衡量一个图划分成簇的强度。具有高模块度的图在簇内节点之间具有密集连接,而在不同簇中节点之间连接稀疏。
图属性统计数据指标包括基尼系数、特征路径长度、分布熵、幂律指数和三角形计数。一些更多的图统计指标包括度排序、接近中心性排序、中介中心性排序和使用的聚类系数、最短路径长度、对角线距离。

你可能感兴趣的:(人工智能,深度学习,人工智能)