【小样本基础】小样本的性能评价标准总结(小样本重新编码 / Per-class metrics / Overall metrics )

对小样本的训练模式 N-way K-shot 不了解的读者可以先阅读这博客:【小样本基础】N-way K-shot 模式和训练策略。本篇博客将介绍数据重新编码下的小样本性能评价指标,以及从以往阅读的论文中总结的适用于小样本场景的评价方式。

目录

  • 小样本数据重新编码下的性能评价标准
  • 适用于小样本的度量标准
    • Per-class metrics
    • Overall metrics

  近年来小样本的数据集越来越多,有直接在大数据集上摘取的,也有小数据集自身打标构建的,每个数据集都有着其本身的特点。小样本的训练及实现目标可能同一般的分类任务有所不同,但是在性能评价标准上是相同的,因为训练中构建了诸多的分类任务,一次训练会同时运行多个分类任务,所以这种方式类似于批量训练,对于模型的性能评价也是需要经过统计得分求平均的。而且小样本分类还有不同的一点是,样本没有直接使用标签,而是对所采样的样本进行了重新的编码

小样本数据重新编码下的性能评价标准

这一小节将介绍小样本数据重新编码以及重新编码后的Acc计算。

  在进行随机采样后,每个分类任务中实际上使用的样本数是很少的,一般只有 10 张或 30 张左右。所以,每一次训练并未不断导入原始的图像标签,而是在数据样本进行训练之前,对每类样本进行更为简单的重新编码。如下图所示,以 5way-1shot 为例,在一个任务中,从数据集中随机采样五类,每类中再随机采样两张样本,5 张构成 Support set,5 张构成 Query set,其之前的类别可能是第 14,18,46,25,53 这五类,但会被重新编码成 0,1,2,3,4。以此作为新的编码,而这种编码方式也十分有利于后续的性能评价。
【小样本基础】小样本的性能评价标准总结(小样本重新编码 / Per-class metrics / Overall metrics )_第1张图片

  在一个任务中,对于每一个需要预测的样本,都会得到 5 个预测值,这 5 个预测值是以当前样本为基准,模型预估了它属于每一类的可能性,如图下图所示,对于这五个样本,得到了一个5x5的矩阵,每一行都会得到一个最大值,取最大值的索引位置,与标签(0,1,2,3,4)去比对,若相同则分类正确,这里也就体现了重新编码的便利。
【小样本基础】小样本的性能评价标准总结(小样本重新编码 / Per-class metrics / Overall metrics )_第2张图片
  以上求得的准确度 0.6 即为识别正确率 Acc,作为评价指标其计算公式如下所示:

   A c c = ∑ i = 1 c T i ∑ i = 1 c ( T i + N i ) A c c=\frac{\sum_{i=1}^{c} T_{i}}{\sum_{i=1}^{c}\left(T_{i}+N_{i}\right)} Acc=i=1c(Ti+Ni)i=1cTi

  其中,c 是总的类别数,Ti 是类别i 识别正确的样本个数, Ni 是类别i 识别错误的样本个数,Ti +Ni 是第i 类样本的总数。最终,为了使求得的准确度能够合理规范,所以,以平均准确度作为最终模型的指标。在训练时,以 Batch 为基准,求解每次迭代后一个 Batch 中所有任务的准确度之和的平均值作为评价指标,在测试和验证的时候,以任务数作为基准,将所有分类任务执行完成后,对准确度求和再平均,该 mean Acc 计算公式如下所示:
   m e a n A c c = 1 k ∑ j = 1 k A ′ c j = 1 k ∑ j = 1 k ( ∑ i = 1 c T i ∑ i = 1 c ( T i + N i ) ) j meanAcc=\frac{1}{k} \sum_{j=1}^{k} A^{\prime} c_{j}=\frac{1}{k} \sum_{j=1}^{k}\left(\frac{\sum_{i=1}^{c} T_{i}}{\sum_{i=1}^{c}\left(T_{i}+N_{i}\right)}\right)_{j} meanAcc=k1j=1kAcj=k1j=1k(i=1c(Ti+Ni)i=1cTi)j

   其中,k 是 Batch 数值大小或分类。

适用于小样本的度量标准

这一小节将持续更新博主在论文中看到的适用于小样本的度量方式。

  在一些论文中,对小样本的分类结果,将从两个层次来度量:Overall metrics 和Per-class metrics。Overall metrics 可以度量整个数据集上的分类结果,而Per-class metrics则更细致地评估每一个类别的分类结果。

Per-class metrics

  对于单个类别的度量,和传统分类相似,可以从以下这些分类方式中选择:

  1. Precision= /( + )
  2. Recall= /( + )
  3. F1= /( + + )
  4. AUC-PR(Area Under Precision-Recall Curve)

Overall metrics

  1. G-mean (GM) :在数据不平衡的时候,这个指标很有参考价值。GM等于所有recall的几何平均值。 G M = ∏ i = 1 n  Recall  i n G M=\sqrt[n]{\prod_{i=1}^{n} \text { Recall }_{i}} GM=ni=1n Recall i
  2. MAUC
    M A U C = 1 n ∑ i = 1 n A U C − P R i MAUC=\frac{1}{n} \sum_{i=1}^{n} A U C-P R_{i} MAUC=n1i=1nAUCPRi
  3. MAUC-PR

参考:

  1. 基于GNN的小样本分类算法研究_宋小池
  2. Let Imbalance Have Nowhere to Hide Class-Sensitive Feature Extraction for Imbalanced Traffic Classification
  3. GAN based Traffic Augmentation for Imbalanced Network Traffic Classification

你可能感兴趣的:(#,小样本,小样本)