非平衡数据集是医学数据集中常见的一种数据形式,指的是二分类结局变量中一种类别的数量远于另一类别的数量的情形,比如以远处转移或者死亡作为结局变量,远处转移或者死亡类别的数量往往远小于对照的数量。
非平衡数据是需要单独处理的一类问题,否则会造成模型效能的下降。通常非平衡数据处理过程中的需要对训练数据集进行重采样,比如采用上采样、下采样或者混合采样等多种方法以使结局变量中类别的数量实现平衡。另外,评价模型效能的时候采用常见的ROC曲线下面积会高估模型的效能,所以会搭配PR曲线来进一步评估模型的表现。以上措施被认为是处理非平衡数据集必须要采用的两个措施。
下面所说的几个措施是笔者在处理非平衡数分析过程中的几点尝试,供大家参考。
归根结底都是为了模型有一个良好的区分度和校准度,遇到非平衡数据集可以进行以上的尝试,相信一定有某个措施适合你。
参考文献:
Carrington AM, Fieguth PW, Qazi H, Holzinger A, Chen HH, Mayr F, Manuel DG. A new concordant partial AUC and partial c statistic for imbalanced data in the evaluation of machine learning algorithms. BMC Med Inform Decis Mak. 2020 Jan 6;20(1):4. doi: 10.1186/s12911-019-1014-6. PMID: 31906931; PMCID: PMC6945414.