类别不平衡问题

  若训练样例数正例和反例的差别很大,则会对学习过程造成困扰。例如998个反例,2个正例,那么学习方法只需永远将测试新样本设为反例,那么就会99.8%的精度,但是这样是没有价值的,因为学习器不能预测出正例。
  从线性分类器的角度讨论,使用对样本进行分类时,事实上是在用预测出的与一个阈值进行比较,若大于则为正例,反之亦然。当训练集的正例与反例数目不同时,观测几率是作为真实几率(假设训练集是真实样本的无偏采样),于是只要分类器的预测几率高于观测几率则判断为正例,即
      

需要对原观测值进行调整(称为“再缩放”或“再平衡”):
      

你可能感兴趣的:(类别不平衡问题)