训练-测试数据类别不平衡和交叉熵(Quora question pair challenge中的类别不平衡问题)
介绍假设我们想要在一个二分类问题上训练一个机器学习模型,一个标准的度量模型性能的方法叫做log-loss或binarycross-entropy.这意味着对于给定的预测标签y的任务,我们想要得到概率y^\hat{y}y^,而不是仅仅输出一个0/1的预测类别.模型的crossentropy分数定义为:∑i−yilogyi^−(1−yi)log(1−yi^)\sum_i-y_ilog\hat{y_i}