大数据案例分析1.4(回归问题及其性能评价)

回归问题

回归: 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计方法。

和分类问题不同,回归通常输出为一个实数数值。二分类的输出通常为若干指定的类别标签

回归性能度量方法:

  • 平均绝对误差MAE
    大数据案例分析1.4(回归问题及其性能评价)_第1张图片

  • 均方差MSE
    大数据案例分析1.4(回归问题及其性能评价)_第2张图片

  • logistic回归损失(二类)
    简称Log loss或交叉熵损失,常用于哦名家逻辑回归LR和神经网络

    对于二分类问题:
    1、假设某样本的真实标签为y(取值为0或1),概率估计为p=pr(y=1)
    2、每个样本的log loss是对分类器给定真实标签的负log似然估计
    在这里插入图片描述
    大数据案例分析1.4(回归问题及其性能评价)_第3张图片

  • Logistic回归损失(多类)
    1、 对于多类问题,可将样本的真实标签编码成1-of-K(K为类别总数)的二元指示矩阵Y
    在这里插入图片描述
    2、假设模型对测试样本的概率估计结果为p,则在测试集(假设测试集样本总数为n)上的交叉熵损失如下:
    在这里插入图片描述
    yi,k表示第i个样本的第k个标签的真实值,注意由于表示为“1-of-K”模式,因此每个样本只有其中一个标签值为1,其余为0。pi,k表示模型对该样本的预测值

大数据案例分析1.4(回归问题及其性能评价)_第4张图片

你可能感兴趣的:(大数据案例分析1.4(回归问题及其性能评价))