【机器学习】课程笔记10_机器学习系统的设计(Machine Learning System Design)

机器学习系统的设计

  • 确定执行的优先级(Prioritizing What to Work On)
  • 误差分析(Error Analysis)
  • 不对称性分类的误差评估(Error Metrics for Skewed Classes)
  • 查准率和查全率的权衡(Trading off Precision and Recall)
  • 机器学习数据(Data for Machine Learning)

确定执行的优先级(Prioritizing What to Work On)

  • 目的:误差分析,怎样用一个更加系统性的方法,从一堆不同的方法中,选取合适的那一个来提高精度减小误差。

误差分析(Error Analysis)

  • 构建一个学习算法的推荐方法为:
    • 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法。
    • 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择。
    • 进行误差分析(量化):人工检查交叉验证集中我们算法中产生预测误差的样本,看看这些样本是否有某种系统化的趋势。

不对称性分类的误差评估(Error Metrics for Skewed Classes)

  • 偏斜类(Skewed Classes): 一个类中的样本数与另一个类的样本数相比多很多。

    • 此时误差分析就不能很好地评估模型地准确性,需要一个不同的误差度量值/评估度量值。
  • 查准率和查全率(Precision/Recall):

    • 将算法预测结果分为四种情况:

      • 真阳性/正确肯定(True Positive, TP):预测为真,实际为真。
      • 真阴性/正确否定(True Negative, TN):预测为假,实际为假。
      • 假阳性/错误肯定(False Positive, FP):预测为真,实际为假。
      • 假阴性/错误否定(False Negative, FN):预测为假,实际为真。
    • 查准率(Precision): T P T P + F P \cfrac{TP}{TP+FP} TP+FPTP

      例:在所有我们预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高越好。

    • 查全率(Recall): T P T P + F N \cfrac{TP}{TP+FN} TP+FNTP

      例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

    • y = 1 y=1 y=1 的情况往往是偏斜类中情况较少的情况。

查准率和查全率的权衡(Trading off Precision and Recall)

  • 不同阈值(预测 y = 1 y=1 y=1,当 h θ ( x ) ≥ t h r e s h o l d h_\theta(x) \geq threshold hθ(x)threshold)情况下查全率和查准率的图表:

    【机器学习】课程笔记10_机器学习系统的设计(Machine Learning System Design)_第1张图片

  • 选择阈值方法:F1值(F1 Score)

    F 1 S c o r e = 2 P R P + R F_1Score=2\cfrac{PR}{P+R} F1Score=2P+RPR,F1值越高越好。

机器学习数据(Data for Machine Learning)

  • 低偏差: 有较多参数的学习算法(有较多特征的逻辑回归/线性回归,或有大量隐藏单元的神经网络)

    低方差: 有大量的训练数据集(不太可能过拟合)

你可能感兴趣的:(机器学习,人工智能,算法)