11.机器学习系统设计(system design)

第六周 Lecture 11

  1. 推荐方法
  • 尽快使用一种方法实现,使用验证测试算法;
  • 打印出学习曲线来决定是否要更多的训练数据;
  • 误差分析:使用验证测试手工检查算法错在哪里(是欠拟合还是过拟合)
  1. 不对称性分类的误差评估
    偏斜分类(skewed class):指 positive(y=1)对比negative(y=0)特别小
    例如:y=1是得癌症的样本 y=0是正常的。
真实分类(actual class) 1 真实分类0
预测分类(predicted)1 True Positive False Positive
预测分类0 False negative True negative


  1. 精确度和召回率的权衡(trading off precision and recall)
  • 对于逻辑回归(logistic regression)
    predict 1 if
    predict 0 if
    predict 1 if

  • threshold值大于0.5,更高的精确度,更低的召回率

  • threshold值越低(小于0.5),更低的精确度,更高的召回率

image.png


P: Precision(精确度)
R:Recall (召回率)
如果确定threshold?尽可能让F1 score值更大

  1. 机器学习的数据(Data for machine learning)
  • 更多的数据可以抵消算法的差异。
    "it's not who has the best algorithm that wins it's who has the most data"
  • 大数据应用的场景
    特别多参数据(例如 逻辑回归/线性回归有特别多个特性,或神经网络有很多的隐藏层)

你可能感兴趣的:(11.机器学习系统设计(system design))