机器学习系统的设计

一、首先要做什么

  1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法。
  2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择。
  3. 进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势。

二、查全率和查准率

查准率(Precision)和查全率(Recall) 我们将算法预测的结果分成四种情况:

  1. 正确肯定(True Positive,TP):预测为真,实际为真
  2. 正确否定(True Negative,TN):预测为假,实际为假
  3. 错误肯定(False Positive,FP):预测为真,实际为假
  4. 错误否定(False Negative,FN):预测为假,实际为真

查准率=TP/(TP+FP)。
查全率=TP/(TP+FN)。
查全率和查准率之间需要做一个权衡。

你可能感兴趣的:(机器学习系统的设计)