机器学习的设计

1. 如何构建一个机器学习算法

     构建一个学习算法的推荐方法为: 
     1).  从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法 ;
     2).  绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择 ;
     3).  进行误差分析:人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势 .

2. 机器学习的数据

     1)机器学习的数据量可以根据‘应用机器学习的建议’中数据量的确定方式进行确定;

     2)数据量越大越好:也许给许多不同的算法(性能好和性能不好)大量数据后,不同的算法性能几乎都一样,因此,引起了一种在机器学习中的普遍共识:"取得成功的人不是拥有最好算法的人,而是拥有最多数据的人"。 

3.模型偏差的度量

    (1)回归模型的度量

             回归模型常用的度量指标为‘准确率’和‘均方根误差’。

    (2)分类模型的度量

           A.  分类模型常用的度量指标为‘查准率’和‘查全率’。

              1) 正确肯定(True Positive,TP):预测为真,实际为真 
              2) 正确否定(True Negative,TN):预测为假,实际为假 
              3) 错误肯定(False Positive,FP):预测为真,实际为假 
              4) 错误否定(False Negative,FN):预测为假,实际为真

             查准率(Precision)=TP/(TP+FP)例,在所有我们预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高          越好。

             查全率(Recall)=TP/(TP+FN)例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越            好。 

          B.  ‘查准率’和‘查全率’的平衡

                这两个指标应该根据实际业务场景进行确定,例如:

                如果我们希望只在非常确信的情况下预测为真(肿瘤为恶性),即我们希望更高的查准
           率,我们可以使用比 0.5 更大的阀值,如 0.7,0.9。这样做我们会减少错误预测病人为恶性
           肿瘤的情况,同时却会增加未能成功预测肿瘤为恶性的情况。 
               如果我们希望提高查全率,尽可能地让所有有可能是恶性肿瘤的病人都得到进一步地检
           查、诊断,我们可以使用比 0.5 更小的阀值,如 0.3。 

               我们希望有一个帮助我们选择这个阀值的方法。一种方法是计算 F1 值(F1 Score),其
           计算公式为: 

                                 
           我们选择使得 F1 值最高的阀值。 

    

    

你可能感兴趣的:(机器学习--数据处理)