吴恩达机器学习系列课程笔记——机器学习的评估和诊断

该系列笔记内容是楼主在观看课程时记录的,其中图片是视频中ppt的截图,内容仅供参考,有问题欢迎大家指出。

目录

  • 1. 机器学习评估方法
    • 1.1 传统标准
    • 1.2 交叉验证集
  • 2. 机器学习诊断法(Machine Learning Diagnostics)
    • 2.1 特征数量对拟合的影响
    • 2.2 正则化参数对拟合的影响
    • 2.3 样本数对拟合的影响——学习曲线(Learning Curves)
    • 2.4 神经网络隐藏层神经元个数对拟合的影响

1. 机器学习评估方法

1.1 传统标准

  • 数据集分割方法:随机地将数据集的70%用于训练,也称为训练集(Training Set),剩余的30%用于测试,也称为测试集(Test Set)
  • 在训练集中对特征θ进行学习,当拟合出良好的模型后,再用于测试集中计算误差
  • 对于分类算法中的测试,可以通过错误分类(Misclassification Error),也称为0/1分类错误(0和1表示预测正确和错误的情况),计算分类的错误率

吴恩达机器学习系列课程笔记——机器学习的评估和诊断_第1张图片

错误分类描述

1.2 交叉验证集

  • 对于模型选择问题建议分成60%的训练集、20%的测试集和20%交叉验证集(CV,Cross Validation Set),其中测试集和交叉验证集的数据最好不要重合
  • 以多项式回归公式的选择为例,可以将预先设计的每个多项式在训练集上进行学习,接着用验证集筛选出误差最小的模型,最后再用测试集计算泛化误差进行调整

2. 机器学习诊断法(Machine Learning Diagnostics)

以下包含特征数量、正则化参数、样本数量和神经网络隐藏层神经元个数对拟合的影响,以及相应的解决办法
P. S. 不了解偏差(Bias)和方差(Variance)的定义以及拟合的分类的同学可以看吴恩达机器学习系列课程笔记——过拟合问题以及正则化技术

以下图中曲线为理论趋势,真实数据拟合后的曲线会有很多噪音,但趋势大体相同

2.1 特征数量对拟合的影响

吴恩达机器学习系列课程笔记——机器学习的评估和诊断_第2张图片

特征数量对拟合的影响
  • 上图为特征拟合数量-错误率的图
    • 当特征数量较少时,模型不能很好的进行拟合,导致在训练集和验证集上的错误率都很高
    • 随着特征数量的增多,模型错误率逐渐降低,能较好的拟合训练集和验证集的数据
    • 当特征数量很多时,由于限制条件的增多,模型拟合训练集的程度较好,但不能很好的迁移到验证集中,导致验证集上错误率较高
  • 欠拟合情况:
    • 症状:代价函数的值在训练集和验证集上都很高
    • 解决办法:需要增加特征数量
  • 过拟合情况:
    • 症状:代价函数的值在验证集上远超过训练集上
    • 解决办法:需要减少特征数量

2.2 正则化参数对拟合的影响

吴恩达机器学习系列课程笔记——机器学习的评估和诊断_第3张图片

正则化参数对拟合的影响
  • 上图为正则化参数-错误率的图
    • λ值很小时,惩罚程度小,即每个参数都有较高的权重值,导致在训练集上拟合程度高,但不能适应验证集合
    • 随着λ值的增大,模型在验证集上的错误率逐渐降低,在训练集上的错误率增加,到达某一点能较好程度地拟合训练集和验证集的数据
    • λ值很大时,由于惩罚度过大,导致每个参数的参与程度都很低,不能很好的拟合复杂情况
  • 欠拟合情况:
    • 症状:代价函数的值在训练集和验证集上都很高
    • 解决办法:需要减小正则化参数λ
  • 过拟合情况:
    • 症状:代价函数的值在验证集上远超过训练集上
    • 解决办法:需要增大正则化参数λ

2.3 样本数对拟合的影响——学习曲线(Learning Curves)

吴恩达机器学习系列课程笔记——机器学习的评估和诊断_第4张图片

欠拟合模型下样本数量对拟合的影响
  • 上图左侧为(模型选择导致的欠拟合情况下的样本数量-错误率的关系图
    • 当样本数量很小时,由于数量的不足导致无法明确的判断出走势,即训练集上的正确率很高,但不能很好的适应验证集
    • 随着样本数量逐渐增多,由于模型限制,致使训练集上的误差增长迅速,验证集上的误差减少但仍处于较高的错误率
    • 当样本数量很大时,模型训练集和验证集上的错误率逐渐接近,且都维持在稍高的错误率
  • 上图右侧即为举例说明,当选择的是单变量线性回归模型时,用其训练一个趋势为log型模型,则不论样本数据多少,都不能很好的拟合;即对于欠拟合模型来说,增加样本数不能有效的改变其拟合情况

吴恩达机器学习系列课程笔记——机器学习的评估和诊断_第5张图片

过拟合模型下样本数量对拟合的影响
  • 上图左侧为(模型选择导致的过拟合情况下的样本数量-错误率的关系图
    • 当样本数量很小时,由于数据规模小且模型较为复杂,能在训练集上能很好拟合,但无法适应验证集上的数据
    • 随着样本数量逐渐增多,由于拟合程度高且数据覆盖面越来越广,训练集上的错误率增长缓慢,而验证集上的正确率也逐渐增高
    • 当样本数量很大时,模型训练集和验证集上错误率之间的距离很小,且二者都维持在较低的错误率
  • 上图右侧即为举例说明,当选择的是多项式回归模型时,不论样本数据多少,都能较好的拟合训练集;但随着训练数量的增多,拟合覆盖的范围越广,越能对数据进行准确预测,即对于过拟合模型来说,增加样本数有效的改进措施

2.4 神经网络隐藏层神经元个数对拟合的影响

吴恩达机器学习系列课程笔记——机器学习的评估和诊断_第6张图片

神经网络隐藏层神经元个数对拟合的影响
  • 上图为神经网络隐藏层神经元个数(以及层数)的示意图
    • 当神经元数量较少时,其参数θ较少,使得计算方式较为简单
    • 当神经元数量较多时,具有较多的参数θ,可以计算十分复杂的模型,但需要花费更多的资源
  • 欠拟合情况:
    • 症状:神经元数量较少
    • 解决办法:需要增加神经元个数(或层数)
  • 过拟合情况:
    • 症状:神经元数量(或层数)较多
    • 解决办法:
      1. 需要减少神经元个数(或层数)
      2. 使用正则化技术(推荐)

你可能感兴趣的:(#,吴恩达机器学习)