吴恩达机器学习-Chapter 11 应用机器学习的建议

本章目的:评估判断算法的好坏,以及问题点,并对症下药

1. lesson 84 评估假设

    1. 目的:评估假设 判断欠拟合、过拟合问题
    2. 数据集分为测试集、训练集

2. lesson 85 模型选择 训练集、验证集、测试集

    1. 首先根据训练集训练出不同的模型算法(不同的多项式及次数)
    2. 然后在测试集是计算出不同模型算法的J(θ),取J(θ)最小的模型算法
    3. 当在第二步选择出的模型算法之后,就无法在未知数据上验证模型的泛化能力
    4. 基于第三步原因引入了验证数据集,训练集(训练模型)、验证集(选择模型)、测试集(验证模型泛化能力)

3. Lesson 86 诊断偏差与方差

    1. 目的:判断算法是处于偏差还是方差问题
    2. 偏差:Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力
    3. 方差:Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。反应预测的波动情况。
    4. 高偏差=》欠拟合 ,训练集和验证集(测试集)的误差都很大,训练集J(θ)≈测试集J(θ),训练数据再多也无用
    5. 高方差=》过拟合,训练集误差很小,验证集(测试集)误差很大, 训练集J(θ)<<测试集J(θ)

4. lesson 87 正则化与偏差、方差

    1. 目的:判断正则化参数λ是否合适
    2. 当λ很大时,出现高偏差,欠拟合问题
    3. 当λ很小时,出现高方差,过拟合问题

5. Lesson 89 算法学习曲线

    1. 目的:通过学习曲线判断算法是否出现偏差或者方差问题
    2. 高偏差=》随着训练样本数的增加,训练样本的误差会持续增加,最终达到平稳,也就是说训练样本数增加也无用,但是验证集/测试集随着训练样本数的增加,误差会持续降低,最终也会平稳,最终训练样本的学习曲线和验证样本的学习曲线接近,和J_train值都很大。
    3. 高方差=》随着训练样本数增加,训练样本误差会减小,J_train很小,交叉验证误差J_cv会一直很大,但是随着训练样本数的增大而会一直降低。

6. Lesson 91 决定接下来做什么

    1. Get more training examples => fixes high variance 高方差
    2. Try small sets of features => fixes high variance
    3. Try getting additiona(额外特征)l features => fixes high bias 高偏差
    4. Try adding polynomia(多项式)l features => fixes high bias 高偏差
    5. Try decreasing λ => fixes high bias 高偏差
    6. Try increasing λ => fixes high variance 高方差
    7. 通常大型的神经网络引入正则化λ比小型神经网络效果好,但是计算量较大

你可能感兴趣的:(吴恩达机器学习-Chapter 11 应用机器学习的建议)