花书学习笔记

5.2 容量、过拟合和欠拟合

奥卡姆剃刀:多个能够解释已知观测现象的假设中,选择那个“最简单”的。
容量:拟合各种函数的能力,容量大于应用易过拟合,小于则易欠拟合。
VC维:Vapnik-Chervonenkis dimension, 度量二元分类器的容量。
参数模型: 函数观测到新数据之前,参数向量的分量个数有限且固定。(如线性回归)
非参数模型:复杂度大小与训练集大小有关,(如最近邻回归)
最近邻回归:模型存储了训练集中所有的X与y, 测试点x需要分类时,模型会查询训练集中最接近的点,返回回归目标。
数据集每个样本相互独立(服从独立同分布),
训练误差 vs. 测试误差(也叫泛化误差)
贝叶斯误差:从预先知道的真实分布p(x,y)预测而出现的误差。
容量小于最优容量的固定参数模型,会渐进到大于贝叶斯误差的误差值。
NFL定理:没有免费午餐定理:没有实际背景下,没有算法会比随机乱猜更好。(算法A在某些问题比算法B好,就会有在某些问题中不如B好)

5.2.2 正则化

修改训练学习算法,使其降低测试误差,而非训练误差
我们可给代价函数增加一个叫正则化项的惩罚。
在权重衰减来进行线性回归中:
J ( w ) = M S E ( t r a i n ) + λ w T w J(w) = MSE_(train) + \lambda w^T w J(w)=MSE(train)+λwTw
λ \lambda λ 越小 ,容量越大,容易过拟合
wTw为正则项

你可能感兴趣的:(深度学习)