损失函数,代价函数,风险函数,目标函数最全总结

损失函数,代价函数,风险函数,目标函数最全总结_第1张图片
上面三个函数依次为 f 1 ( x ) f _1 ( x ) f1(x) , f 2 ( x ) f _2 ( x ) f2(x) , f 3 ( x ) f _3 ( x ) f3(x),我们想用这三个函数来拟合price,price的真实值记为 y y y

那么损失函数 (loss function) 记作:
L ( y , f ( x ) ) = ( y − f ( x ) ) 2 L(y,f(x))=(y−f(x))^ 2 L(y,f(x))=(yf(x))2

损失函数是定义在单个样本上的,算的是一个样本的误差,用来表示当前模型与真实值拟合的程度,损失函数值越小,当前模型拟合度越好。

代价函数 (cost function)是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均,记作
1 N ∑ i = n N L ( y i , f ( x i ) ) \frac{1}{N}\sum_{i=n}^{N}L(y_i,f(x_i)) N1i=nNL(yi,f(xi))

风险函数是损失函数的期望,这是由于我们输入输出的(X,Y)遵循一个联合分布,由于这个联合分布是未知的,所以无法计算。但是我们是有历史数据的,就是我们的训练集,所以我们可以根据数据集进行风险预测。
f ( x ) f(x) f(x)关于训练集的平均损失称作经验风险(empirical risk),同时也是训练集的代价函数,即 1 N ∑ i = n N L ( y i , f ( x i ) ) \frac{1}{N}\sum_{i=n}^{N}L(y_i,f(x_i)) N1i=nNL(yi,f(xi)),我们的目标就是最小化这个函数,称为经验风险最小化。

从经验风险来看,显然 f 3 ( x ) f_3(x) f3(x)的经验风险最小,对历史数据的拟合最好,但是因为它过度学习历史数据,导致它在真正预测时效果会很不好,这种情况称为过拟合(over-fitting)。
所以引出了结构风险,模型越复杂,过拟合的可能性就越大,结构风险也就越大。定义函数 J ( f ) J( f ) J(f)限制模型的复杂度,在机器学习中也叫正则化(regularization),常用的有 L 1 L_1 L1 , L 2 L_2 L2 regularization。

为了使经验风险和结构风险最小化,得到最终的优化函数:
min ⁡ 1 N ∑ i = n N L ( y i , f ( x i ) ) + λ J ( f ) \min{\frac{1}{N}\sum_{i=n}^{N}L(y_i,f(x_i)) + λJ( f )} minN1i=nNL(yi,f(xi))+λJ(f)

即最小化经验风险和结构风险,这个函数就被称为目标函数。
损失函数,代价函数,风险函数,目标函数最全总结_第2张图片

参考1
参考2
参考3
参考4

你可能感兴趣的:(机器学习,算法)