机器学习中的损失函数


文章目录

  • 0. 前言
  • 1. logit模型
    • 1.1. Odds
    • 1.2. logit模型

0. 前言

损失函数一般表示为 L ( f , f ( x ) ) L(f,f(x)) L(f,f(x)),用以衡量真实值 y y y和预测值 f ( x ) f(x) f(x)之间不一致的程度。在回归为重,一般

1. logit模型

1.1. Odds

Odds和概率都用来描述某件事情发生的可能性,区别在于概率描述的是事件A出现的次数与所有可能的结果出现的次数之比,Odds描述的是事件A发生的概率与事件A不发生的概率之比。显然,概率的区间是 [ 0 , 1 ] [0,1] [0,1],Odds的区间是 [ 0 , + ∞ ] [0,+\infty] [0,+]

1.2. logit模型

logit可以理解成log-it(即it的自然对数,这里的it指的就是Odds)。logit变换是从概率 P → O d d s → L o g i t P\rightarrow Odds\rightarrow Logit POddsLogit的一个变换,数学形式为 l n ( P i 1 − P i ) ln\left(\frac{P_i}{1-P_i}\right) ln(1PiPi)。取对数是为了防止数值太大或太小,并且可以让取值由 [ 0 , + ∞ ] [0,+\infty] [0,+]映射到 [ − ∞ , + ∞ ] [-\infty,+\infty] [,+]
为什么要用logit模型对概率建模呢?如果要对一个变量建模,最简单的就是线性回归模型,例如: Y = β 0 + β X , Y ∈ [ − ∞ , + ∞ ] Y=\beta _0+\beta X,Y \in [-\infty,+\infty] Y=β0+βX,Y[,+]。但是概率是 [ 0 , 1 ] [0,1] [0,1]的,无法直接用线性回归来对概率建模。如果用logit模型对概率进行一个变换,则可以用线性模型来表示概率了。
(1-1) l n ( P i 1 − P i ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n ln\left(\frac{P_i}{1-P_i}\right)=\beta _0+\beta _1x_1+\beta _2 x_2+\cdots+\beta _n x_n \tag{1-1} ln(1PiPi)=β0+β1x1+β2x2++βnxn(1-1)
由上式可以得到概率 P i P_i Pi的表达式:
(1-2) P i = 1 1 + e − ( β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n ) P_i=\frac{1}{1+e^{-(\beta _0+\beta _1x_1+\beta _2 x_2+\cdots+\beta _n x_n)}} \tag{1-2} Pi=1+e(β0+β1x1+β2x2++βnxn)1(1-2)
这也是为什么机器学习/深度学习里面喜欢用sigmoid模型来对概率建模的原因。

你可能感兴趣的:(理论学习,学习笔记)