机器学习损失函数之似然函数

似然函数定义——Adeshen原创:Maybe人工智能作业

  • 顾名思义,似然似然,即是可能Maybe好像,就是像某个东西的可能性。在统计学上定义为给定输出x时,关于参数θ的似然函数L(θ|x)(在数值上)等于给定参数θ后变量X的概率:L(θ|x)=P(X=x|θ)。

  • 似然函数在推断统计学(Statistical inference)中扮演重要角色,如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。

      你们看懂了吗,反正我没弄清概率和似然的区别。所以我就都理解成概率
    

逻辑回归中的似然损失函数

  • 逻辑回归为什么使用似然损失,而不是使用均方损失,大概是均方损失函数导出来梯度下降公式的十分丑陋,导致运算量巨大。

    m i n E ( x ) = 1 n ∑ i = 0 n ( g ( w T x i ) − y i ) 2 minE(x)=\frac{1}{n}\sum_{i=0}^n(g(w^Tx_i)-y_i)^2 minE(x)=n1i=0n(g(wTxi)yi)2
    而逻辑回归函数又长这样 g ( w T x i ) = 1 1 + e w T x g(w^Tx_i)=\frac{1}{1+e^{w^Tx}} g(wTxi)=1+ewTx1

外导一个2还可以,内导就恶心了,直接一个分式指数,不知道你们算这个心情如何,反正我是吃不下饭了。
∂ E ∂ w = − 1 n ∑ i = 0 n 2 ( 1 1 + e w T x − y i ) ( 1 + e w T x ) − 2 e w T x x i \frac{\partial E}{\partial w}=-\frac{1}{n}\sum_{i=0}^n2(\frac{1}{1+e^{w^Tx}}-y_i)(1+e^{w^Tx})^{-2}e^{w^Tx}x_i wE=n1i=0n2(1+ewTx1yi)(1+ewTx)2ewTxxi

这能忍吗,就算咱们忍的下去,cpu也忍不了啊,所以方差损失就被无情抛弃

然后需要一个更加美丽的损失函数登场了——似然函数

似然函数

  • 首先得先知道逻辑回归是为了解决01问题
    知道这个我们就能三下五除二写出它似然函数的一小小块

P ( y i ∣ x i ; w ) = y i P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) P ( y i = 0 ∣ x i ; w ) P(y_i|x_i;w)=y_iP(y_i=1|x_i;w)+(1-y_i)P(y_i=0|x_i;w) P(yixi;w)=yiP(yi=1xi;w)+(1yi)P(yi=0xi;w)

  1. y i = 1 y_i=1 yi=1就是左边那个 P ( y i = 1 ∣ x i ; w ) P(y_i=1|x_i;w) P(yi=1xi;w)有效,
  2. y i = 0 y_i=0 yi=0就是右边那个 P ( y i = 0 ∣ x i ; w ) P(y_i=0|x_i;w) P(yi=0xi;w)有效

哇,小小一个 y i y_i yi竟然有如此妙用,当然这一切都建立在 y i y_i yi只能取0或1,要取个0到1就麻烦了.
然后问题来了,这个 P ( y i = 1 ∣ x i ; w ) P(y_i=1|x_i;w) P(yi=1xi;w)是啥子,从外表来看,它是条件概率,在x、w的取值基础上 y i = 1 y_i=1 yi=1的概率。而我们的对象是逻辑回归,逻辑回归函数又不能从其他地方引入,并且逻辑回归的值恰好为0到1,这很概率,所以从此引入逻辑回归函数就很舒服

P ( y i = 1 ∣ x i ; w ) = 1 1 + e w T x P(y_i=1|x_i;w)=\frac{1}{1+e^{w^Tx}} P(yi=1xi;w)=1+ewTx1
P ( y i = 0 ∣ x i ; w ) = 1 − 1 1 + e w T x = e w T x 1 + e w T x P(y_i=0|x_i;w)=1-\frac{1}{1+e^{w^Tx}}=\frac{e^{w^{T}x}}{1+e^{w^Tx}} P(yi=0xi;w)=11+ewTx1=1+ewTxewTx

那么现在就将所有案例的概率值都累乘起来就是最终似然函数的形态了。
L = ∏ i = 0 n P ( y i ∣ x i ; w ) L=\prod_{i=0}^{n}P(y_i|x_i;w) L=i=0nP(yixi;w)
不要忘记我们的目的——求出梯度下降的公式。
一级展开:
L = ∏ i = 0 n ( y i P ( y i = 1 ∣ x i ; w ) + ( 1 − y i ) P ( y i = 0 ∣ x i ; w ) ) L=\prod_{i=0}^{n}(y_iP(y_i=1|x_i;w)+(1-y_i)P(y_i=0|x_i;w)) L=i=0n(yiP(yi=1xi;w)+(1yi)P(yi=0xi;w))
二级展开:
L = ∏ i = 0 n ( y i 1 1 + e w T x i + ( 1 − y i ) e w T x 1 + e w T x ) L=\prod_{i=0}^{n}(y_i\frac{1}{1+e^{w^Tx_i}}+(1-y_i)\frac{e^{w^{T}x}}{1+e^{w^Tx}}) L=i=0n(yi1+ewTxi1+(1yi)1+ewTxewTx)
然后同分母合并一下
L = ∏ i = 0 n ( y i + ( 1 − y i ) e w T x i ) 1 1 + e w T x i L=\prod_{i=0}^{n}(y_i+(1-y_i)e^{w^Tx_i})\frac{1}{1+e^{w^Tx_i}} L=i=0n(yi+(1yi)ewTxi)1+ewTxi1

还是有点复杂,我们再用对数化,把分子分母分开:
l n L = ∑ i = 0 n [ l n ( y i + ( 1 − y i ) e w T x i ) − l n ( 1 + e w T x i ) ] lnL=\sum_{i=0}^{n}[ln(y_i+(1-y_i)e^{w^Tx_i})-ln(1+e^{w^Tx_i})] lnL=i=0n[ln(yi+(1yi)ewTxi)ln(1+ewTxi)]

这个时候在观察一下
左边的东西,似乎有些有趣的性质,

l n ( y i + ( 1 − y i ) e w T x i ) = { l n y i = 0 , y i = 1 l n e w T x i = w T x i , y i = 0 ln(y_i+(1-y_i)e^{w^Tx_i})=\left\{ \begin{aligned} &lny_i=0, &&y_i=1 \\ & lne^{w^Tx_i}=w^Tx_i ,&& y_i=0 \end{aligned} \right. ln(yi+(1yi)ewTxi)={lnyi=0,lnewTxi=wTxi,yi=1yi=0,
那么,就可以将其简化一下。
l n ( y i + ( 1 − y i ) e w T x i ) = ( 1 − y i ) w T x i ln(y_i+(1-y_i)e^{w^Tx_i})=(1-y_i)w^Tx_i ln(yi+(1yi)ewTxi)=(1yi)wTxi

简化完成

带入原来的式子
l n L = ∑ i = 0 n [ ( 1 − y i ) w T x i − l n ( 1 + e w T x i ) ] lnL=\sum_{i=0}^{n}[(1-y_i)w^Tx_i-ln(1+e^{w^Tx_i})] lnL=i=0n[(1yi)wTxiln(1+ewTxi)]

然后呢就可以开始求w的偏导了
∂ ( l n L ) ∂ w = ∑ i = 0 n [ ( 1 − y i ) x i − x i 1 + e w T x i ] = ∑ i = 0 n [ ] \frac{\partial (lnL)}{\partial w}=\sum_{i=0}^{n}[(1-y_i)x_i-\frac{x_i}{1+e^{w^Tx_i}}] =\sum_{i=0}^{n}[] w(lnL)=i=0n[(1yi)xi1+ewTxixi]=i=0n[]

剩下的交给你们…

你可能感兴趣的:(机器学习)