线性回归和逻辑回归损失函数推导

线性回归和逻辑回归损失函数推导

@(数据挖掘)


  • 线性回归和逻辑回归损失函数推导
    • 一、线性回归最小二乘loss推导
    • 二、logistics回归加sigmoid原因以及交叉熵损失函数推导

一、线性回归最小二乘loss推导

我们都知道线性回归是机器学习中最简单,使用范围也很广的一个算法,经典且使用。而它的损失函数最小二乘损失,大家也很熟悉,但是为什么要用最小二乘loss呢?正文开始:
可以通过一系列假设,从概率的角度去说明为什么选最小二乘(按理说,我们有许多函数可以定义损失)。
我们这里的假设证明不是唯一的,还有许多方法可以证明,有兴趣的可以自行google。

  1. 假设:
    y(i)=θTx(i)+ε(i) y ( i ) = θ T x ( i ) + ε ( i )
    ε(i)=error ε ( i ) = e r r o r
    这里的error也就是模型和实际数值之间的误差值
    根据中心极限定理(许多独立随机变量组合会符合高斯分布),我们可以接着假设误差项符合高斯分布:
    ε(i)N(0,σ2) ε ( i ) ∼ N ( 0 , σ 2 )
    即概率密度函数为
    P(ε(i))=12πσexp((ε(i))22σ2) P ( ε ( i ) ) = 1 2 π σ e x p ( − ( ε ( i ) ) 2 2 σ 2 )
  2. 上述误差函数的概率密度函数服从高斯分布,则我们易知:
    P(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2) P ( y ( i ) | x ( i ) ; θ ) = 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 )
    即: y(i)|x(i);θN(θTx(i),σ2) y ( i ) | x ( i ) ; θ ∼ N ( θ T x ( i ) , σ 2 )
    这里需要特别注意,我们不把 θ θ 认为是随机变量,而是有着我们未知的确定值,也就是把它看成我们需要去估计得到的值,也就是说上面的概率 P(y(i)|x(i);θ) P ( y ( i ) | x ( i ) ; θ ) 意思是以 θ θ 为参数时,给定 x(i) x ( i ) 条件下 y(i) y ( i ) 的条件概率分布
  3. 假设不同输入 x(i) x ( i ) 对应误差项 ε(i) ε ( i ) 是独立同分布(IID:Independently and Identically Distributed;意思是条件独立的,但是都服从同一均值方差的高斯分布):
    则我们的模型可以用概率模型定义为一个极大似然估计问题:

L(θ)=P(y⃗ |x;θ)=i=1mP(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2) L ( θ ) = P ( y → | x ; θ ) = ∏ i = 1 m P ( y ( i ) | x ( i ) ; θ ) = ∏ i = 1 m 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 )

4. 所以最后我们的寻找最优模型的参数 θ θ 问题变成了一个求上式关于 θ θ 的极大似然估计问题,为了方便计算,我们常常求对数似然,得到:
logL(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=mlog12πσ+i=1m(y(i)θTx(i))22σ2 l o g L ( θ ) = l o g ∏ i = 1 m 1 2 π σ e x p ( − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 ) = m l o g 1 2 π σ + ∑ i = 1 m − ( y ( i ) − θ T x ( i ) ) 2 2 σ 2

所以从上式易知,最大化 logL(θ) l o g L ( θ ) 问题就相当于最小化 mi=1(y(i)θTx(i))22σ2 ∑ i = 1 m ( y ( i ) − θ T x ( i ) ) 2 2 σ 2 问题,也就是我们定义的loss

二、logistics回归加sigmoid原因以及交叉熵损失函数推导

我们知道,其实逻辑回归模型变成了分类问题,但只是在线性回归的基础上加上了一个sigmoid函数,那么问题来了:
1. 为什么我们要选择使用一个sigmoid函数?
大家可以移步参考知乎上的回答:https://www.zhihu.com/question/35322351
2. 交叉熵损失函数的推导
- 同线性回归,我们可以把我们的模型用概率表示:
P(y(i)=1|x(i);θ)=hθ(x(i)) P ( y ( i ) = 1 | x ( i ) ; θ ) = h θ ( x ( i ) )
P(y(i)=0|x(i);θ)=1hθ(x(i)) P ( y ( i ) = 0 | x ( i ) ; θ ) = 1 − h θ ( x ( i ) )
- 我们可以进一步把两式整合:
P(y(i)|x(i);θ)=hθ(x(i))y(i)(1hθ(x(i)))(1y(i)) P ( y ( i ) | x ( i ) ; θ ) = h θ ( x ( i ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) ( 1 − y ( i ) )
- 同样我们可以把模型最优问题看做是极大似然估计问题:
L(θ)=P(y⃗ |x;θ)=mi=1P(y(i)|x(i);θ)=mi=1hθ(x(i))y(i)(1hθ(x(i)))(1y(i)) L ( θ ) = P ( y → | x ; θ ) = ∏ i = 1 m P ( y ( i ) | x ( i ) ; θ ) = ∏ i = 1 m h θ ( x ( i ) ) y ( i ) ( 1 − h θ ( x ( i ) ) ) ( 1 − y ( i ) )
- 还是去对数似然:
logL(θ)=mi=1y(i)loghθ(x(i))+(1y(i))log(1hθ(x(i))) l o g L ( θ ) = ∑ i = 1 m y ( i ) l o g h θ ( x ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ( x ( i ) ) )
则,得证交叉熵函数

你可能感兴趣的:(数据挖掘,推荐,广告)