线性回归的损失函数为什么使用最小化均方误差

  1. 最小二乘问题的定义:
    没有约束条件,目标函数是若干二次项的和,每一项的形式如 aTixbi a i T x − b i ,具体形式如下:
    minimizef(x)=i=1k(aTixbi)2 m i n i m i z e f ( x ) = ∑ i = 1 k ( a i T x − b i ) 2

    其中, Akn,aTi A ∈ ℜ k ∗ n , a i T 是A的行向量,向量 xn x ∈ ℜ n 是优化变量
    最优解是 x=(ATA)1ATB x = ( A T A ) − 1 A T B (求解过程见上一篇博文)
  2. 线性回归的损失函数costfunction
    在线性回归问题中,假设模型为 h(θ)=xTθ+b h ( θ ) = x T θ + b ,其中 x x 为输入,b为偏置项;
  3. 损失函数的由来
    假设模型 h(θ) h ( θ ) 与实际值 y y 误差 ϵ ϵ 服从正态分布(根据中心极限定理,多种未考虑到的其他因素的和符合正太分布),即:
    h(θ)y=ϵN(0,σ2) h ( θ ) − y = ϵ ∈ N ( 0 , σ 2 )

    则根据输入样本 xi x i 可以计算出误差 ϵi ϵ i 的概率为:
    p(ϵi)=12πσexpϵ2i2σ2 p ( ϵ i ) = 1 2 π σ e x p − ϵ i 2 2 σ 2

    则可以得出似然公式:
    l(θ)=i=1mp(ϵi) l ( θ ) = ∏ i = 1 m p ( ϵ i )

    其中m为样本总数。则有以上公式可以写出log最大似然,即对 l(θ) l ( θ ) 整体取log,则:
    L(θ)=logl(θ)=log(i=1mp(ϵi))=mlog12πσ+im(ϵ2i2σ2) L ( θ ) = l o g l ( θ ) = l o g ( ∏ i = 1 m p ( ϵ i ) ) = m l o g 1 2 π σ + ∑ i m ( − ϵ i 2 2 σ 2 )

    则最大化似然公式 L(θ) L ( θ ) 相当于最小化 f(θ)=12miϵ2i=12mi(xTiθyi)2 f ( θ ) = 1 2 ∑ i m ϵ i 2 = 1 2 ∑ i m ( x i T θ − y i ) 2 ,则变换为最小二乘问题。

你可能感兴趣的:(深度学习,最小二乘法,最大似然,线性回归,损失函数)