机器学习笔记_回归_1:线性回归

线性回归的定义

  • 回归: 变量间的统计关系

  • 古典回归模型的假设
    1. 解释变量 x1,,xp 是非随机变量,对应的观测值是常数
    2. 等方差,且不相关(Guass-Markov):

    {E(ϵi)cov(ϵi,ϵj)=0=σ2,(i=j)0 (ij); (i,j=1,2,...,n)

    3. n>p 样本个数多于解释变量个数

一元线性模型

y=β0+β1x+ε

ε 是随机变量; 且 E(ε)=0;var(εi)=σ2
y 为独立随机变量,不同分布;
ε 为独立随机变量,同分布;

  • 回归方程: E(y|x)=β0+β1x

    => 从平均意义表达了y与x的统计规律

多元线性模型

最小二乘估计

观测样本: (xi,yi);hθ(x)=i=0mθixi=θTx

目标函数: J(θ)=12i=1m(hθ(x(i)yi))

假设条件: 噪声为均值=0的高斯分布下;

最大似然估计和最小二乘

  • 噪声为正态分布 N(0,σ2)

p(ε(i))=12πσexp((ε(i))22σ2)

=> p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)

=> 似然函数:

L(θ)=i=1mp(y(i)|x(i);θ)=i=1m12πσexp((y(i)θTx(i))22σ2)

=> l(θ)=logL(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσ1σ212i=1m(yiθTx(i))2

<=> 最大似然和最小二乘等价

最小二乘估计的性质

  • 线性回归:线性函数

  • 无偏性: E(θ^)=θ

  • 均方误差: MSE(θ^)=E[(θ^θ)2]
    若是无偏估计则: MSE(θ^)=Var(θ^)

  • 最小二乘为BLUE(最好线性无偏估计量)

你可能感兴趣的:(机器学习笔记_回归_1:线性回归)