[机器学习]多元线性回归(Multivariate Linear Regression)

线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为 y = ω T x + e y = \omega ^Tx+e y=ωTx+e e e e为误差服从均值为0的正态分布。

线性回归模型
h θ ( x ) = θ T x = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_\theta (x)=\theta ^Tx=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n hθ(x)=θTx=θ0+θ1x1+θ2x2+...+θnxn 代价函数
J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta)={\frac 1 {2m}} \sum_{i=1}^{m}(h_\theta (x^{(i)})-y^{(i)})^2 J(θ)=2m1i=1m(hθ(x(i))y(i))2

求解方法

  • 梯度下降法(Gradient Descent)
    通过迭代
    θ j = θ j − α ∂ ∂ θ j = θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x ( i ) \theta_j = \theta_j-\alpha{\frac \partial {\partial\theta_j}} = \theta_j-\alpha{\frac 1 m}\sum_{i=1}^{m}(h_\theta (x^{(i)})-y^{(i)})x^{(i)} θj=θjαθj=θjαm1i=1m(hθ(x(i))y(i))x(i)确定参数 θ 1 , θ 2 , . . . θ n \theta_1,\theta_2,...\theta_n θ1,θ2,...θn
    为了提高效率,可以通过标准化(Normalization),将所有的数据映射到 [ − 1 , 1 ] [-1,1] [1,1]的区间上。对于迭代过程中的参数 α \alpha α,又称学习率(Learning rate),若选取过小,会导致收敛速度太慢;若选取过大,会导致无法收敛。

  • 正规方程法(Normal equation)
    直接利用公式
    θ = ( X T X ) − 1 X T y \theta=(X^TX)^{-1}X^Ty θ=(XTX)1XTy确定参数 θ 1 , θ 2 , . . . θ n \theta_1,\theta_2,...\theta_n θ1,θ2,...θn

两种方法的对比:

梯度下降法(Gradient Descent) 正规方程法(Normal equation)
需要选取参数 α \alpha α 不需要选取参数 α \alpha α
需要多次迭代 不需要多次迭代
适用于当 n n n很大的情况 适用于 n n n较小的情况

对于多项式回归(Polynomial Regression),化为多元线性回归(Multivariate Linear Regression)即可。

你可能感兴趣的:(机器学习,机器学习,人工智能,算法)