Linear Regression(2018-05-03)

  1. 线性回归用于预测,以及建立变量之间是否有关系
  2. 找损失方程解有两种方法
  • 第一种,标准方程normal equation


    image.png

    image.png
  • 第二种,梯度下降Gradient Descent
  1. 针对凸方程和非凸方程的梯度下降
  • 若是凸方程,则全局最小值能确认被找到
  • 若是非凸方程,(实际情况中,多是非凸问题),常常找到的是本地最小值。且不同的起始点,会有不同的本地最小值。
  1. 梯度下降优缺点
  • 优点,即使特征值数量很大,仍能找到最小值
  • 缺点, 需要寻找learning rate,多次迭代
  1. 标准方程优缺点
  • 优点:无需确认learning rate,无需迭代,当特征值数量小的时候,起作用
  • 缺点:需要矩阵运算,如果特征值很大,则相关的矩阵运算很费时。


    image.png
  1. Feature scaling特征缩放
  • 使用梯度下降寻找最小损失时,需要考虑数据的尺寸范围,若数值范围相差很大,则很难收敛。
  • 特征缩放法1: min-max normalization


    image.png

    -min-max标准化将数据缩放到固定的[0,1]范围
    特征缩放法2: Z-score normalization/standardization


    image.png
  • Z-score产生均值为0,方差为1的数据分布
  • Z-score标准化方法通常不会被限于某一范围,这对神经网络就不太适用,因为神经网络希望值的范围是[0,1]
    -Z-score很少受outliers的影响
  1. 创建新特征
  • 定义:基于已有的特征,创建新的特征,这样就减少了特征的数量(在multiple linear regression中,即多个变量)
  1. Multicollinearity多重共线性
    -定义:回归中,预测器之间互相影响;换句话说,你的模型有许多互相相关的变量,那么这些变量就有些多余了。


    image.png

    举例,上图中,房价,人口数量,总收入,就业率这四者之间互相相关。

  • 多重共线性是回归分析中重要的问题之一,它导致不稳定的参数估计,且造成标准差急速增加。
  1. 多项式回归polynomial regression
  • 简单的线性回归不能表示数据,就可以使用多项式回归,但也会遇到过拟合问题
  • 解决过拟合问题的方法: 1)较少模型复杂度,即减少多项式的变量; 2)使用L1/L2 正则化 ; 3)用更多的数据。

你可能感兴趣的:(Linear Regression(2018-05-03))