线性回归 (一) 基本线性回归原理

一、线性回归
回归算法是一种有监督算法
回归算法是一种比较常用的机器学习算法,用来建立“解释”变量(自变量X)和观 测值(因变量Y)之间的关系;从机器学习的角度来讲,用于构建一个算法模型(函 数)来做属性(X)与标签(Y)之间的映射关系,在算法的学习过程中,试图寻找一个 函数使得参数之间的关系拟合性最好。 回归算法中算法(函数)的最终结果是一个连续的数据值,输入值(属性值)是一个d 维度的属性/数值向量

线性回归 (一) 基本线性回归原理_第1张图片
线性回归 (一) 基本线性回归原理_第2张图片
线性回归 (一) 基本线性回归原理_第3张图片
线性回归 (一) 基本线性回归原理_第4张图片

2、最小二乘和极大似然估计
线性回归求解时是具有一定的约束条件的,比如服从0均值,同方差的的高斯分布(高斯分布就是正态分布)
线性回归 (一) 基本线性回归原理_第5张图片
利用最小二乘估计求解要求很多统计假设,
1、解释变量是确定变量,不是随机变量。(即每个xi是已知的)
2、随机误差项具有零均值、同方差何不序列相关性。
3、随机误差项与解释变量之间不相关。
4、随机误差项服从零均值、同方差的正态分布
线性函数求解的话有两种方法,一种是最小二乘、一种是极大似然估计
线性回归 (一) 基本线性回归原理_第6张图片
ϵ i {\epsilon}_i ϵi为方程的误差,则 p ( ϵ i ) p({\epsilon}_i) p(ϵi)代表得出 ϵ i {\epsilon}_i ϵi的概率,那么每个不同的样本肯定有不同的 p ( ϵ i ) p({\epsilon}_i) p(ϵi),我希望我的模型使这些已经观察到的误差项都能得到,即使我的模型最大化得到这些误差项,则可以将其写为误差项概率相乘的格式(最大似然估计)
线性回归 (一) 基本线性回归原理_第7张图片
那么当我要最大化我的概率的时候相当于要求我的损失函数是最小的,这时我的似然函数的估计才是最大的。这个最小损失函数不就是最小二乘估计的假设,即所有误差项之和最小
θ {\theta} θ
线性回归 (一) 基本线性回归原理_第8张图片
                   图1
这里要补充几个矩阵的偏导求解
线性回归 (一) 基本线性回归原理_第9张图片

所以最后我们的 θ = ( X T X ) − 1 X T Y {\theta}=(X^TX)^{-1}X^{T}Y θ=(XTX)1XTY,其中X,Y是已知的样本,所以最终只要我们的样本矩阵是可逆的就行了
3、最小二乘法
设样本为
线性回归 (一) 基本线性回归原理_第10张图片
注:
最小二乘法的求导过程和最大似然法是一样
总结 :
线性回归 (一) 基本线性回归原理_第11张图片
2、梯度下降
什么是梯度
线性回归 (一) 基本线性回归原理_第12张图片
梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,…,θn),计算代价
函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到
一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定
我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,
可能会找到不同的局部最小值。
线性回归 (一) 基本线性回归原理_第13张图片
线性回归 (一) 基本线性回归原理_第14张图片
线性回归 (一) 基本线性回归原理_第15张图片

批量梯度下降算法(BGD) 线性回归 (一) 基本线性回归原理_第16张图片对于 θ j θ_j θj来说有m个点使得其下降,我们可以选择所有的点来进行迭代
批量梯度下降就是对所有数据都进行求和并进行梯度下降,并更新 θ j θ_j θj,每次更新完计算损失函数,看损失函数的变化情况
随机梯度下降算法(SGD)
线性回归 (一) 基本线性回归原理_第17张图片
随机梯度下降是从各个样本中选择个别的样本点,来进行梯度迭代这样的化就会避免对所有样本进行扫描。

二、过拟合、欠拟合与正则表达式
1、代价函数
我们的代价函数是一个凹函数,意味着,假设我们的线性函数为
在这里插入图片描述
则可以看出在三维空间中存在一个使得 J(θ0,θ1)最小的点。
2、多项式扩展与过拟合
多项式扩展
多项式扩展的意思是,将不同变量组合成一个新的变量,如我的特征变量为X1、X2、X3…Xn.可以在后面加入组合变量 X 1 X 2 , X 2 X 3 以 及 x 1 2 X_1X_2,X_2X_3以及x1^{2} X1X2,X2X3x12等等。通过多项式的扩展可以提高模型的精度。其中里面的最高次方数叫做多项式的项数。
作用:通过多项式扩展,可以提高模型的准确率(其中里面的最高次方数叫做多项式的项数。)
过拟合
过拟合:如果模型在训练集上效果非常好,而在测试集上效果不好,那么认为这个时候存在过拟合的情况,多项式扩展的时候,如果指定的阶数比较大,那么有可能导致过拟合,线性回归的模型来讲,我们认为训练出来的参数值越大,越存在过拟合的选项。
因为我们在模型中加入了变量的次方项,虽然预测效果变好了,但是很可能发生过拟合的现象
如果发生了过拟合我们可以:

  1. 丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征,或者使用
    一些模型选择的算法来帮忙(例如 PCA)
  2. 正则化。 保留所有的特征,但是减少参数的大小(magnitude)。
    为了防止过拟合的现象,我们可以加入惩罚项来防止过拟和的发生。
    正则化
    (1) 正则化的基本形式
    一般来说正则化,由三种形式构成:
    线性回归 (一) 基本线性回归原理_第18张图片
    线性回归 (一) 基本线性回归原理_第19张图片
    其中 λ \lambda λ为惩罚项,为什么加入了正则项就会使过拟合得到改善呢,
    看下面的这个例子
    线性回归 (一) 基本线性回归原理_第20张图片
    可以看出第二个图发生了过拟合,而过拟合的参数则是 θ 3 \theta_3 θ3与\theta_4
    在这里插入图片描述
    这时如果我们在求代价函数时加入了这两个系数,那么在使代价函数最小化的同时,也使这个两个参数的值最小化,这样,便会使导致过拟合项前面的系数非常小
    假如我们有非常多的特征,我们并不知道其中哪些特征我们要惩罚,我们将对所有的特征进行惩罚,即上面的正则化参数,一般来说 λ \lambda λ的值越大,惩罚的力度越大,各个 θ i \theta_i θi的值就越小,过拟合的抑制效果就越好,但是如果太大了,各个系数值就相当于0了。整个模型就是一条直线,所以 λ \lambda λ的值的大小要合适。
    线性回归 (一) 基本线性回归原理_第21张图片
    使用L2正则的线性回归模型就称为Ridge回归(岭回归)
    线性回归 (一) 基本线性回归原理_第22张图片
    其中 θ {\theta} θ为各个特征前面的系数
    线性回归 (一) 基本线性回归原理_第23张图片
    其中 θ {\theta} θ为各个特征前面的系数
    线性回归 (一) 基本线性回归原理_第24张图片
    lasso可以得到稀疏矩阵,所以当lasso回归后各个变量前面的系数接近与0时,说明这个变量是无用的可以筛选掉。
    总结:
    线性回归 (一) 基本线性回归原理_第25张图片
    3、模型效果判断的总结
    线性回归 (一) 基本线性回归原理_第26张图片
    MSE:误差平方和,越趋近于0表示模型越拟合训练数据。(总的误差的偏离程度)
    RMSE:MSE的平方根,作用同MSE
    R2:取值范围(0,1],

局部加权回归
线性回归总结
线性回归 (一) 基本线性回归原理_第27张图片
我们在计算损失函数的时候,每次给与一个具体的权重。误差比较大的点,我们认为这个点对模型的贡献不大,给与一个较小的权重,而误差较小的点,我们认为这个点对模型的贡献很大,给与一个较大的权重。
线性回归 (一) 基本线性回归原理_第28张图片
总结:
线性回归 (一) 基本线性回归原理_第29张图片

你可能感兴趣的:(简历及机器学习)