python学习——线性回归

python学习——线性回归

一、线性回归简介

1、线性回归应用场景

房价预测、销售额度预测、贷款额度预测

2、什么是线性回归

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式

特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归

img

img

2.1 单变量线性回归

一种可能的表达方式为:ℎ () = 0 + 1,因为只含有一个输入变量,因此这样的问题叫作单变量线性回归问题

  • ℎ 代表 代表学习算法的解决方案或函数,也称为hypothesis(假设),ℎ表示一个函数,也是模型,例如输入是房屋尺寸大小,输出是房屋的价格
  • 代表训练集中实例的数量
  • 代表特征/输入变量
  • 代表目标变量/输出变量
  • (, ) 代表训练集中的实例
  • (x{(i)},y{(i)})代表第 个观察实例

2.2 多变量线性回归

多维特征

仍以房价模型为例,对模型增加更多的特征,例如房间的数量,楼层数和房屋的年龄等,构成一个含有多变量的模型,模型中的特征为(x1,x2,…,xn), 增添更多特征后,我们引入新的注释:

  • n 代表特征的数量
  • x^{(i)}代表第i个训练实例,表示特征矩阵中的第i行,是一个向量,比如说,上图的
  • x^{(2)}=\begin{pmatrix} 1416\ 3\ 2\ 40\ 232 \end{pmatrix}
  • x_{j}^{(i)}代表特征矩阵中第 行的第 个特征,也就是第 个训练实例的第 个特征

这个时候的假设函数也就相应变成了:

这个公式中有n+1个参数和n个变量,为了能够使公式简化一些,引入x_{0}=1,则公式转化为:

此时该模型中的参数和变量都是n+1维的向量,可以写成如下的形式:

\theta =\begin{pmatrix} \theta _{0}\ \theta _{1}\ \theta _{2}\ ...\ \theta _{n} \end{pmatrix},X=\begin{pmatrix} x_{0}\ x_{1}\ x_{2}\ ...\ x_{n} \end{pmatrix},所以h_{\theta }(x)=\theta ^{T}X,其中上标T代表矩阵的转置

特征和多项式回归

线性回归并不适用于所有的数据,有时我们需要曲线来适应我们的数据,比如是一个二次方模型,或一个三次方模型,通常我们需要先观察数据然后再决定准备尝试怎样的模型

注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要 (下面)

3、线性回归步骤

  1. 假设目标值(因变量y)与特征值(自变量x)之间线性关系(即满足一个多元一次方程,如:f(x)=w1x1+…+wnxn+b.)
  2. 构建损失函数(下面)
  3. 通过损失函数的最小值,最后确定参数(最重要的一步)

4、线性回归的特征与目标的分析关系

线性回归当中主要有两种模型,一种是线性关系,另一种是非线性关系(如多变量回归中多项式)

5、优缺点

5.1优点

  1. 运算速度快:由于算法很简单,而且符合非常简洁的数学原理,不管是建模速度,还是预测速度都
    是非常快的
  2. 可解释性强:由于最终我们可以得到一个函数公式,根据计算出的公式系数就可以很明确地知道每
    个变量的影响大小
  3. 对线性关系拟合效果好:当然,相比之下,如果数据是非线性关系,那么就不合适了

5.2缺点

  1. 预测的精确度较低:由于获得的模型只是要求最小的损失,而不是对数据良好的拟合,所以精确度
    略低
  2. 不相关的特征会影响结果:对噪声数据也比较难处理,所以在数据处理阶段需要剔除不相关的特征
    以及噪声数据
  3. 容易出现过拟合:尤其在数据量较少的情况下,可能出现这种问题

二、线性回归的损失和优化

1、损失函数

不要被这个高大上的名称吓到,用一句话来解释,就是计算每一个样本点的结果值和当前的函数值的差值。当然具体到这里面,所使用的是残差平方和(Sum of Squares for Error),这是一种最常用的损失函数。如果你对具体的公式感兴趣,可以在网上查到它的具体信息,用公式表示如下:

img

如何去减少这个损失,使我们预测的更加准确些?存在以下的优化算法

2、优化算法

2.1 正规方程

正规方程是求代价函数最小值的一种方法

img

X为特征值矩阵,y为目标值矩阵。直接求到最好的结果

缺点:当特征过多过复杂时,求解速度太慢并且得不到结果

img

正规方程的推导:

把该损失函数转换成矩阵写法

img

其中y是真实值矩阵,X是特征值矩阵,w是权重矩阵

对其求解关于w的最小值,起止y,X 均已知二次函数直接求导,导数为零的位置,即为最小值。

求导:

img

注:式(1)到式(2)推导过程中, X是一个m行n列的矩阵,并不能保证其有逆矩阵,但是右乘XT把其变成一个方阵,保证其有逆矩阵。

式(5)到式(6)推导过程中,和上类似

2.2 梯度下降法(Gradient Descent)

梯度下降法的基本思想可以类比为一个下山的过程

假设这样一个场景:一个人被困在山上,需要从山上下来(i.e.
找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的地方走,(同理,如果我们的目标是上山,也就是爬到山顶,那么此时应该是朝着最陡峭的方向往上走)。然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷

img

梯度下降的基本过程就和下山的场景很类似。

首先,我们有一个可微分的函数。这个函数就代表着一座山。

我们的目标就是找到这个函数的最小值,也就是山底

根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度
,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向。
所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向,也就是场景中测量方向的手段

梯度的概念

梯度是微积分中一个很重要的概念

在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率

在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向

这也就说明了为什么我们需要千方百计的求取梯度!我们需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是我们所需要的。所以我们只要沿着梯度的反方向一直走,就能走到局部的最低点
梯度下降(Gradient Descent)公式:

img

α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离,以保证不要步子跨的太大,其实就是不要走太快,错过了最低点。同时也要保证不要走的太慢,导致太阳下山了,还没有走到山下。所以α的选择在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点,所以我们通常可以考虑尝试这些学习率: = 0.01*,* 0.03 0.1 0.3 1 3 *,*10

img

为什么梯度要乘以一个负号?

梯度前加一个负号,就意味着朝着梯度相反的方向前进!我们在前文提到,梯度的方向实际就是函数在此点上升最快的方向!而我们需要朝着下降最快的方向走,自然就是负的梯度的方向,所以此处需要加上负号

梯度下降和正规方程的对比:
梯度下降 正规方程
需要选择学习率 不需要
需要迭代求解 一次运算得出
特征数量较大可以使用 需要计算方程,时间复杂度高O(n3)
全梯度下降算法(FG)

计算训练集所有样本误差,对其求和再取平均值作为目标函数。

权重向量沿其梯度相反的方向移动,从而使当前目标函数减少得最多。

因为在执行每次更新时,我们需要在整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢,同时,批梯度下降法无法处理超出内存容量限制的数据集。

批梯度下降法同样也不能在线更新模型,即在运行的过程中,不能增加新的样本

其是在整个训练数据集上计算损失函数关于参数θ的梯度:

img

随机平均梯度下降算法(SAG)

在SG方法中,虽然避开了运算成本大的问题,但对于大数据训练而言,SG效果常不尽如人意,因为每一轮梯度更新都完全与上一轮的数据和梯度无关。

随机平均梯度算法克服了这个问题,在内存中为每一个样本都维护一个旧的梯度,随机选择第i个样本来更新此样本的梯度,其他样本的梯度保持不变,然后求得所有梯度的平均值,进而更新了参数。

如此,每一轮更新仅需计算一个样本的梯度,计算成本等同于SG,但收敛速度快得多

随机梯度下降算法(SG)

由于FG每迭代更新一次权重都需要计算所有样本误差,而实际问题中经常有上亿的训练样本,故效率偏低,且容易陷入局部最优解,因此提出了随机梯度下降算法。

其每轮计算的目标函数不再是全体样本误差,而仅是单个样本误差,即每次只代入计算一个样本目标函数的梯度来更新权重,再取下一个样本重复此过程,直到损失函数值停止下降或损失函数值小于某个可以容忍的阈值

此过程简单,高效,通常可以较好地避免更新迭代收敛到局部最优解。其迭代形式为:
在这里插入图片描述
每次只使用一个样本迭代,若遇上噪声则容易陷入局部最优解

其中,x(i)表示一条训练样本的特征值,y(i)表示一条训练样本的标签值

小批量梯度下降算法(mini-bantch)

小批量梯度下降算法是FG和SG的折中方案,在一定程度上兼顾了以上两种方法的优点。每次从训练样本集上随机抽取一个小样本集,在抽出来的小样本集上采用FG迭代更新权重

被抽出的小样本集所含样本点的个数称为batch_size,通常设置为2的幂次方,更有利于GPU加速处理。特别的,若batch_size=1,则变成了SG;若batch_size=n,则变成了FG.其迭代形式为:

img

多变量梯度下降实践:特征缩放

在我们面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度,这将帮助梯度下降算法更快地收敛。 以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0- 2000 平方英尺,而房间数量的值则是 0-5 ,以两个参数分别为横纵坐标,绘制代价函数的等高线图能,看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛
img

解决的方法是尝试将所有特征的尺度都尽量缩放到-1 到 1 之间,如图:

img

这样迭代的次数会大大降低。那么具体我们应该怎么做呢?

最简单的方法是令:x_{n}=\frac{x_{n}-u_{n}}{s_{n}},其中,u_{n}是平均值,s_{n}是标准差。

2.3 最小二乘法

线性关系:以y = wx + b为例。我们得到了一个损失函数J(w,b),而它很明显是一个二次函数,我们现在要想让它的值变小,甚至是想求出它的最小值,按照我们常规求二次函数的最小值的方法,我们是不是该对它求导啊,而事实也是如此,我们分别对损失函数J(w,b)的两个参数w,b求偏导(注意,这里是对w,b求导,而不是对x求偏导),可以得到:

img

img

最后可以得到:

python学习——线性回归_第1张图片

img

最小二乘法计算量过大,往往不采用,往往采用梯度下降法更多

三、欠拟合与过拟合

1、定义

过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,
但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

img

那么是什么原因导致模型复杂?线性回归进行训练学习的时候变成模型会变得复杂,这里就对应前面再说的线性回归的两种关系,非线性关系的数据,也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系

2、原因及解决办法

2.1欠拟合原因及解决办法

原因:学习到数据的特征过少

解决办法:
1、添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都可以作为特征添加的首选项。
2、添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

2.2过拟合原因及解决办法

原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点。

解决办法:

1、重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。
2、增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。
3、正则化
4、减少特征维度,防止维灾难

3、正则化线性模型

3.1 正则化

在解决回归过拟合中,我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题,除了一些算法本身作用之外(决策树、神经网络),我们更多的也是去自己做特征选择,包括之前说的删除、合并一些特征

img

如何解决?

img

在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响),这就是正则化

3.2 岭回归(Ridge Regression 、又名 Tikhonov regularization)

岭回归是线性回归的正则化版本,即在原来的线性回归的 cost function 中添加正则项(regularization term):
在这里插入图片描述以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代价函数:在这里插入图片描述

α=0:岭回归退化为线性回归

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)
  • 具有l2正则化的线性回归
  • alpha:正则化力度,也叫 λ
  • λ取值:0~1 1~10
  • solver:会根据数据自动选择优化方法
  • sag:如果数据集、特征都比较大,选择该随机梯度下降优化
  • normalize:数据是否进行标准化,normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
  • Ridge.coef_:回归权重
  • Ridge.intercept:回归偏置

Ridge方法相当于SGDRegressor(penalty=‘l2’, loss=“squared_loss”),只不过SGDRegressor实现了一个普通的随机梯度下降学习,推荐使用Ridge(实现了SAG)

sklearn.linear_model.RidgeCV(_BaseRidgeCV, RegressorMixin)

具有l2正则化的线性回归,可以进行交叉验证
coef_:回归系数

3.3 Lasso回归(Lasso Regression)

Lasso 回归是线性回归的另一种正则化版本,正则项为权值向量的ℓ1范数。

Lasso回归的代价函数 :
在这里插入图片描述

备注:

Lasso Regression 的代价函数在 θi=0处是不可导的.
解决方法:在θi=0处用一个次梯度向量(subgradient vector)代替梯度,如下式
Lasso Regression 的次梯度向量

img

Lasso Regression 有一个很重要的性质是:倾向于完全消除不重要的权重。

例如:当α 取值相对较大时,高阶多项式退化为二次甚至是线性:高阶多项式特征的权重被置为0。

也就是说,Lasso Regression 能够自动进行特征选择,并输出一个稀疏模型(只有少数特征的权重是非零的)。

3.4 弹性网络(Elastic Net )

弹性网络在岭回归和Lasso回归中进行了折中,通过 混合比(mix ratio) r 进行控制:
弹性网络的代价函数 :r=0:弹性网络变为岭回归、r=1:弹性网络便为Lasso回归

img

四、代码举例

1、一般线性回归

import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

#生成数据。我假设了我们的数据偏移量为 2.128,并且生成了 100 个点,作为我们的样本数据
def generateData():
X = []
y = []
for i in range(0, 100):
tem_x = []
tem_x.append(i)
X.append(tem_x)
tem_y = []
tem_y.append(i + 2.128 + np.random.uniform(-15,15))
y.append(tem_y)
plt.scatter(X, y, alpha=0.6)
return X,y

#在我们的主方法中,首先使用生成样本的方法生成了我们的数据,然后这次使用了 sklearn 中自带的数
据切割方法对数据进行了切分,80% 作为训练集、20% 作为测试集。然后调用了线性回归算法,并使
用预测方法对测试数据进行预测
if __name__ == '__main__':
np.random.seed(0)
X,y = generateData()
print(len(X))
X_train,X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=0)
regressor = LinearRegression()
regressor.fit(X_train, y_train)
y_result = regressor.predict(X_test)
plt.plot(X_test, y_result, color='red',alpha=0.6, linewidth=3,
label='Predicted Line')
plt.show()

2、其他

以波士顿房价预测为例:

img

img

步骤:

  1. 数据分割与标准化处理:回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理,可参照特征缩放

  2. 回归预测:均方误差(Mean Squared Error)MSE)评价机制:

    img

    注:yi为预测值,¯y为真实值

    sklearn.metrics.mean_squared_error(y_true, y_pred)
        均方误差回归损失
        y_true:真实值
        y_pred:预测值
        return:浮点数结果
    
  3. 线性回归的算法效果评估

    代码:

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge,RidgeCV
from sklearn.metrics import mean_squared_error

def linear_model1():
    # 正规方程
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = LinearRegression()
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)


def linear_model2():
    # 梯度下降
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = SGDRegressor()
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)


def linear_model3():
    # 岭回归
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = RidgeCV(alphas=(1000,100,10,1,0.1,0.01,0.001))
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)

if __name__ == '__main__':
    linear_model1()
    linear_model2()
    linear_model3()

————————————————
资料来源:
CSDN博主「零陵上将军_xdr」的原创文章,遵循CC 4.0 BY-SA版权协议,附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_45771939/article/details/119800382

为CSDN博主「无咎.lsy」的原创文章,遵循CC 4.0 BY-SA版权协议,附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_51781852/article/details/122627291

你可能感兴趣的:(python,学习,线性回归)