机器学习(算法篇) —— 线性回归

线性回归简介

线性回归应用场景

房价预测

销售额度预测

贷款额度预测

什么是线性回归

定义与公式

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归
机器学习(算法篇) —— 线性回归_第1张图片
机器学习(算法篇) —— 线性回归_第2张图片
机器学习(算法篇) —— 线性回归_第3张图片
例如:

期末成绩:0.7×考试成绩+0.3×平时成绩

房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

线性回归的特征与目标的关系分析

线性回归当中主要有两种模型,一种是线性关系,另一种是非线性关系。在这里我们只能画一个平面更好去理解,所以都用单个特征或两个特征举例子。

单变量线性关系:
机器学习(算法篇) —— 线性回归_第4张图片
多变量线性关系:
机器学习(算法篇) —— 线性回归_第5张图片
非线性关系:
机器学习(算法篇) —— 线性回归_第6张图片
如果是非线性关系,那么回归方程可以理解为:在这里插入图片描述

求导

1、 常见函数的导数
机器学习(算法篇) —— 线性回归_第7张图片
2、导数的四则运算
机器学习(算法篇) —— 线性回归_第8张图片
3、矩阵(向量)求导
机器学习(算法篇) —— 线性回归_第9张图片

线性回归的损失和优化

假如真实房价存在以下关系:

真实关系:真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

而我们随机指定的一个关系为:

随机指定关系:预测房子价格 = 0.25×中心区域的距离 + 0.14×城市一氧化氮浓度 + 0.42×自住房平均房价 + 0.34×城镇犯罪率

那么预测值与真实值之间就会存在一些误差。
机器学习(算法篇) —— 线性回归_第10张图片既然存在这个误差,那我们就将这个误差给衡量出来。

损失函数

总损失定义为:
在这里插入图片描述

yi为第i个训练样本的真实值
h(xi)为第i个训练样本特征值组合预测函数
又称最小二乘法

如何去减少这个损失,使我们预测的更加准确些?既然存在了这个损失,我们一直说机器学习有自动学习的功能,在线性回归这里更是能够体现。这里可以通过一些优化方法去优化(其实是数学当中的求导功能)回归的总损失!!!

优化算法

如何去求模型当中的W,使得损失最小?(目的是找到最小损失对应的W值)

线性回归经常使用的两种优化算法

正规方程

正规方程:
在这里插入图片描述

理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果

缺点:当特征过多过复杂时,求解速度太慢并且得不到结果

机器学习(算法篇) —— 线性回归_第11张图片
正规方程的推导:

把该损失函数转换成矩阵写法
机器学习(算法篇) —— 线性回归_第12张图片
其中y是真实值矩阵,X是特征值矩阵,w是权重矩阵

对其求解关于w的最小值,起止y,X 均已知二次函数直接求导,导数为零的位置,即为最小值。

求导:
机器学习(算法篇) —— 线性回归_第13张图片
注:式(1)到式(2)推导过程中, X是一个m行n列的矩阵,并不能保证其有逆矩阵,但是右乘XT把其变成一个方阵,保证其有逆矩阵。

式(5)到式(6)推导过程中,和上类似。

梯度下降(Gradient Descent)

梯度下降法的基本思想可以类比为一个下山的过程。

假设这样一个场景:一个人被困在山上,需要从山上下来(i.e.
找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低。因此,下山的路径就无法确定,他必须利用自己周围的信息去找到下山的路径。这个时候,他就可以利用梯度下降算法来帮助自己下山。具体来说就是,以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着山的高度下降的地方走,(同理,如果我们的目标是上山,也就是爬到山顶,那么此时应该是朝着最陡峭的方向往上走)。然后每走一段距离,都反复采用同一个方法,最后就能成功的抵达山谷。

机器学习(算法篇) —— 线性回归_第14张图片
梯度下降的基本过程就和下山的场景很类似。

首先,我们有一个可微分的函数。这个函数就代表着一座山。

我们的目标就是找到这个函数的最小值,也就是山底。

根据之前的场景假设,最快的下山的方式就是找到当前位置最陡峭的方向,然后沿着此方向向下走,对应到函数中,就是找到给定点的梯度
,然后朝着梯度相反的方向,就能让函数值下降的最快!因为梯度的方向就是函数之变化最快的方向。
所以,我们重复利用这个方法,反复求取梯度,最后就能到达局部的最小值,这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向,也就是场景中测量方向的手段。

梯度的概念:

梯度是微积分中一个很重要的概念

​ 在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率

​ 在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向

这也就说明了为什么我们需要千方百计的求取梯度!我们需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向,那么梯度的反方向就是函数在给定点下降最快的方向,这正是我们所需要的。所以我们只要沿着梯度的反方向一直走,就能走到局部的最低点!

梯度下降(Gradient Descent)公式:
在这里插入图片描述
α是什么含义?

α在梯度下降算法中被称作为学习率或者步长,意味着我们可以通过α来控制每一步走的距离,以保证不要步子跨的太大,其实就是不要走太快,错过了最低点。同时也要保证不要走的太慢,导致太阳下山了,还没有走到山下。所以α的选择在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的话,可能导致迟迟走不到最低点,太大的话,会导致错过最低点!

机器学习(算法篇) —— 线性回归_第15张图片
为什么梯度要乘以一个负号?

梯度前加一个负号,就意味着朝着梯度相反的方向前进!我们在前文提到,梯度的方向实际就是函数在此点上升最快的方向!而我们需要朝着下降最快的方向走,自然就是负的梯度的方向,所以此处需要加上负号

我们通过两个图更好理解梯度下降的过程.
机器学习(算法篇) —— 线性回归_第16张图片
机器学习(算法篇) —— 线性回归_第17张图片
所以有了梯度下降这样一个优化算法,回归就有了"自动学习"的能力.

梯度下降和正规方程的对比:

梯度下降 正规方程
需要选择学习率 不需要
需要迭代求解 一次运算得出
特征数量较大可以使用 需要计算方程,时间复杂度高O(n3)

梯度下降法介绍

全梯度下降算法(FG)

计算训练集所有样本误差,对其求和再取平均值作为目标函数。

权重向量沿其梯度相反的方向移动,从而使当前目标函数减少得最多。

因为在执行每次更新时,我们需要在整个数据集上计算所有的梯度,所以批梯度下降法的速度会很慢,同时,批梯度下降法无法处理超出内存容量限制的数据集。

批梯度下降法同样也不能在线更新模型,即在运行的过程中,不能增加新的样本。

其是在整个训练数据集上计算损失函数关于参数θ的梯度:
在这里插入图片描述

随机平均梯度下降算法(SAG)

在SG方法中,虽然避开了运算成本大的问题,但对于大数据训练而言,SG效果常不尽如人意,因为每一轮梯度更新都完全与上一轮的数据和梯度无关。

随机平均梯度算法克服了这个问题,在内存中为每一个样本都维护一个旧的梯度,随机选择第i个样本来更新此样本的梯度,其他样本的梯度保持不变,然后求得所有梯度的平均值,进而更新了参数。

如此,每一轮更新仅需计算一个样本的梯度,计算成本等同于SG,但收敛速度快得多。

随机梯度下降算法(SG)

由于FG每迭代更新一次权重都需要计算所有样本误差,而实际问题中经常有上亿的训练样本,故效率偏低,且容易陷入局部最优解,因此提出了随机梯度下降算法。

其每轮计算的目标函数不再是全体样本误差,而仅是单个样本误差,即每次只代入计算一个样本目标函数的梯度来更新权重,再取下一个样本重复此过程,直到损失函数值停止下降或损失函数值小于某个可以容忍的阈值。

此过程简单,高效,通常可以较好地避免更新迭代收敛到局部最优解。其迭代形式为:
在这里插入图片描述
每次只使用一个样本迭代,若遇上噪声则容易陷入局部最优解。

其中,x(i)表示一条训练样本的特征值,y(i)表示一条训练样本的标签值

但是由于,SG每次只使用一个样本迭代,若遇上噪声则容易陷入局部最优解。

小批量梯度下降算法(mini-bantch)

小批量梯度下降算法是FG和SG的折中方案,在一定程度上兼顾了以上两种方法的优点。

每次从训练样本集上随机抽取一个小样本集,在抽出来的小样本集上采用FG迭代更新权重。

被抽出的小样本集所含样本点的个数称为batch_size,通常设置为2的幂次方,更有利于GPU加速处理。特别的,若batch_size=1,则变成了SG;若batch_size=n,则变成了FG.其迭代形式为:
在这里插入图片描述

线性回归api

sklearn.linear_model.LinearRegression(fit_intercept=True)

通过正规方程优化
fit_intercept:是否计算偏置
LinearRegression.coef_:回归系数
LinearRegression.intercept_:偏置

sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)

SGDRegressor类实现了随机梯度下降学习,它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。

loss:损失类型
loss=”squared_loss”: 普通最小二乘法

fit_intercept:是否计算偏置
learning_rate : string, optional

学习率填充
‘constant’: eta = eta0
‘optimal’: eta = 1.0 / (alpha * (t + t0)) [default]
‘invscaling’: eta = eta0 / pow(t, power_t)

power_t=0.25:存在父类当中
对于一个常数值的学习率来说,可以使用learning_rate=’constant’ ,并使用eta0来指定学习率。
SGDRegressor.coef_:回归系数
SGDRegressor.intercept_:偏置

欠拟合和过拟合

定义

过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,
但是在测试数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

机器学习(算法篇) —— 线性回归_第18张图片
那么是什么原因导致模型复杂?线性回归进行训练学习的时候变成模型会变得复杂,这里就对应前面再说的线性回归的两种关系,非线性关系的数据,也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系。

原因以及解决办法:

欠拟合原因以及解决办法

原因:学习到数据的特征过少

解决办法:
1、添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。除上面的特征之外,“上下文特征”、“平台特征”等等,都可以作为特征添加的首选项。
2、添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

过拟合原因以及解决办法

原因:原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点。

解决办法:

1、重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,如果出现了过拟合就需要我们重新清洗数据。
2、增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。
3、正则化
4、减少特征维度,防止维灾难

正则化

在解决回归过拟合中,我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题,除了一些算法本身作用之外(决策树、神经网络),我们更多的也是去自己做特征选择,包括之前说的删除、合并一些特征。
机器学习(算法篇) —— 线性回归_第19张图片
如何解决?
机器学习(算法篇) —— 线性回归_第20张图片
在学习的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减少这个特征的影响(甚至删除某个特征的影响),这就是正则化。

正则化类别:
1、L1正则化

作用:可以使得其中一些W的值直接为0,删除这个特征的影响
LASSO回归

2、L2正则化

作用:可以使得其中一些W的都很小,都接近于0,削弱某个特征的影响
优点:越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象
Ridge回归

正则化线性模型

Ridge Regression (岭回归,又名 Tikhonov regularization)

岭回归是线性回归的正则化版本,即在原来的线性回归的 cost function 中添加正则项(regularization term):
在这里插入图片描述以达到在拟合数据的同时,使模型权重尽可能小的目的,岭回归代价函数:机器学习(算法篇) —— 线性回归_第21张图片

α=0:岭回归退化为线性回归

Lasso Regression(Lasso 回归)

Lasso 回归是线性回归的另一种正则化版本,正则项为权值向量的ℓ1范数。

Lasso回归的代价函数 :
在这里插入图片描述
注意 :

Lasso Regression 的代价函数在 θi=0处是不可导的.
解决方法:在θi=0处用一个次梯度向量(subgradient vector)代替梯度,如下式
Lasso Regression 的次梯度向量

机器学习(算法篇) —— 线性回归_第22张图片
Lasso Regression 有一个很重要的性质是:倾向于完全消除不重要的权重。

例如:当α 取值相对较大时,高阶多项式退化为二次甚至是线性:高阶多项式特征的权重被置为0。

也就是说,Lasso Regression 能够自动进行特征选择,并输出一个稀疏模型(只有少数特征的权重是非零的)。

Elastic Net (弹性网络)

弹性网络在岭回归和Lasso回归中进行了折中,通过 混合比(mix ratio) r 进行控制:
弹性网络的代价函数 :

r=0:弹性网络变为岭回归
r=1:弹性网络便为Lasso回归

在这里插入图片描述

岭回归api

   sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver="auto", normalize=False)
    具有l2正则化的线性回归
    alpha:正则化力度,也叫 λ
        λ取值:0~1 1~10
    solver:会根据数据自动选择优化方法
        sag:如果数据集、特征都比较大,选择该随机梯度下降优化
    normalize:数据是否进行标准化
        normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据
    Ridge.coef_:回归权重
    Ridge.intercept_:回归偏置

Ridge方法相当于SGDRegressor(penalty=‘l2’, loss=“squared_loss”),只不过SGDRegressor实现了一个普通的随机梯度下降学习,推荐使用Ridge(实现了SAG)

sklearn.linear_model.RidgeCV(_BaseRidgeCV, RegressorMixin)

具有l2正则化的线性回归,可以进行交叉验证
coef_:回归系数

案例:波士顿房价预测

数据介绍:机器学习(算法篇) —— 线性回归_第23张图片
机器学习(算法篇) —— 线性回归_第24张图片

分析

回归当中的数据大小不一致,是否会导致结果影响较大。所以需要做标准化处理。

数据分割与标准化处理
回归预测
线性回归的算法效果评估

回归性能评估

均方误差(Mean Squared Error)MSE)评价机制:
机器学习(算法篇) —— 线性回归_第25张图片
注:yi为预测值,¯y为真实值

sklearn.metrics.mean_squared_error(y_true, y_pred)
    均方误差回归损失
    y_true:真实值
    y_pred:预测值
    return:浮点数结果

代码

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge,RidgeCV
from sklearn.metrics import mean_squared_error

def linear_model1():
    # 正规方程
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = LinearRegression()
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)


def linear_model2():
    # 梯度下降
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = SGDRegressor()
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)


def linear_model3():
    # 岭回归
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    estimator = RidgeCV(alphas=(1000,100,10,1,0.1,0.01,0.001))
    estimator.fit(x_train,y_train)

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)

if __name__ == '__main__':
    linear_model1()
    linear_model2()
    linear_model3()

模型的保存和加载

sklearn模型的保存和加载API

from sklearn.externals import joblib

保存:joblib.dump(estimator, 'test.pkl')
加载:estimator = joblib.load('test.pkl')

注意:如果在skleran中导入joblib失败,可以直接导入joblib

import joblib

线性回归的模型保存加载案例

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge,RidgeCV
from sklearn.metrics import mean_squared_error
import joblib

def linear_model3():
    # 岭回归
    data = load_boston();

    x_train,x_test,y_train,y_test = train_test_split(data.data,data.target,train_size=0.8,random_state=3)

    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # estimator = RidgeCV(alphas=(1000,100,10,1,0.1,0.01,0.001))
    # estimator.fit(x_train,y_train)
    # joblib.dump(estimator,"test.pkl")
    estimator = joblib.load("test.pkl")

    y_predict = estimator.predict(x_test)

    print("预测值为:\n",y_predict)
    print("模型中的系数为:\n",estimator.coef_)
    print("模型中的偏置为:\n",estimator.intercept_)

    print("准确率为:\n",estimator.score(x_test,y_test))
    print("均方误差:\n",mean_squared_error(y_test,y_predict))

    print("模型偏置:\n",estimator.intercept_)

if __name__ == '__main__':
    linear_model3()

你可能感兴趣的:(机器学习,机器学习,人工智能,python)