就是这个范~

线性回归算法从认知到实战内含波士顿房价预测案例

文章目录

2.1 线性回归简介
- 学习目标
- 1 线性回归应用场景
- 2 什么是线性回归
- - 2.1 定义与公式
  - 2.2 线性回归的特征与目标的关系分析
- 3 小结
2.2 线性回归api初步使用
- 学习目标
- 1 线性回归API
- 2 举例
- - 2.1 步骤分析
  - 2.2 代码过程
- 3 小结
2.3 数学:求导
- 学习目标
- 1 常见函数的导数
- 2 导数的四则运算
- 3 练习
- 4 矩阵（向量）求导 [了解]
- 3 小结
2.4 线性回归的损失和优化
- 学习目标
- 1 损失函数
- 2 优化算法
- - - 2.1什么是梯度下降法
    - 2.2 梯度的概念
    - 2.3 如何使用梯度下降法
    - 2.4 两个参数的梯度下降法一般流程：
    - 2.5 各种形式的梯度下降法
  - 2.1 正规方程
  - - 2.1.1 什么是正规方程
2.5 线性回归api再介绍
- 学习目标
- 小结
2.6 案例：波士顿房价预测
- 学习目标
- 1 案例背景介绍
- 2 案例分析
- 3 回归性能评估
- 4 代码实现
- - 4.1 正规方程
  - 4.2 梯度下降法
- 5 小结
2.7 欠拟合和过拟合
- 学习目标
- 1 定义
- 2 原因以及解决办法
- 3 正则化
- - 3.1 什么是正则化
  - 3.2 正则化类别
- 4 小结
2.8 正则化线性模型
- 学习目标
- 1 Ridge Regression (岭回归)
- 2 Lasso Regression(Lasso 回归)
- 3 Elastic Net (弹性网络)
- 4 Early Stopping [了解]
- 5 小结
2.9 线性回归的改进-岭回归
- 学习目标
- 1 API
- 2 观察正则化程度的变化，对结果的影响？
- 3 波士顿房价预测
- 4 小结
2.10 多项式回归与Pipeline
- 学习目标
- 1 API
2.11 模型的保存和加载
- 学习目标
- 1 sklearn模型的保存和加载API
- 2 线性回归的模型保存加载案例
- 3 小结

2.1 线性回归简介

学习目标

了解线性回归的应用场景
知道线性回归的定义

1 线性回归应用场景

房价预测
销售额度预测
贷款额度预测

举例：

2 什么是线性回归

2.1 定义与公式

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归
线性回归用矩阵表示举例

那么怎么理解呢？我们来看几个例子

期末成绩：0.7×考试成绩+0.3×平时成绩
房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

上面两个例子，我们看到特征值与目标值之间建立了一个关系，这个关系可以理解为线性模型。

2.2 线性回归的特征与目标的关系分析

线性回归当中主要有两种模型，**一种是线性关系，另一种是非线性关系。**在这里我们只能画一个平面更好去理解，所以都用单个特征或两个特征举例子。

线性关系
- 单变量线性关系：
- 多变量线性关系
  
  $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vV6GsHIF-1664347182799)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1gabe70bocyj30wy0qudpl.jpg)]$

注释：单特征与目标值的关系呈直线关系，或者两个特征与目标值呈现平面的关系

更高维度的我们不用自己去想，记住这种关系即可

非线性关系

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26VXIAGp-1664347182799)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1gabe58goruj30ci088gn0-1664346823276-5.jpg)]$

注释：为什么会这样的关系呢？原因是什么？

如果是非线性关系，那么回归方程可以理解为：

w_1x_1+w_2x_2^2+w_3x_32w1x1+w2x22+w3x32

3 小结

线性回归的定义【了解】
- 利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式
线性回归的分类【知道】
- 线性关系
- 非线性关系

2.2 线性回归api初步使用

学习目标

知道线性回归api的简单使用

1 线性回归API

1.1. Linear Models — scikit-learn 1.1.2 documentation

sklearn.linear_model.LinearRegression()
- LinearRegression.coef_：模型的w的值
- LinearRegression.intercept_：b的值

2 举例

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L8sTsy6O-1664347182800)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2zf8o4j30p80g8tai.jpg)]$

2.1 步骤分析

1.获取数据集
2.数据基本处理（该案例中省略）
3.特征工程（该案例中省略）
4.机器学习
5.模型评估（该案例中省略）

2.2 代码过程

导入模块

from sklearn.linear_model import LinearRegression

构造数据集

x = [[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

机器学习-- 模型训练

# 实例化API
estimator = LinearRegression()
# 使用fit方法进行训练
estimator.fit(x,y)
#
print(estimator.coef_)
print(estimator.intercept_)

estimator.predict([[100, 80]])

3 小结

sklearn.linear_model.LinearRegression()
- LinearRegression.coef_：模型的w的值
- LinearRegression.intercept_：b的值

2.3 数学:求导

学习目标

知道常见的求导方法
知道导数的四则运算

1 常见函数的导数

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SbPLF5P1-1664347182800)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u30c4d1j315w0iajxh.jpg)]$

2 导数的四则运算

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TRGsewJS-1664347182801)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1gaa81t8jvjj316809q76b.jpg)]$

3 练习

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZKmfnAki-1664347182801)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1gaa81jygfmj30pe06uq38.jpg)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SAeizTA4-1664347182802)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u32opnpj3106034wfy.jpg)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sce8mjTG-1664347182803)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u33u520j31d60320uz.jpg)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fZwjjpM1-1664347182804)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u35wr86j30q002kt9o.jpg)]$

4 矩阵（向量）求导 [了解]

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hLaTxA7Y-1664347182804)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u36pjlbj30u00vtgr7.jpg)]$

参考链接：https://en.wikipedia.org/wiki/Matrix_calculus#Scalar-by-vector_identities

3 小结

常见函数的求导方式和导数的四则运算

2.4 线性回归的损失和优化

学习目标

知道线性回归中损失函数
知道使用梯度下降法对损失函数优化的过程

假设刚才的房子例子，真实的数据之间存在这样的关系：

真实关系：真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

那么现在呢，我们随意指定一个关系（猜测）

随机指定关系：预测房子价格 = 0.25×中心区域的距离 + 0.14×城市一氧化氮浓度 + 0.42×自住房平均房价 + 0.34×城镇犯罪率

请问这样的话，会发生什么？真实结果与我们预测的结果之间是不是存在一定的误差呢？类似这样样子

红色的先更好？是因为红线的损失更少。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bICeIVpF-1664347182805)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u18alruj30ps0jcmzc.jpg)]$

既然存在这个误差，那我们就将这个误差给衡量出来

1 损失函数

总损失定义为：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WaSvm6Mk-1664347182805)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u192gzvj30v8066jrl.jpg)]$

yi为第i个训练样本的真实值
h(xi)为第i个训练样本特征值组合预测函数
这个公式也叫最小二乘法

如何去减少这个损失，使我们预测的更加准确些？既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失！！！

2 优化算法

如何去求模型当中的W，使得损失最小？（目的是找到最小损失对应的W值）

梯度下降法

2.1什么是梯度下降法

梯度下降法是用来优化模型，使模型达到最优解的方法。
在数学上，梯度，也叫导数。梯度的方向是模型函数值增长最快的方向，梯度的反方向就是函数值下降最快的方向。
目标函数也叫损失函数，该函数是衡量的模型的预测值和数据的真实值之间的差距，所以我们的目标是，使这个差距最小，这样模型的预测值就可以认为是数据的真实值。

梯度下降法的基本思想可以类比为一个下山的过程。

假设这样一个场景：

一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。

因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。

具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，（同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走）。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-q5n5nYXB-1664347182806)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u1vatkkj30v80gyn1o.jpg)]$

梯度下降的基本过程就和下山的场景很类似。

首先，我们有一个可微分的函数。这个函数就代表着一座山。

我们的目标就是找到这个函数的最小值，也就是山底。

根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度 ，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数值变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。

2.2 梯度的概念

梯度是微积分中一个很重要的概念

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率；
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向；
- 在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。

这也就说明了为什么我们需要千方百计的求取梯度！我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的反方向一直走，就能走到局部的最低点！

2.3 如何使用梯度下降法

给定函数：
$f(x,y) = 3x^2+4y^2-10$
求该函数的最小值。

1.随机初始化 $x$ 和 $y$ 的值 $x = 6$ ， $y = 3$ ，

2.分别求出 $f (x, y$ )对 $x$ 的导数 $f^{'}(x)$ 和对 $y$ 的导数 $f^{'}(y)$ ：
$f^{'}(x) = 6x=36;f^{'}(y) = 8y=24$
3.修改 $x$ 和 $y$ 的值很小一点，比如
$x_{(t+1)} = x_t -0.001f^{'}(x) = 6-0.001*36 = 5.964$

$y_{(t+1)} = y_t -0.001f^{'}(y) = 3 - 0.001*24 = 2.976$

4.循环执行步骤2和步骤3，直到函数值达到最小（比如说我们前后两次函数值的差值为0，我们就说函数值达到了最小了）。

2.4 两个参数的梯度下降法一般流程：

在神经网络中，上面的例子中的x和y使用 $w_1$ 和 $w_2$ 表示， $f (x, y)$ 叫损失函数，我们的目标是使函数值最小。(我们可以简单的认为 $3x^2+4y^2$ 是模型的预测值，10是数据的真实值。)

1.随机初始化 $w_1$ 和 $w_2$ 的值。

2.循环遍历：for i=1…收敛:

$w_1 = w_1-\alpha\Delta{w_1}$

$w_2 = w_2-\alpha\Delta{w_2}$

2.5 各种形式的梯度下降法

1.SGD：随机梯度下降法：求导数的时候使用一个样本

2.mini-batch梯度下降法：求导数的时候使用一批数据。

3.batch梯度下降法：求导数的时候使用全部的数据。

2.1 正规方程

2.1.1 什么是正规方程

$XW=Y \\ X^{T}XW = X^{T}Y \\ (X^{T}X)^{-1}X^{T}XW = (X^{T}X)^{-1}X^{T}Y$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4SAhXWQo-1664347182807)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u19hxgmj30bc01qmx4.jpg)]$

2.5 线性回归api再介绍

学习目标

了解正规方程的api及常用参数
了解梯度下降法api及常用参数

sklearn.linear_model.LinearRegression(fit_intercept=True)
- 通过正规方程优化
- 参数
  - fit_intercept：是否计算偏置，如果设置为False，不计算b，会拟合一条通过原点的直线。
- 属性
  - LinearRegression.coef_：回归系数
  - LinearRegression.intercept_：偏置
sklearn.linear_model.SGDRegressor(loss=“squared_loss”, fit_intercept=True, learning_rate =‘invscaling’, eta0=0.01)
- SGDRegressor类实现了随机梯度下降学习，它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。
- 参数：
  - loss:损失类型
    - loss=”squared_loss”: 普通最小二乘法
  - fit_intercept：是否计算偏置
  - eta0：学习率
- 属性：
  - SGDRegressor.coef_：回归系数
  - SGDRegressor.intercept_：偏置

sklearn提供给我们两种实现的API，可以根据选择使用

小结

正规方程
- sklearn.linear_model.LinearRegression()
梯度下降法
- sklearn.linear_model.SGDRegressor(）

2.6 案例：波士顿房价预测

学习目标

通过案例掌握正规方程和梯度下降法api的使用

1 案例背景介绍

数据介绍

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3WtmOfng-1664347182808)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u37zooxj317g0tc7dk.jpg)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BVKWh710-1664347182811)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u39xrmlj30xo0ryk16.jpg)]$

给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找

2 案例分析

回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理。

数据分割与标准化处理
回归预测
线性回归的算法效果评估

3 回归性能评估

均方误差(Mean Squared Error)MSE)评价机制：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mbDSHy04-1664347182812)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u3b3z4oj30lu04eq3b.jpg)]$

注：yi为预测值， $y^-$ 为真实值。

思考：MSE和最小二乘法的区别是？

sklearn.metrics.mean_squared_error(y_true, y_pred)
- 均方误差回归损失
- y_true:真实值
- y_pred:预测值
- return:浮点数结果

4 代码实现

4.1 正规方程

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
def linear_model1():
    """
    线性回归:正规方程
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4.机器学习-线性回归(正规方程)
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None
linear_model1()

4.2 梯度下降法

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor
def linear_model2():
    """
    线性回归:梯度下降法
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4.机器学习-线性回归(特征方程)
    estimator = SGDRegressor(max_iter=1000)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None
linear_model2()

我们也可以尝试去修改学习率

estimator = SGDRegressor(max_iter=1000,eta0=0.1)

此时我们可以通过调参数，找到学习率效果更好的值。

5 小结

正规方程和梯度下降法api在真实案例中的使用【知道】
线性回归性能评估【知道】
- 均方误差

2.7 欠拟合和过拟合

学习目标

掌握过拟合、欠拟合的概念
掌握过拟合、欠拟合产生的原因
知道什么是正则化，以及正则化的分类

1 定义

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wferCgc3-1664347182814)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2rlw69j315m0oc40y.jpg)]$

那么是什么原因导致模型复杂？线性回归进行训练学习的时候变成模型会变得复杂，这里就对应前面再说的线性回归的两种关系，非线性关系的数据，也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系。

2 原因以及解决办法

欠拟合原因以及解决办法
- 原因：学习到数据的特征过少
- 解决办法：
  - **1）添加其他特征项，**有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
  - 2）添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
过拟合原因以及解决办法
- 原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点
- 解决办法：
  - 1）重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。
  - 2）增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。
  - 3）正则化
  - 4）减少特征维度，防止维灾难

3 正则化

3.1 什么是正则化

在解决回归过拟合中，我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题，除了一些算法本身作用之外（决策树、神经网络），我们更多的也是去自己做特征选择，包括之前说的删除、合并一些特征

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pRIxWpy7-1664347182815)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2sjcw9j314o0g8wkd.jpg)]$

如何解决？

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1meqlPYh-1664347182815)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2tduvuj30zs0kctav.jpg)]$

在学习的时候，数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多，所以算法在学习的时候尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化

注：调整时候，算法并不知道某个特征影响，而是去调整参数得出优化的结果

3.2 正则化类别

L2正则化
- 作用：可以使得其中一些W的都很小，都接近于0，削弱某个特征的影响
- 优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象
- Ridge回归
L1正则化
- 作用：可以使得其中一些W的值直接为0，删除这个特征的影响
- LASSO回归

4 小结

欠拟合【掌握】
- 在训练集上表现不好，在测试集上表现不好
- 解决方法：
  - 继续学习
    - 1.添加其他特征项
    - 2.添加多项式特征
过拟合【掌握】
- 在训练集上表现好，在测试集上表现不好
- 解决方法：
  - 1.重新清洗数据集
  - 2.增大数据的训练量
  - 3.正则化
  - 4.减少特征维度
正则化【掌握】
- 通过限制高次项的系数进行防止过拟合
- L1正则化
  - 理解：直接把高次项前面的系数变为0
  - Lasso回归
- L2正则化
  - 理解：把高次项前面的系数变成特别小的值
  - 岭回归

2.8 正则化线性模型

学习目标

知道正则化中岭回归的线性模型
知道正则化中lasso回归的线性模型
知道正则化中弹性网络的线性模型
了解正则化中early stopping的线性模型

Ridge Regression 岭回归
Lasso 回归
Elastic Net 弹性网络
Early stopping

1 Ridge Regression (岭回归)

岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）:

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E7j808lW-1664347182816)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2us8hjj30oc01yglh.jpg)]$

以达到在拟合数据的同时，使模型权重尽可能小的目的,岭回归代价函数:

α=0：岭回归退化为线性回归

2 Lasso Regression(Lasso 回归)

Lasso 回归是线性回归的另一种正则化版本，正则项为权值向量的ℓ1范数。

Lasso回归的代价函数：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-joUY6Oxp-1664347182818)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2wk7zxj30zo03y3yk.jpg)]$

【注意】

Lasso Regression 的代价函数在 θi=0处是不可导的.
解决方法：在θi=0处用一个次梯度向量(subgradient vector)代替梯度，如下式
Lasso Regression 的次梯度向量

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AVUVUgom-1664347182818)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2y1mmnj313s0acac7.jpg)]$

Lasso Regression 有一个很重要的性质是：倾向于完全消除不重要的权重。

例如：当α 取值相对较大时，高阶多项式退化为二次甚至是线性：高阶多项式特征的权重被置为0。

也就是说，Lasso Regression 能够自动进行特征选择，并输出一个稀疏模型（只有少数特征的权重是非零的）。

3 Elastic Net (弹性网络)

弹性网络在岭回归和Lasso回归中进行了折中，通过 混合比(mix ratio) r 进行控制：

r=0：弹性网络变为岭回归
r=1：弹性网络便为Lasso回归

弹性网络的代价函数：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vYkLWEdB-1664347182820)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2yxt7uj311q03iaa8.jpg)]$

一般来说，我们应避免使用朴素线性回归，而应对模型进行一定的正则化处理，那如何选择正则化方法呢？

小结：

常用：岭回归
假设只有少部分特征是有用的：
- 弹性网络
- Lasso
- 一般来说，弹性网络的使用更为广泛。因为在特征维度高于训练样本数，或者特征是强相关的情况下，Lasso回归的表现不太稳定。

api:

from sklearn.linear_model import Ridge, ElasticNet, Lasso

4 Early Stopping [了解]

Early Stopping 也是正则化迭代学习的方法之一。

其做法为：在验证错误率达到最小值的时候停止训练。

5 小结

Ridge Regression 岭回归
- 就是把系数添加平方项
- 然后限制系数值的大小
- α值越小，系数值越大，α越大，系数值越小
Lasso 回归
- 对系数值进行绝对值处理
- 由于绝对值在顶点处不可导，所以进行计算的过程中产生很多0，最后得到结果为：稀疏矩阵
Elastic Net 弹性网络
- 是前两个内容的综合
- 设置了一个r,如果r=0–岭回归；r=1–Lasso回归
Early stopping
- 通过限制错误率的阈值，进行停止

2.9 线性回归的改进-岭回归

学习目标

知道岭回归api的具体使用

1 API

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=“auto”, normalize=False)
- 具有l2正则化的线性回归
- alpha:正则化力度，也叫 λ
  - λ取值：0~1 1~10
- solver:会根据数据自动选择优化方法
  - sag:如果数据集、特征都比较大，选择该随机梯度下降优化
- Ridge.coef_:回归权重
- Ridge.intercept_:回归偏置

2 观察正则化程度的变化，对结果的影响？

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DEVBP9z7-1664347182820)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2ohzhhj31220s00yp.jpg)]$

正则化力度越大，权重系数会越小
正则化力度越小，权重系数会越大

3 波士顿房价预测

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
def linear_model3():
    """
    线性回归:岭回归
    :return:
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(岭回归)
    estimator = Ridge(alpha=1)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)
linear_model3()

4 小结

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=“auto”)【知道】
- 具有l2正则化的线性回归
- alpha – 正则化
  - 正则化力度越大，权重系数会越小
  - 正则化力度越小，权重系数会越大

2.10 多项式回归与Pipeline

学习目标

知道多项式回归api的具体使用

1 API

sklearn.preprocessing.PolynomialFeatures(degree=2)
- 生成多项式特征
- degree：生成不小于degree次幂的多项式特征。如给定两个特征【a,b】，degree=2，则生成【1，a，b，ab， $a^2$ , $b^2$ 】
sklearn.pipeline.Pipeline(steps=

[(‘scaler’,StandardScaler()),
(‘lin_reg’, LinearRegression())]

)
- 流水线工作
- steps：List of (name, transform) tuples

2.11 模型的保存和加载

学习目标

知道sklearn中模型的保存和加载

1 sklearn模型的保存和加载API

from sklearn.externals import joblib
- 保存：joblib.dump(model, path)
- 加载：estimator = joblib.load(path)

2 线性回归的模型保存加载案例

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
import joblib
def load_dump():
    """
    模型保存和加载
    :return:
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    #4.机器学习-线性回归(岭回归)
    # 4.1 模型训练
    estimator = Ridge(alpha=1)
    estimator.fit(x_train, y_train)
    
    # 4.2 模型保存
    joblib.dump(estimator, "./data/test.pkl")

#     # 4.3 模型加载
#     estimator = joblib.load("./data/test.pkl")

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)
load_dump()

3 小结

sklearn.externals import joblib【知道】
- 保存：joblib.dump(estimator, ‘test.pkl’)
- 加载：estimator = joblib.load(‘test.pkl’)
- 注意：
  - 1.保存文件，后缀名是**.pkl
    2.加载模型是需要通过一个变量进行承接

你可能感兴趣的:(算法,算法,线性回归)

Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。 zzywxc787 人工智能
AI技术正在深刻重塑A/B测试优化的流程、效率和价值，推动其从传统的“手动实验”向“智能优化引擎”跃迁。以下是具体变革方向及实际影响：1.实验设计智能化：告别“猜猜看”传统痛点：依赖经验选择测试变量（如按钮颜色、文案），忽略潜在高价值组合。AI解决方案：多臂老虎机算法（MAB）：动态分配流量至表现最优的变体（如：80%流量给当前最优，20%探索新选项），减少流量浪费高达70%（Netflix案例）
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
GMSK调制解调算法的仿真与研究(源码+万字报告+讲解) 炳烛之明科技算法
目录GMSK调制解调算法的仿真与研究1摘要1Abstract11绪论51.1研究背景及意义51.2国内外研究现状61.3研究内容102几种数字调制方式112.1GMSK调制112.1.1GMSK简介112.1.2GMSK调制原理122.2QPSK调制152.3二进制相移键控(BPSK)163GMSK调制与解调方案与研究173.1GMSK传统调制方法173.1.1直接产生GMSK信号173.1.2P
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
Matplotlib-图像处理与可视化
Matplotlib-图像处理与可视化一、图像数据的本质：从数组到像素二、基础操作：加载与显示图像1.加载图像数据2.显示单张图像3.显示灰度图像三、进阶可视化：通道分离与色彩调整1.分离RGB通道2.调整亮度与对比度四、实用技巧：色彩映射与像素值分析1.自定义色彩映射（Colormap）2.像素值分布直方图五、多图对比与标注：算法结果可视化1.边缘检测结果对比2.图像标注：突出感兴趣区域六、注意
12. 说一下 https 的加密过程 yqcoder 前端面试-服务协议 https 网络协议 http
总结客户端发送一个http请求，告诉服务器支持哪些hash算法。服务端发送证书（公钥、网址、证书机构等）给客户端。验证证书生成随机密码（RSA签名）：对称密码用公钥加密，服务器用私钥解密。进行传输生成对称加密算法说一下HTTPS的加密过程HTTPS（HyperTextTransferProtocolSecure）是HTTP协议的安全版本，通过SSL/TLS协议实现数据加密传输，确保客户端与服务器之
资源分享-FPS, 矩阵, 骨骼, 绘制, 自瞄, U3D, UE4逆向辅助实战视频教程小零羊矩阵 3d ue4
文章底部获取资源教程概述本视频教程专为游戏开发者和安全研究人员设计，涵盖FPS游戏设计、矩阵运算、骨骼绘制、自瞄算法、U3D和UE4逆向辅助等实战内容。通过102节详细视频教程，您将掌握从基础到高级的游戏开发与安全防护技能。教程内容1.FPS类型游戏的设计研究和游戏安全,反外挂研究2.二维向量和平面距离3.atan2和tan4.三维向量和空间距离5.补充向量乘法6.矩阵和矩阵的运算7.矩阵的特性8
MATLAB实现快速非局部均值图像去噪方法一只爪子
本文还有配套的精品资源，点击获取简介：非局部均值滤波是一种先进的图像去噪技术，与传统方法相比，它利用图像的全局信息来去除噪声，同时保持图像细节。该算法通过搜索和利用整个图像中相似的像素块，对每个像素点进行去噪处理。本文提供的MATLAB代码FAST_NLM_II.m实现此算法，并包含必要的参数设置、相似性计算、加权平均和图像更新步骤。了解并应用此代码是学习和进一步改进非局部均值滤波技术的基础。1.
【JMeter】接口加密 QA媛_ JMeter jmeter
文章目录哈希对称加密非对称加密JMeter实现加密调用函数示例加密是信息安全的重要手段，常用在身份认证、访问控制等安全场景。原理：对原有内容的特殊变换，从而隐藏内容，无法伪造内容。常见的算法：哈希对称加密非对称加密哈希优点：速度快缺点：无法还原场景：签名、内容校验著名算法：MD5、SHA-512对称加密优点：速度相当快，可以还原，加密密钥和解密密钥相同（逻辑简单）缺点：安全系数不高，解密者完全可以
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

线性回归算法 从认知到实战内含波士顿房价预测案例

文章目录

2.1 线性回归简介

学习目标

1 线性回归应用场景

2 什么是线性回归

2.1 定义与公式

2.2 线性回归的特征与目标的关系分析

3 小结

2.2 线性回归api初步使用

学习目标

1 线性回归API

2 举例

2.1 步骤分析

2.2 代码过程

3 小结

2.3 数学:求导

学习目标

1 常见函数的导数

2 导数的四则运算

3 练习

4 矩阵（向量）求导 [了解]

3 小结

2.4 线性回归的损失和优化

学习目标

1 损失函数

2 优化算法

2.1什么是梯度下降法

2.2 梯度的概念

2.3 如何使用梯度下降法

2.4 两个参数的梯度下降法一般流程：

2.5 各种形式的梯度下降法

2.1 正规方程

2.1.1 什么是正规方程

2.5 线性回归api再介绍

学习目标

小结

2.6 案例：波士顿房价预测

学习目标

1 案例背景介绍

2 案例分析

3 回归性能评估

4 代码实现

4.1 正规方程

4.2 梯度下降法

5 小结

2.7 欠拟合和过拟合

学习目标

1 定义

2 原因以及解决办法

3 正则化

3.1 什么是正则化

3.2 正则化类别

4 小结

2.8 正则化线性模型

学习目标

1 Ridge Regression (岭回归)

2 Lasso Regression(Lasso 回归)

3 Elastic Net (弹性网络)

4 Early Stopping [了解]

5 小结

2.9 线性回归的改进-岭回归

学习目标

1 API

2 观察正则化程度的变化，对结果的影响？

3 波士顿房价预测

4 小结

2.10 多项式回归与Pipeline

学习目标

1 API

2.11 模型的保存和加载

学习目标

1 sklearn模型的保存和加载API

2 线性回归的模型保存加载案例

3 小结

你可能感兴趣的:(算法,算法,线性回归)

线性回归算法从认知到实战内含波士顿房价预测案例