钰涵雨辰

线性回归算法从认知到实战内含波士顿房价预测案例

文章目录

2.1 线性回归简介
- 学习目标
- 1 线性回归应用场景
- 2 什么是线性回归
- - 2.1 定义与公式
  - 2.2 线性回归的特征与目标的关系分析
- 3 小结
2.2 线性回归api初步使用
- 学习目标
- 1 线性回归API
- 2 举例
- - 2.1 步骤分析
  - 2.2 代码过程
- 3 小结
2.3 数学:求导
- 学习目标
- 1 常见函数的导数
- 2 导数的四则运算
- 3 练习
- 4 矩阵（向量）求导 [了解]
- 3 小结
2.4 线性回归的损失和优化
- 学习目标
- 1 损失函数
- 2 优化算法
- - - 2.1什么是梯度下降法
    - 2.2 梯度的概念
    - 2.3 如何使用梯度下降法
    - 2.4 两个参数的梯度下降法一般流程：
    - 2.5 各种形式的梯度下降法
  - 2.1 正规方程
  - - 2.1.1 什么是正规方程
2.5 线性回归api再介绍
- 学习目标
- 小结
2.6 案例：波士顿房价预测
- 学习目标
- 1 案例背景介绍
- 2 案例分析
- 3 回归性能评估
- 4 代码实现
- - 4.1 正规方程
  - 4.2 梯度下降法
- 5 小结
2.7 欠拟合和过拟合
- 学习目标
- 1 定义
- 2 原因以及解决办法
- 3 正则化
- - 3.1 什么是正则化
  - 3.2 正则化类别
- 4 小结
2.8 正则化线性模型
- 学习目标
- 1 Ridge Regression (岭回归)
- 2 Lasso Regression(Lasso 回归)
- 3 Elastic Net (弹性网络)
- 4 Early Stopping [了解]
- 5 小结
2.9 线性回归的改进-岭回归
- 学习目标
- 1 API
- 2 观察正则化程度的变化，对结果的影响？
- 3 波士顿房价预测
- 4 小结
2.10 多项式回归与Pipeline
- 学习目标
- 1 API
2.11 模型的保存和加载
- 学习目标
- 1 sklearn模型的保存和加载API
- 2 线性回归的模型保存加载案例
- 3 小结

2.1 线性回归简介

学习目标

了解线性回归的应用场景
知道线性回归的定义

1 线性回归应用场景

房价预测
销售额度预测
贷款额度预测

举例：

2 什么是线性回归

2.1 定义与公式

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归
线性回归用矩阵表示举例

那么怎么理解呢？我们来看几个例子

期末成绩：0.7×考试成绩+0.3×平时成绩
房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

上面两个例子，我们看到特征值与目标值之间建立了一个关系，这个关系可以理解为线性模型。

2.2 线性回归的特征与目标的关系分析

线性回归当中主要有两种模型，**一种是线性关系，另一种是非线性关系。**在这里我们只能画一个平面更好去理解，所以都用单个特征或两个特征举例子。

线性关系
- 单变量线性关系：
- 多变量线性关系

注释：单特征与目标值的关系呈直线关系，或者两个特征与目标值呈现平面的关系

更高维度的我们不用自己去想，记住这种关系即可

非线性关系

注释：为什么会这样的关系呢？原因是什么？

如果是非线性关系，那么回归方程可以理解为：

w_1x_1+w_2x_2^2+w_3x_32w1x1+w2x22+w3x32

3 小结

线性回归的定义【了解】
- 利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式
线性回归的分类【知道】
- 线性关系
- 非线性关系

2.2 线性回归api初步使用

学习目标

知道线性回归api的简单使用

1 线性回归API

1.1. Linear Models — scikit-learn 1.1.2 documentation

sklearn.linear_model.LinearRegression()
- LinearRegression.coef_：模型的w的值
- LinearRegression.intercept_：b的值

2 举例

2.1 步骤分析

1.获取数据集
2.数据基本处理（该案例中省略）
3.特征工程（该案例中省略）
4.机器学习
5.模型评估（该案例中省略）

2.2 代码过程

导入模块

from sklearn.linear_model import LinearRegression

构造数据集

x = [[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

机器学习-- 模型训练

# 实例化API
estimator = LinearRegression()
# 使用fit方法进行训练
estimator.fit(x,y)
#
print(estimator.coef_)
print(estimator.intercept_)

estimator.predict([[100, 80]])

3 小结

sklearn.linear_model.LinearRegression()
- LinearRegression.coef_：模型的w的值
- LinearRegression.intercept_：b的值

2.3 数学:求导

学习目标

知道常见的求导方法
知道导数的四则运算

1 常见函数的导数

2 导数的四则运算

3 练习

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SAeizTA4-1664347182802)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u32opnpj3106034wfy.jpg)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sce8mjTG-1664347182803)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u33u520j31d60320uz.jpg)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fZwjjpM1-1664347182804)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u35wr86j30q002kt9o.jpg)]$

4 矩阵（向量）求导 [了解]

参考链接：https://en.wikipedia.org/wiki/Matrix_calculus#Scalar-by-vector_identities

3 小结

常见函数的求导方式和导数的四则运算

2.4 线性回归的损失和优化

学习目标

知道线性回归中损失函数
知道使用梯度下降法对损失函数优化的过程

假设刚才的房子例子，真实的数据之间存在这样的关系：

真实关系：真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率

那么现在呢，我们随意指定一个关系（猜测）

随机指定关系：预测房子价格 = 0.25×中心区域的距离 + 0.14×城市一氧化氮浓度 + 0.42×自住房平均房价 + 0.34×城镇犯罪率

请问这样的话，会发生什么？真实结果与我们预测的结果之间是不是存在一定的误差呢？类似这样样子

红色的先更好？是因为红线的损失更少。

既然存在这个误差，那我们就将这个误差给衡量出来

1 损失函数

总损失定义为：

yi为第i个训练样本的真实值
h(xi)为第i个训练样本特征值组合预测函数
这个公式也叫最小二乘法

如何去减少这个损失，使我们预测的更加准确些？既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失！！！

2 优化算法

如何去求模型当中的W，使得损失最小？（目的是找到最小损失对应的W值）

梯度下降法

2.1什么是梯度下降法

梯度下降法是用来优化模型，使模型达到最优解的方法。
在数学上，梯度，也叫导数。梯度的方向是模型函数值增长最快的方向，梯度的反方向就是函数值下降最快的方向。
目标函数也叫损失函数，该函数是衡量的模型的预测值和数据的真实值之间的差距，所以我们的目标是，使这个差距最小，这样模型的预测值就可以认为是数据的真实值。

梯度下降法的基本思想可以类比为一个下山的过程。

假设这样一个场景：

一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。

因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。

具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，（同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走）。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

梯度下降的基本过程就和下山的场景很类似。

首先，我们有一个可微分的函数。这个函数就代表着一座山。

我们的目标就是找到这个函数的最小值，也就是山底。

根据之前的场景假设，最快的下山的方式就是找到当前位置最陡峭的方向，然后沿着此方向向下走，对应到函数中，就是找到给定点的梯度 ，然后朝着梯度相反的方向，就能让函数值下降的最快！因为梯度的方向就是函数值变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。

2.2 梯度的概念

梯度是微积分中一个很重要的概念

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率；
在多变量函数中，梯度是一个向量，向量有方向，梯度的方向就指出了函数在给定点的上升最快的方向；
- 在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。

这也就说明了为什么我们需要千方百计的求取梯度！我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的反方向一直走，就能走到局部的最低点！

2.3 如何使用梯度下降法

给定函数：
$f(x,y) = 3x^2+4y^2-10$
求该函数的最小值。

1.随机初始化 $x$ 和 $y$ 的值 $x = 6$ ， $y = 3$ ，

2.分别求出 $f (x, y$ )对 $x$ 的导数 $f^{'}(x)$ 和对 $y$ 的导数 $f^{'}(y)$ ：
$f^{'}(x) = 6x=36;f^{'}(y) = 8y=24$
3.修改 $x$ 和 $y$ 的值很小一点，比如
$x_{(t+1)} = x_t -0.001f^{'}(x) = 6-0.001*36 = 5.964$

$y_{(t+1)} = y_t -0.001f^{'}(y) = 3 - 0.001*24 = 2.976$

4.循环执行步骤2和步骤3，直到函数值达到最小（比如说我们前后两次函数值的差值为0，我们就说函数值达到了最小了）。

2.4 两个参数的梯度下降法一般流程：

在神经网络中，上面的例子中的x和y使用 $w_1$ 和 $w_2$ 表示， $f (x, y)$ 叫损失函数，我们的目标是使函数值最小。(我们可以简单的认为 $3x^2+4y^2$ 是模型的预测值，10是数据的真实值。)

1.随机初始化 $w_1$ 和 $w_2$ 的值。

2.循环遍历：for i=1…收敛:

$w_1 = w_1-\alpha\Delta{w_1}$

$w_2 = w_2-\alpha\Delta{w_2}$

2.5 各种形式的梯度下降法

1.SGD：随机梯度下降法：求导数的时候使用一个样本

2.mini-batch梯度下降法：求导数的时候使用一批数据。

3.batch梯度下降法：求导数的时候使用全部的数据。

2.1 正规方程

2.1.1 什么是正规方程

$XW=Y \\ X^{T}XW = X^{T}Y \\ (X^{T}X)^{-1}X^{T}XW = (X^{T}X)^{-1}X^{T}Y$

2.5 线性回归api再介绍

学习目标

了解正规方程的api及常用参数
了解梯度下降法api及常用参数

sklearn.linear_model.LinearRegression(fit_intercept=True)
- 通过正规方程优化
- 参数
  - fit_intercept：是否计算偏置，如果设置为False，不计算b，会拟合一条通过原点的直线。
- 属性
  - LinearRegression.coef_：回归系数
  - LinearRegression.intercept_：偏置
sklearn.linear_model.SGDRegressor(loss=“squared_loss”, fit_intercept=True, learning_rate =‘invscaling’, eta0=0.01)
- SGDRegressor类实现了随机梯度下降学习，它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。
- 参数：
  - loss:损失类型
    - loss=”squared_loss”: 普通最小二乘法
  - fit_intercept：是否计算偏置
  - eta0：学习率
- 属性：
  - SGDRegressor.coef_：回归系数
  - SGDRegressor.intercept_：偏置

sklearn提供给我们两种实现的API，可以根据选择使用

小结

正规方程
- sklearn.linear_model.LinearRegression()
梯度下降法
- sklearn.linear_model.SGDRegressor(）

2.6 案例：波士顿房价预测

学习目标

通过案例掌握正规方程和梯度下降法api的使用

1 案例背景介绍

数据介绍

给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找

2 案例分析

回归当中的数据大小不一致，是否会导致结果影响较大。所以需要做标准化处理。

数据分割与标准化处理
回归预测
线性回归的算法效果评估

3 回归性能评估

均方误差(Mean Squared Error)MSE)评价机制：

注：yi为预测值， $y^-$ 为真实值。

思考：MSE和最小二乘法的区别是？

sklearn.metrics.mean_squared_error(y_true, y_pred)
- 均方误差回归损失
- y_true:真实值
- y_pred:预测值
- return:浮点数结果

4 代码实现

4.1 正规方程

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
def linear_model1():
    """
    线性回归:正规方程
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4.机器学习-线性回归(正规方程)
    estimator = LinearRegression()
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None
linear_model1()

4.2 梯度下降法

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor
def linear_model2():
    """
    线性回归:梯度下降法
    :return:None
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4.机器学习-线性回归(特征方程)
    estimator = SGDRegressor(max_iter=1000)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)

    return None
linear_model2()

我们也可以尝试去修改学习率

estimator = SGDRegressor(max_iter=1000,eta0=0.1)

此时我们可以通过调参数，找到学习率效果更好的值。

5 小结

正规方程和梯度下降法api在真实案例中的使用【知道】
线性回归性能评估【知道】
- 均方误差

2.7 欠拟合和过拟合

学习目标

掌握过拟合、欠拟合的概念
掌握过拟合、欠拟合产生的原因
知道什么是正则化，以及正则化的分类

1 定义

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

那么是什么原因导致模型复杂？线性回归进行训练学习的时候变成模型会变得复杂，这里就对应前面再说的线性回归的两种关系，非线性关系的数据，也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系。

2 原因以及解决办法

欠拟合原因以及解决办法
- 原因：学习到数据的特征过少
- 解决办法：
  - **1）添加其他特征项，**有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。
  - 2）添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
过拟合原因以及解决办法
- 原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点
- 解决办法：
  - 1）重新清洗数据，导致过拟合的一个原因也有可能是数据不纯导致的，如果出现了过拟合就需要我们重新清洗数据。
  - 2）增大数据的训练量，还有一个原因就是我们用于训练的数据量太小导致的，训练数据占总数据的比例过小。
  - 3）正则化
  - 4）减少特征维度，防止维灾难

3 正则化

3.1 什么是正则化

在解决回归过拟合中，我们选择正则化。但是对于其他机器学习算法如分类算法来说也会出现这样的问题，除了一些算法本身作用之外（决策树、神经网络），我们更多的也是去自己做特征选择，包括之前说的删除、合并一些特征

如何解决？

在学习的时候，数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多，所以算法在学习的时候尽量减少这个特征的影响（甚至删除某个特征的影响），这就是正则化

注：调整时候，算法并不知道某个特征影响，而是去调整参数得出优化的结果

3.2 正则化类别

L2正则化
- 作用：可以使得其中一些W的都很小，都接近于0，削弱某个特征的影响
- 优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象
- Ridge回归
L1正则化
- 作用：可以使得其中一些W的值直接为0，删除这个特征的影响
- LASSO回归

4 小结

欠拟合【掌握】
- 在训练集上表现不好，在测试集上表现不好
- 解决方法：
  - 继续学习
    - 1.添加其他特征项
    - 2.添加多项式特征
过拟合【掌握】
- 在训练集上表现好，在测试集上表现不好
- 解决方法：
  - 1.重新清洗数据集
  - 2.增大数据的训练量
  - 3.正则化
  - 4.减少特征维度
正则化【掌握】
- 通过限制高次项的系数进行防止过拟合
- L1正则化
  - 理解：直接把高次项前面的系数变为0
  - Lasso回归
- L2正则化
  - 理解：把高次项前面的系数变成特别小的值
  - 岭回归

2.8 正则化线性模型

学习目标

知道正则化中岭回归的线性模型
知道正则化中lasso回归的线性模型
知道正则化中弹性网络的线性模型
了解正则化中early stopping的线性模型

Ridge Regression 岭回归
Lasso 回归
Elastic Net 弹性网络
Early stopping

1 Ridge Regression (岭回归)

岭回归是线性回归的正则化版本，即在原来的线性回归的 cost function 中添加正则项（regularization term）:

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E7j808lW-1664347182816)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2us8hjj30oc01yglh.jpg)]$

以达到在拟合数据的同时，使模型权重尽可能小的目的,岭回归代价函数:

α=0：岭回归退化为线性回归

2 Lasso Regression(Lasso 回归)

Lasso 回归是线性回归的另一种正则化版本，正则项为权值向量的ℓ1范数。

Lasso回归的代价函数：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-joUY6Oxp-1664347182818)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2wk7zxj30zo03y3yk.jpg)]$

【注意】

Lasso Regression 的代价函数在 θi=0处是不可导的.
解决方法：在θi=0处用一个次梯度向量(subgradient vector)代替梯度，如下式
Lasso Regression 的次梯度向量

Lasso Regression 有一个很重要的性质是：倾向于完全消除不重要的权重。

例如：当α 取值相对较大时，高阶多项式退化为二次甚至是线性：高阶多项式特征的权重被置为0。

也就是说，Lasso Regression 能够自动进行特征选择，并输出一个稀疏模型（只有少数特征的权重是非零的）。

3 Elastic Net (弹性网络)

弹性网络在岭回归和Lasso回归中进行了折中，通过 混合比(mix ratio) r 进行控制：

r=0：弹性网络变为岭回归
r=1：弹性网络便为Lasso回归

弹性网络的代价函数：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vYkLWEdB-1664347182820)(F:\机器学习与数据挖掘\第13次课_9月22日\2.线性回归\2.1 线性回归简介.assets\006tNbRwly1ga8u2yxt7uj311q03iaa8.jpg)]$

一般来说，我们应避免使用朴素线性回归，而应对模型进行一定的正则化处理，那如何选择正则化方法呢？

小结：

常用：岭回归
假设只有少部分特征是有用的：
- 弹性网络
- Lasso
- 一般来说，弹性网络的使用更为广泛。因为在特征维度高于训练样本数，或者特征是强相关的情况下，Lasso回归的表现不太稳定。

api:

from sklearn.linear_model import Ridge, ElasticNet, Lasso

4 Early Stopping [了解]

Early Stopping 也是正则化迭代学习的方法之一。

其做法为：在验证错误率达到最小值的时候停止训练。

5 小结

Ridge Regression 岭回归
- 就是把系数添加平方项
- 然后限制系数值的大小
- α值越小，系数值越大，α越大，系数值越小
Lasso 回归
- 对系数值进行绝对值处理
- 由于绝对值在顶点处不可导，所以进行计算的过程中产生很多0，最后得到结果为：稀疏矩阵
Elastic Net 弹性网络
- 是前两个内容的综合
- 设置了一个r,如果r=0–岭回归；r=1–Lasso回归
Early stopping
- 通过限制错误率的阈值，进行停止

2.9 线性回归的改进-岭回归

学习目标

知道岭回归api的具体使用

1 API

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=“auto”, normalize=False)
- 具有l2正则化的线性回归
- alpha:正则化力度，也叫 λ
  - λ取值：0~1 1~10
- solver:会根据数据自动选择优化方法
  - sag:如果数据集、特征都比较大，选择该随机梯度下降优化
- Ridge.coef_:回归权重
- Ridge.intercept_:回归偏置

2 观察正则化程度的变化，对结果的影响？

正则化力度越大，权重系数会越小
正则化力度越小，权重系数会越大

3 波士顿房价预测

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
def linear_model3():
    """
    线性回归:岭回归
    :return:
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    # 4.机器学习-线性回归(岭回归)
    estimator = Ridge(alpha=1)
    estimator.fit(x_train, y_train)

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)
linear_model3()

4 小结

sklearn.linear_model.Ridge(alpha=1.0, fit_intercept=True,solver=“auto”)【知道】
- 具有l2正则化的线性回归
- alpha – 正则化
  - 正则化力度越大，权重系数会越小
  - 正则化力度越小，权重系数会越大

2.10 多项式回归与Pipeline

学习目标

知道多项式回归api的具体使用

1 API

sklearn.preprocessing.PolynomialFeatures(degree=2)
- 生成多项式特征
- degree：生成不小于degree次幂的多项式特征。如给定两个特征【a,b】，degree=2，则生成【1，a，b，ab， $a^2$ , $b^2$ 】
sklearn.pipeline.Pipeline(steps=

[(‘scaler’,StandardScaler()),
(‘lin_reg’, LinearRegression())]

)
- 流水线工作
- steps：List of (name, transform) tuples

2.11 模型的保存和加载

学习目标

知道sklearn中模型的保存和加载

1 sklearn模型的保存和加载API

from sklearn.externals import joblib
- 保存：joblib.dump(model, path)
- 加载：estimator = joblib.load(path)

2 线性回归的模型保存加载案例

from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import Ridge
import joblib
def load_dump():
    """
    模型保存和加载
    :return:
    """
    # 1.获取数据
    data = load_boston()

    # 2.数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)

    # 3.特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)

    #4.机器学习-线性回归(岭回归)
    # 4.1 模型训练
    estimator = Ridge(alpha=1)
    estimator.fit(x_train, y_train)
    
    # 4.2 模型保存
    joblib.dump(estimator, "./data/test.pkl")

#     # 4.3 模型加载
#     estimator = joblib.load("./data/test.pkl")

    # 5.模型评估
    # 5.1 获取系数等值
    y_predict = estimator.predict(x_test)
    print("预测值为:\n", y_predict)
    print("模型中的系数为:\n", estimator.coef_)
    print("模型中的偏置为:\n", estimator.intercept_)

    # 5.2 评价
    # 均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:\n", error)
load_dump()

3 小结

sklearn.externals import joblib【知道】
- 保存：joblib.dump(estimator, ‘test.pkl’)
- 加载：estimator = joblib.load(‘test.pkl’)
- 注意：
  - 1.保存文件，后缀名是**.pkl
    2.加载模型是需要通过一个变量进行承接

你可能感兴趣的:(数据分析挖掘,算法,线性回归,机器学习)

【数组模拟邻接表】奋斗的阿庆 c++算法图论深度优先
前言在做图论算法题的过程中，总会遇到用数组来模拟邻接表进而表示图。之前一直没弄明白在用数组模拟邻接表相关的细节。如今明白了，记录一下。帮助不理解的小伙伴。一、所用变量constintN=1010;//表示点的个数constintM=10100;//表示边的条数inth[N];//h[i]表示以当前点i为起点所相连的第一条边的序号inte[2*M];//e[i]表示第i条边所对应的终点intne[2
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
补偿算法之相位补偿算法傻童:CPU Qt 自动控制理论算法 android
补偿算法之相位补偿算法相位补偿算法：在一些控制系统中，系统的相位裕度可能不足，导致系统稳定性变差。相位补偿算法通过增加或减少特定频率下的相角来调整系统的相位特性。例如，在电机调速系统中，为了提高系统在高速运行时的稳定性，可能会采用相位超前补偿算法，通过在控制回路中添加适当的滤波器或控制器结构，使系统在高频段的相位提前，从而增加相位裕度，防止系统出现振荡或失稳现象。相位补偿算法的核心目标是对信号或系
代码随想录算法训练营第三十五天（20250303） |01背包问题二维，01背包问题一维，416. 分割等和子集 -[补卡20250316] ZXZ_13 算法
01背包问题二维链接遍历物品没有大小顺序要求重点是模拟，推导出递推公式#include#includeintmain(){intm,n;std::cin>>m>>n;std::vectorweight(m,0),value(m,0);for(inti{0};i>weight[i];}for(inti{0};i>value[i];}std::vector>dp(m,std::vector(n+1,0
32.代码随想录算法训练营第三十二天|509. 斐波那契数,70. 爬楼梯，746. 使用最小花费爬楼梯白鹭鸣鸣！算法 java dp
32.代码随想录算法训练营第三十二天|509.斐波那契数,70.爬楼梯，746.使用最小花费爬楼梯DP数组的定义以及下标的含义递推公式动态规划的初始化是很重要的遍历顺序打印数组509.斐波那契数-力扣（LeetCode）斐波那契数（通常用F(n)表示）形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(
AI 大模型应用数据中心的数据清洗工具 SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
1.背景介绍在人工智能大模型应用的浪潮中，数据清洗作为数据预处理的重要环节，对于提升模型性能和可靠性具有至关重要的作用。数据中心作为人工智能模型的运行环境，面临着海量数据流和多样化的数据类型，如何高效、准确地进行数据清洗，成为应用大模型的关键问题之一。本文将详细介绍AI大模型应用数据中心的数据清洗工具，包括核心概念、算法原理、具体操作步骤、应用场景等，旨在为AI大模型的实际应用提供参考。2.核心概
gralloc usage flags Damon_X gralloc
下面这些示例主要说明了grallocusageflags在图像处理和多媒体应用中如何影响性能和正确性。让我们逐个详细分析每个问题的根因和修复方案，并深入解析gralloc标志对缓存管理和数据流的影响。✅Example1:长曝光快照耗时异常问题描述症状：长曝光快照（longexposuresnapshot）在某些内存优化后，拍摄时间异常变长。根因：第三方算法在多个快照帧上执行，耗时约1.2秒。Buf
基于知识图谱的个性化智能教学推荐系统(文档+源码) 「已注销」 python 知识图谱人工智能 python pygame pyqt dash
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
JVM垃圾回收器详解高锰酸钾_ jvm 测试工具 java
JVM垃圾回收器详解年轻代与老年代我们知道在分代GC算法中，将我们的堆内存分为了年轻代与老年代，那为什么要将内存分为年轻代和老年代呢？可以通过调整年轻代和老年代的比例来适应不同类型的应用程序，提高内存的利用率和性能.新生代和老年代使用不同的垃圾回收算法，新生代一般选择复制算法，老年代可以选择标记-清除和标记-整理算法，由程序员来选择灵活度较高。分代的设计中允许只回收新生代(minorgc)，如果能
自动驾驶AVM环视算法--鱼眼相机的畸变矫正原理和实测（图片和视频测试）金书世界手撸AVM全景代码数码相机
参考：金书世界测试工程和视频：链接：https://pan.baidu.com/s/11GNLuIxcONGCeobp0MbXFQ?pwd=0z6l提取码：0z6l1、平面相机的成像和坐标系如下所示说明1、f（ud，vd）就是以图像中心为原点坐标(和p(x，y)坐标相对，就是坐表原点不同)。2、p（x，y）就是在图像坐标系下的坐标点，坐标点的为图像的左上角点，这个和世界图像的保存数据的坐标一直。3
华为OD机试九日集训第2期 - 按算法分类，由易到难，循序渐进，提升编程能力和解题技巧，从而提高机试通过率哪吒搬砖工逆袭Java架构师华为od 算法九日集训 Java
目录一、适合人群二、本期训练时间三、如何参加四、数据结构与算法大纲五、华为OD九日集训第1期第1天、逻辑分析第2天、队列第3天、双指针第4天栈第5天滑动窗口第6天、二叉树第7天、并查集第8天、矩阵第9天、贪心算法六、国内直接使用满血ChatGPT4o、o1、o3-mini-high、Claude3.7Sonnet、满血DeepSeekR11、纯原版ChatGPT、Claude2、技术支持3、支持所
芒格的“思维格栅“：构建全面的投资分析框架 AGI大模型与大数据研究院 DeepSeek ai
芒格的"思维格栅"：构建全面的投资分析框架关键词：芒格、思维格栅、投资分析框架、跨学科思维、投资决策摘要：本文深入探讨了芒格的“思维格栅”理论及其在构建全面投资分析框架中的应用。首先介绍了“思维格栅”理论的背景和重要性，接着阐述了其核心概念与联系，包括跨学科思维的原理和架构。通过详细讲解核心算法原理和具体操作步骤，结合数学模型和公式进行举例说明，帮助读者理解如何运用这一理论进行投资分析。随后通过项
错误moduleNotFoundError: No module named 'matplotlib' 逆着tensor tensorflow2.0学习 tensorflow
错误ModuleNotFoundError:Nomodulenamed‘matplotlib’问题tensorflow2.0中jupyternotebook编写线性回归例子，出现ModuleNotFoundError:Nomodulenamed'matplotlib’错误解决办法好了，重新加载程序，已经可以用了。
算力技术演进与多场景融合路径智能计算研究中心其他
内容概要算力技术的演进正经历从异构计算到量子计算的范式跃迁。当前技术图谱中，芯片制程突破与架构创新持续推动算力密度提升，如5nm以下先进工艺与存算一体设计显著增强运算单元效率。与此同时，模型压缩、数据预处理等算法优化手段使单位算力产出提高30%以上。典型应用场景中，工业互联网通过自适应计算实现毫秒级实时控制，医疗影像领域借助分布式计算完成TB级数据处理，而智能安防系统依托边缘计算降低端到端时延至5
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
联邦学习算法安全优化与可解释性研究智能计算研究中心其他
内容概要本研究围绕联邦学习算法的安全性优化与模型可解释性增强展开系统性探索。首先，针对联邦学习中数据隐私泄露与模型性能损耗的固有矛盾，提出一种融合差分隐私与动态权重聚合的协同优化框架，通过分层加密机制降低敏感信息暴露风险。其次，引入可解释性算法（如LIME与SHAP）构建透明化决策路径，结合注意力机制实现特征贡献度的可视化映射，有效提升模型在医疗影像异常检测与金融欺诈识别场景中的可信度。此外，研究
算力融合创新与多场景应用生态构建智能计算研究中心其他
内容概要算力作为数字经济的核心驱动力，正经历从单一计算范式向融合架构的跨越式演进。随着异构计算、光子计算等底层技术的突破，算力资源逐步形成跨架构协同、多模态联动的智能供给体系，支撑工业互联网、医疗影像、智能安防等场景实现效率跃升。与此同时，量子计算与神经形态计算的前沿探索，正在重塑科学计算与实时决策的技术边界。建议行业关注算力可扩展性与安全标准的协同设计，通过动态调度算法与分布式架构优化，构建弹性
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
详解如何通过Python的BeautifulSoup爬虫+NLP标签提取+Dijkstra规划路径和KMeans聚类分析帮助用户规划旅行路线 mosquito_lover1 python beautifulsoup 爬虫 kmeans 自然语言处理
系统模块：数据采集模块（爬虫）：负责从目标网站抓取地点数据（如名称、经纬度、描述等）数据预处理模块（标签算法）：对抓取到的地点数据进行清洗和分类。根据地点特征（如经纬度、描述文本）打上标签（如“适合家庭”、“适合冒险”）。地理数据处理模块（地图API）：使用地图API获取地点的详细信息（如地址、距离、路径等）。计算地点之间的距离或路径。路径规划模块：根据用户输入的起点和终点，规划最优路径。支持多种
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
C语言的回溯算法苏墨瀚包罗万象 golang 开发语言后端
C语言中的回溯算法引言回溯算法（Backtracking）是一种通过搜索所有可能的候选解，找到符合条件的解的算法。它常用于解决一些组合问题、约束满足问题和优化问题。回溯算法的核心思想是通过尝试并逐步构建解的过程，在发现某个解不能继续时，从当前解的最后一个决策点“回溯”到之前的状态，进行其他可能性的探索。在这篇文章中，我们将探讨回溯算法的基本思想、基本框架及其在C语言中的具体实现，应用实例等。回溯算
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
区块链Blockchain weixin_33827590 区块链密码学数据结构与算法
区块链Blockchain区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。狭义来讲，区块链是一种按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构，并以密码学方式保证的不可篡改和不可伪造的分布式账本。广义来讲，区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点共识算法来
怎样用Java实现快速排序与找到数组中第k小的值？上官美丽 java 算法排序算法
大家好，今天我们来聊聊在Java中如何实现快速排序算法，以及如何利用这个排序算法来找到一个数组中的第k小的值。这两个主题在算法和数据结构的学习中都非常重要，理解这些内容对编写高效程序有很大的帮助！快速排序（QuickSort）是一种非常流行的排序算法，因为它在平均情况下表现得非常迅速。它的基本思路是通过一个“基准”值将数组分为两部分，然后递归对这两部分进行排序。听起来简单吧！接下来，我们深入了解一
一种基于swagger 2.0 yaml文件的接口异常用例生成算法，单因子变量法 xiyubaby.17 java 测试用例
详细解决方案一、设计思路基于Swagger2.0的YAML定义，为每个参数生成两类测试用例：正常用例：所有参数均符合约束。异常用例：仅一个参数违反约束，其他参数正常，且每个参数需覆盖所有可能的异常场景。二、实现步骤解析Swagger文件使用SnakeYAML解析YAML，提取参数定义（类型、约束、是否必填等）。生成正常值根据参数类型和约束生成合法值。生成异常值针对每个参数的所有约束，生成违反每个约
【算法设计-链栈和链队列】链栈和链队列的实现 baimeng5720 算法设计
1.链队列。利用带有头结点的单链表来实现链队列,插入和删除的复杂度都为o(1)代码：#include#includetypedefstructQnode{intdata;Qnode*next;}Qnode;typedefstructLinkQueue{Qnode*front;Qnode*rear;}LinkQueue;voidinitialize(LinkQueue*LinkQueue){Link
分布式系统中的负载均衡樽酒ﻬق 架构设计负载均衡网络运维
目录分布式系统中的负载均衡引言1.什么是负载均衡？1.1负载均衡的目标2.负载均衡的类型2.1网络负载均衡（NetworkLoadBalancing）2.2应用负载均衡（ApplicationLoadBalancing）2.3全局负载均衡（GlobalLoadBalancing）2.4计算负载均衡（ComputeLoadBalancing）3.负载均衡算法3.1轮询（RoundRobin）3.2加
数据结构与算法——栈和队列深度学习&目标检测实战项目算法数据结构 java 开发语言
目录第三章：栈和队列第一节：栈（Stack）1.1：栈的基本运算：1.2：栈的存储结构和基本运算第二节：队列2.1：定义及基本运算2.2：队列的存储结构和基本运算本章小结：第三章：栈和队列第一节：栈（Stack）是限制在表一端进行插入和删除操作的线性表。允许进行插入、删除操作的这一端称为栈顶（Top），另一个固定端称为栈底。例如栈中有三个元素，近栈的顺序是a1、a2、a3，当需要出栈时顺序为a3,
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

线性回归算法 从认知到实战内含波士顿房价预测案例

文章目录

2.1 线性回归简介

学习目标

1 线性回归应用场景

2 什么是线性回归

2.1 定义与公式

2.2 线性回归的特征与目标的关系分析

3 小结

2.2 线性回归api初步使用

学习目标

1 线性回归API

2 举例

2.1 步骤分析

2.2 代码过程

3 小结

2.3 数学:求导

学习目标

1 常见函数的导数

2 导数的四则运算

3 练习

4 矩阵（向量）求导 [了解]

3 小结

2.4 线性回归的损失和优化

学习目标

1 损失函数

2 优化算法

2.1什么是梯度下降法

2.2 梯度的概念

2.3 如何使用梯度下降法

2.4 两个参数的梯度下降法一般流程：

2.5 各种形式的梯度下降法

2.1 正规方程

2.1.1 什么是正规方程

2.5 线性回归api再介绍

学习目标

小结

2.6 案例：波士顿房价预测

学习目标

1 案例背景介绍

2 案例分析

3 回归性能评估

4 代码实现

4.1 正规方程

4.2 梯度下降法

5 小结

2.7 欠拟合和过拟合

学习目标

1 定义

2 原因以及解决办法

3 正则化

3.1 什么是正则化

3.2 正则化类别

4 小结

2.8 正则化线性模型

学习目标

1 Ridge Regression (岭回归)

2 Lasso Regression(Lasso 回归)

3 Elastic Net (弹性网络)

4 Early Stopping [了解]

5 小结

2.9 线性回归的改进-岭回归

学习目标

1 API

2 观察正则化程度的变化，对结果的影响？

3 波士顿房价预测

4 小结

2.10 多项式回归与Pipeline

学习目标

1 API

2.11 模型的保存和加载

学习目标

1 sklearn模型的保存和加载API

2 线性回归的模型保存加载案例

3 小结

你可能感兴趣的:(数据分析挖掘,算法,线性回归,机器学习)

线性回归算法从认知到实战内含波士顿房价预测案例