X1AO___X1A

机器学习 | 梯度下降原理及Python实现

文章目录

1. 梯度下降

1.1 批量梯度下降（BGD）

1.1.1 学习率的设置
1.1.2 Python 实现 BGD

1.2 随机梯度下降（SGD）

1.2.1 Python 实现 SGD
1.2.2 Sklearn 实现 SGD

1.3 小批量梯度下降（MBGD）

2. 三类梯度下降的比较
参考资料

机器学习 | 目录

机器学习 | 网络搜索及可视化

监督学习 | 线性回归原理及Sklearn实现

An overview of gradient descent optimization algorithms

梯度下降优化算法综述

Keras 中的优化程序

1. 梯度下降

梯度下降（Gradient Descent）是一种非常通用的优化算法，能够为大范围的问题找到最优解。梯度下降的中心思想就是迭代地调整参数从而使成本函数最小化。

假设你迷失在山上的迷雾中，你能够感觉到的只有你脚下路面的坡度。快速到达山脚的策略就是沿着最陡的方向下坡。这就是梯度下降的做法：通过测量参数向量 $\theta$ 相关的误差函数的局部梯度，并不断沿着梯度的方向调整，演到梯度降为 0，到达最小值！

具体来说，首先使用一个随机的 $\theta$ 值（这被称为随机初始化），然后逐步改进，每次踏出一步，每一步都尝试降低一点成本函数（如在线性回归中采用 MSE），直到算法收敛出一个最小值，如下所示：

梯度下降中一个重要参数就是每一步的步长，这却取决于超参数学习率（Learning Rate）。如果学习率态度，算法需要经过大量迭代才能收敛，这将耗费很长时间，如图所示，学习率太低：

反过来说，如果学习率太高，那可能会越过山谷直接到达山的另一边（并没有蓝精灵），设置有可能比之前的起点还要高。这会导致算法发散，值越来越大，最后无法找到好的解决方案，如下所示，学习率太高：

最后，并不是所有的成本函数看起来都像一个漂亮的碗。有的可能看着像洞、像山脉、像高原或者是各种不规则的地形，导致很难收敛到最小值。

下图显示了梯度下降的两个主要挑战：如果随机初始化，算法从左侧起步，那么会收敛到一个局部最小值，而不是全局最小值。如果从右侧起步，那么需要经过很长时间才能越过整片高原，如果停下来太早，将永远达不到全局最小值。

以线性回归模型为例，其成本函数 MSE 恰好是个凸函数，这意味着连接曲线上任意两个点的线段永远不会跟曲线相交。也就是说不存在局部最小，只有一个全局最小值，它同时也是一个连续函数，所以斜率不会产生陡峭的变化（即汉族利普西茨条件）。这两点保证了即便是乱走，梯度下降都可以趋近到全局最小值（只要等待时间足够长，学习率也不是太高）。

成本函数虽然是碗状的，但如果不同特征的尺寸差别巨大，那它可能是一个非常细长的碗。如下图所示的梯度下降，左边的训练集上特征 1 和特征 2 具有相同的数值规模，而右边的训练集上，特征 1 的数值则比特征 2 要小得多（因为特征 1 的值较小，所以 $\theta_1$ 需要更大的变化来来影响成本函数，这就是为什么碗形会沿着 $\theta_1$ 轴拉长）。

特征值无缩放和特征值缩放的梯度下降：

正如你所见，左图的梯度下降算法直接走向最小值，可以快速到达。而在右图中，显示沿着与全局最小值方向近乎垂直的方向前进，接下来是一段几乎平坦的长长的山谷。最后还是会抵达最小值，但是这需要花费大量的时间。

应用梯度下降时，需要保证全有特征值的大小比例都差不多（比如使用 Sklearn 的 StandardScaler 类），否则收敛的时间会长很多。

这张图也说明，训练模型也就是搜寻使成本函数（在训练集上）最小化的参数组合。这是模型参数空间层面上的搜索：模型的参数越多，这个空间的维度就越多，搜索就越难。同样是在干草堆里找寻一根针，在一个三百维的空间里就比一个在三维空间里要棘手得多，幸运的是，对于成本函数为凸函数的，针就躺在碗底。^[1]

1.1 批量梯度下降（BGD）

要实现梯度下降，需要计算每个模型关于参数 $\theta_j$ 的成本函数的梯度。换言之，需要计算的是如果改变 $\theta_j$ ，成本函数会改变多少，即偏导数。

以线性回归的成本函数 $M S E$ 为例，其偏导数为：

$\begin{aligned} \frac{\partial}{\partial \theta_j}MSE(\theta) &=\frac{\partial}{\partial \theta_j} \bigg(\frac{1}{m}\sum_{i=1}^m(\theta^T \cdot X^{(i)}-y^{(i)})^2 \bigg)\\ &=\frac{2}{m}\sum_{i=1}^m(\theta^T \cdot x^{(i)}-y^{(i)})x_j^{(i)}\\ \end{aligned}\tag{1}$

如果不想单独计算这些梯度，可以使用公式 (2) 对其进行一次性计算。梯度向量 $\nabla_\theta MSE(\theta)$ ，包含所有成本函数（每个模型参数一个）的偏导数。

成本函数 $M S E$ 的梯度向量：

$\nabla_\theta MSE(\theta)= \left( \begin{array}{cc} \frac{\partial}{\partial \theta_0}MSE(\theta) \\ \frac{\partial}{\partial \theta_1}MSE(\theta) \\ \vdots \\ \frac{\partial}{\partial \theta_n}MSE(\theta) \\ \end{array} \right) =\frac{2}{m}X^T \cdot(X \cdot \theta - y) \tag{2}$

对于公式 (2)，其在计算梯度下降的每一步时，都是基于完整的训练集 $X$ 的。这就是为什么该算法被称为批量梯度下降（Batch Gradient Descent）：每一步都使用整批训练数据。因此，面对非常庞大的训练集时，算法会变得极慢。但是，梯度下降算法随特征数量扩展的表现比较好：对于线性拟合，如果要训练的线性模型拥有几十万个特征，使用梯度下降仍比标准方法要快得多。

一旦有了梯度向量，那个点向上，就朝反方向下坡。也就是从 $\theta$ 中减去 $\nabla_\theta MSE(\theta)$ 。这时学习率 $\eta$ 就发挥作用了：用梯度向量乘以 $\eta$ 确定下坡步长的大小。

梯度下降步长：

$\theta^{(next step)} = \theta - \eta \nabla_\theta MSE(\theta) \tag{3}$

1.1.1 学习率的设置

我们来看一下分别使用三种不同学习率时，梯度下降的前十步（虚线表示起点）：

import numpy as np
import matplotlib.pyplot as plt

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

X_b = np.c_[np.ones((100, 1)), X]  # add x0 = 1 to each instance
X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]

eta = 0.1
n_iterations = 1000
m = 100
theta = np.random.randn(2,1)

for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
    theta = theta - eta * gradients
    
theta
X_new_b.dot(theta)

array([[4.04184331],
       [9.84392154]])

theta_path_bgd = []

def plot_gradient_descent(theta, eta, theta_path=None):
    m = len(X_b)
    plt.plot(X, y, "b.")
    n_iterations = 1000
    for iteration in range(n_iterations):
        if iteration < 10:
            y_predict = X_new_b.dot(theta)
            style = "b-" if iteration > 0 else "r--"
            plt.plot(X_new, y_predict, style)
        gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
        theta = theta - eta * gradients
        if theta_path is not None:
            theta_path.append(theta)
    plt.xlabel("$x_1$", fontsize=18)
    plt.axis([0, 2, 0, 15])
    plt.title(r"$\eta = {}$".format(eta), fontsize=16)

np.random.seed(42)
theta = np.random.randn(2,1)  # random initialization

plt.figure(figsize=(10,4))
plt.subplot(131); plot_gradient_descent(theta, eta=0.02)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.subplot(132); plot_gradient_descent(theta, eta=0.1, theta_path=theta_path_bgd)
plt.subplot(133); plot_gradient_descent(theta, eta=0.5)
plt.show()

可以看出：

左图的学习率太低：在前十步依然无法找到解决方案，但是只要结果长时间的迭代就一定可以找到解决方案；
中间的学习率看起来非常的棒：几次迭代就收敛出了最终解；
而右边的学习率太高：算法发散，直接跳过了数据区域，并且每一步都离实际解决方案越来越远。

要找到合适的学习率，可以使用网络搜索。但是你可能需要限制迭代次数，这样网络搜索就可以淘汰掉那些收敛耗时太长的模型。

然而怎么限制迭代次数呢？如果设置太低，算法可能在离最优解还很远时就停止了；但是如果设置得太高，模型到达最优解后，继续迭代参数不再变化，又会浪费时间。

一个简单的方法时，在开始设置一个非常大的迭代次数，但是当梯度向量的值变得很微小时中断算法——也就是当他的范数变得低于 $\varepsilon$ （称为容差）时，因为这是梯度下降已经（几乎）到达了最小值。

收敛率：当成本函数为凸函数，并且斜率没有陡峭的变化时（如 MSE 成本函数），通过批量梯度下降可以看出一个固定的学习率有一个收敛率，为 $o(\frac{1}{迭代次数})$ 。换句话说，如果将容差 $\varepsilon$ 缩小为原来的1/10（以得到更精确的解），算法将不得不运行 10 倍的迭代次数。

1.1.2 Python 实现 BGD

Python 实现批量梯度下降计算线性回归模型 $\theta$ ：

import numpy as np
import matplotlib.pyplot as plt

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

X_b = np.c_[np.ones((100, 1)), X]  # add x0 = 1 to each instance

eta = 0.1
n_iterations = 1000
m = 100
theta = np.random.randn(2,1)

for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(theta) - y)
    theta = theta - eta * gradients
    
print('theta:\n{}\n'.format(theta))

X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]  # add x0 = 1 to each instance
y_predict = X_new_b.dot(theta)

plt.plot(X_new, y_predict, "r-")
plt.plot(X, y, "b.")
plt.axis([0, 2, 0, 15])
plt.show()

theta:
[[4.20831857]
 [2.79226572]]

利用批量梯度下降法计算的 theta 结果与标准方程法的结果一致！

1.2 随机梯度下降（SGD）

批量梯度下降的主要问题时它要用整个训练集来计算每一步的梯度，所以训练集很大时，算法会特别慢。与之相反的极端是随机梯度下降（Stochastic Gradient Descent），每一步在训练集中随机选择一个实例，并且仅基于该单个实例来计算梯度。显然，这让算法变得快多了，因为每个迭代都只需要操作少量的数据。它也可以被用来训练海量的数据集，因为每次迭代只需要在内存中运行一个实例即可（ SGD 可以作为核外算法实现）。

另一方面，由于算法的随机性质，它比批量梯度下降要不规则得多。成本函数将不再是缓缓降低知道抵达最小值，而是不断上上下下，但是从整体来看，还是在慢慢下降。随着时间的推移，最终会非常接近最小值，但是即使它到达了最小值，依然还会持续反弹，永远不会停止。所以算法停下来的参数值肯定是足够好的，但不是最优的。

当成本函数非常不规则时（如高原的例子），随机梯度下降其实可以帮助算法跳出局部最小值，所以相比批量梯度下降，它对找到全局最小值更有优势。

因为，随机性的好处在于可以逃离局部最优，但缺点是永远定位不出最小值。要解决这个困境，有一个办法时逐步降低学习率。开始的步长比较大（这有助于快速进展和逃离局部最小值），然后越来越小，让算法尽量靠近全局最小值。这个过程叫做模拟退火，因为它类似于冶金时融化的金属慢慢冷却的退火过程。确定每个迭代学习率的函数叫作学习计划。如果学习率降得太快，可能会陷入局部最小值，甚至是停留在走向最小值的半途中。如果学习率太慢，你可能需要太长时间太能跳到差不多最小值附近，如果提早结束训练，可能只得到一个次优的解决方案。

1.2.1 Python 实现 SGD

按照惯例，我们用 n_epochs 来表示迭代次数，每一次迭代称为一轮。

import numpy as np
import matplotlib.pyplot as plt

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
X_b = np.c_[np.ones((100, 1)), X]  # add x0 = 1 to each instance

theta_path_sgd = []
m = len(X_b)
np.random.seed(42)

n_epochs = 50
t0, t1 = 5, 50  # learning schedule hyperparameters

def learning_schedule(t):
    return t0 / (t + t1)

theta = np.random.randn(2,1)  # random initialization

for epoch in range(n_epochs):
    for i in range(m):
        if epoch == 0 and i < 20:                    
            y_predict = X_new_b.dot(theta)           
            style = "b-" if i > 0 else "r--"         
            plt.plot(X_new, y_predict, style)        
        random_index = np.random.randint(m)
        xi = X_b[random_index:random_index+1]
        yi = y[random_index:random_index+1]
        gradients = 2 * xi.T.dot(xi.dot(theta) - yi)
        eta = learning_schedule(epoch * m + i)
        theta = theta - eta * gradients
        theta_path_sgd.append(theta)                

plt.plot(X, y, "b.")                                
plt.xlabel("$x_1$", fontsize=18)                    
plt.ylabel("$y$", rotation=0, fontsize=18)          
plt.axis([0, 2, 0, 15])                             
plt.show()              
theta

array([[3.954103  ],
       [3.03548045]])

前面的批量梯度下降需要在整个训练集上迭代 1000 次，而这段代码只迭代了 50 次就得到了一个相当不错的解。

1.2.2 Sklearn 实现 SGD

在 Scikit-Learn 里，用 SGD 执行线性回归可以使用 sklearn.linear_model.SGDRegressor 类，其默认优化的成本函数是平方误差。

我们从学习率为 0.1（eta0=0.1）开始，使用默认学习计划（与之前的学习计划不同）运行了 50 轮，并且没有使用任何的正则化（penalty=None），将得到一个跟标准方程的解非常相近的解决方案：

from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(max_iter=50, tol=-np.infty, penalty=None, eta0=0.1, random_state=42)
sgd_reg.fit(X, y.ravel())
sgd_reg.intercept_, sgd_reg.coef_

(array([3.9539613]), array([3.05185657]))

1.3 小批量梯度下降（MBGD）

小批量梯度下降（Mini-Batch Gradient Descent）：每一步的梯度计算，既不是基于整个训练集（如批量梯度下降），也不是基于单个实例（如随机梯度下降），而是基于一小部分随机的实例（也就是小批量）。

相比随机梯度下降，小批量梯度下降的主要优势在于可以从矩阵运算的硬件优化中获得显著的性能提升，特别是需要用到图形处理器时。MBGD 算法在参数空间层面的前进过程也不像 SGD 那么不稳定，特别是批量较大时。所以小批量梯度下降最终会比 SGD 更接近最小值一些。但是另一方面，它可能更难从局部最小值中逃脱。

2. 三类梯度下降的比较

如下图所示，三种梯度下降算法在训练过程中参数空间里的行进路线，它们最终都汇集在最小值附近，批量梯度下降最终停在了最小值上，而随机梯度下降和小批量梯度下降还在继续游走。但是批量梯度下降花费了大量时间来计算每一步，而用好了学习计划，梯度下降和小批量梯度下降也同样能达到最小值。

theta_path_mgd = []

n_iterations = 50
minibatch_size = 20

np.random.seed(42)
theta = np.random.randn(2,1)  # random initialization

t0, t1 = 200, 1000
def learning_schedule(t):
    return t0 / (t + t1)

t = 0
for epoch in range(n_iterations):
    shuffled_indices = np.random.permutation(m)
    X_b_shuffled = X_b[shuffled_indices]
    y_shuffled = y[shuffled_indices]
    for i in range(0, m, minibatch_size):
        t += 1
        xi = X_b_shuffled[i:i+minibatch_size]
        yi = y_shuffled[i:i+minibatch_size]
        gradients = 2/minibatch_size * xi.T.dot(xi.dot(theta) - yi)
        eta = learning_schedule(t)
        theta = theta - eta * gradients
        theta_path_mgd.append(theta)

theta

array([[3.9746783 ],
       [3.07082231]])

theta_path_bgd = np.array(theta_path_bgd)
theta_path_sgd = np.array(theta_path_sgd)
theta_path_mgd = np.array(theta_path_mgd)

plt.figure(figsize=(7,4))
plt.plot(theta_path_sgd[:, 0], theta_path_sgd[:, 1], "r-s", linewidth=1, label="Stochastic")
plt.plot(theta_path_mgd[:, 0], theta_path_mgd[:, 1], "g-+", linewidth=2, label="Mini-batch")
plt.plot(theta_path_bgd[:, 0], theta_path_bgd[:, 1], "b-o", linewidth=3, label="Batch")
plt.legend(loc="upper left", fontsize=16)
plt.xlabel(r"$\theta_0$", fontsize=20)
plt.ylabel(r"$\theta_1$   ", fontsize=20, rotation=0)
plt.axis([2.5, 4.5, 2.3, 3.9])
plt.show()

最后，我们来比较一下目前为止所讨论过的线性回归算法（ m 是训练实例的数量，n 是特征数量）：

参考资料

[1] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016: 106-115.

Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
遥感之机器学习树集成模型-CART算法之回归遥感-GIS 遥感之机器学习树集成模型机器学习图像处理 arcgis
本文在前面文章的基础上，连续介绍CART树在回归中的应用，其回归技术经常用于定量遥感领域，涉及各种地表参数含量的反演。主要分为如下几部分：回归概念描述回归树中数据集的划分准则CART回归树的原理和流程CART回归树的核心代码前面内容可参考：遥感之机器学习树模型专栏1回归概念机器学习中的回归建模以及相应的回归算法，在遥感领域对应的就是定量遥感分方向，比如水质参数反演，土壤中各种参数反演，森林各种生物
Spark MLlib模型训练—回归算法 Random forest regression 不二人生 Spark ML 实战 spark-ml 回归随机森林
SparkMLlib模型训练—回归算法Randomforestregression随机森林回归(RandomForestRegression)是一种集成学习方法，通过结合多个决策树的预测结果来提升模型的准确性和稳健性。相较于单一的决策树模型，随机森林通过随机采样和多棵树的集成，减少了模型的方差，从而在处理复杂数据集时展现出更好的性能。本文将详细介绍随机森林回归的原理、实现方法、应用场景，并通过Sc
Spark MLlib LinearRegression线性回归算法源码解析 SmileySure Spark 人工智能算法 Spark MLlib
线性回归一元线性回归hθ(x)=θ0+θ1xhθ(x)=θ0+θ1x——————–1多元线性回归hθ(x)=∑mi=1θixi=θTXhθ(x)=∑i=1mθixi=θTX—————–2损失函数J(θ)=1/2∑mi=1(hθ(xi)−yi)2J(θ)=1/2∑i=1m(hθ(xi)−yi)2—————31/2是为了求导时系数为1，平方里是真实值减去估计值我们的目的就是求其最小值最小二乘法要求较为
Spark MLlib模型训练—回归算法 GLR( Generalized Linear Regression) 猫猫姐 Spark 实战回归 spark-ml 线性回归 spark
SparkMLlib模型训练—回归算法GLR(GeneralizedLinearRegression)在大数据分析中，线性回归虽然常用，但在许多实际场景中，目标变量和特征之间的关系并非线性，这时广义线性回归（GeneralizedLinearRegression,GLR）便应运而生。GLR是线性回归的扩展，能够处理非正态分布的目标变量，广泛用于分类、回归以及其他统计建模任务。本文将深入探讨Spar
机器学习（2）单变量线性回归天凉玩个锤子
2.1模型表示我们学习的第一个算法是线性回归算法。在监督学习中，我们有一个数据集，这个数据集被称为训练集（TrainingSet）。我们用小写字母m来表示训练样本的数目。监督学习算法的工作方式以房屋价格的训练为例，将训练集里房屋价格喂给学习算法，学习算法工作后输出一个函数h，h代表hypothesis（假设）。函数h输入为房屋尺寸大小x，h根据输入来得出y值，y值对应房子的价格。因此，h是一个从x
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
【机器学习基础】Anaconda与Pycharm使用叫我东方小巴黎机器学习基础人工智能
这里写目录标题指定py版本安装包指定py版本安装包condaenvlistactivatexxxcondalistpipinstallxxx
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
应用数学与机器学习基础 - 线性代数篇绎岚科技机器学习深度学习机器学习线性代数
线性代数1.标量、向量、矩阵、张量学习线性代数，会涉及以下几个数学概念：标量（scalar）：定义：一个标量就是一个单数的数，不同于线性代数中大多数概念会涉及到多个数。表示法：我们用斜体表示标量。标量通常赋予小写的变量名称。当我们介绍标量时，会明确它们是哪种类型的数。比如，在定义实数标量时，我们可能会说”让s∈Rs\in\mathbb{R}s∈R表示一条线的斜率“；在定义自然数标量时，我们可能会说
四十一、【人工智能】【机器学习】- Bayesian Logistic Regression算法模型暴躁的大熊人工智能人工智能机器学习算法
系列文章目录第一章【机器学习】初识机器学习第二章【机器学习】【监督学习】-逻辑回归算法(LogisticRegression)第三章【机器学习】【监督学习】-支持向量机(SVM)第四章【机器学习】【监督学习】-K-近邻算法(K-NN)第五章【机器学习】【监督学习】-决策树(DecisionTrees)第六章【机器学习】【监督学习】-梯度提升机(GradientBoostingMachine,GBM
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
机器学习基础篇（八）——逻辑回归柚子味的羊数据分析机器学习机器学习算法逻辑回归
机器学习基础篇（八）——逻辑回归一、简介分类问题是机器学习中常见的一种问题，而逻辑回归则是非常适合二分类问题的一种算法。逻辑回归可以将数据集中的点划分成为两个类别。例如，我们可以将数据分成A类和B类。模型将给出特定数据点属于B类的概率，如果它低于0.5，那么就属于A类。如果高于0.5，那么该数据点属于B类。（大部分情况下阈值设为0.5，特定情况下也可以设置为其他值）举个栗子如图所示，学生考试是否成
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
Rust的Linfa和Polars库进行机器学习 Hello.Reader rust rust 机器学习人工智能
使用Rust的Linfa库和Polars库来实现机器学习中的线性回归算法。Linfacrate旨在提供一个全面的工具包来使用Rust构建机器学习应用程序。Polars是Rust的一个DataFrame库，它基于ApacheArrow的内存模型。Apachearrow提供了非常高效的列数据结构，并且正在成为列数据结构事实上的标准。在下面的例子中，我们使用一个糖尿病数据集来训练线性回归算法使用以下命令
岭回归算法码银回归数据挖掘人工智能
回归分析方法是利用数理统计方法分析数据，建立自变量和因变量间的回归模型，用于预测因变量变化的分析方法。其中比较经典的是HoerI和Kennard提出的岭回归算法。岭回归算法是在最小二乘法的基础上引|入正则项，使回归模型具有较好泛化能力和稳定性，但岭回归算法并不能处理自变量间非线性相关的情况。岭回归，又称脊回归,是对不适定问题进行回归分析时经常使用的一种正则化方法，是对最小二乘回归的一种补充，岭回归
【机器学习基础】正则化为梦而生~ 机器学习机器学习人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！后面的内容会越来越有意思~⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】机器学习入门（1）【机器学习基础】机器学习入门（2）【机器学习基础】机器学习的基本术语【机器学习基础】机器学习的模型评
【大厂AI课学习笔记】【2.2机器学习开发任务实例】（9）模型优化 giszz 人工智能学习笔记学习笔记
模型训练后，就要进行模型优化了。一般来讲，很简单，优化就是不换模型换参数，或者直接换模型。换了之后来对比，最后选个最好的。比如在本案例中，选择LinearRegression后，MSE从22下降到12，因此选择新的模型。取前20个验证集数据，将标注数据与实际房价对比关系如上图。可以看到，效果还是很好的。LinearRegression是线性回归算法。线性回归算法是一种通过对样本特征进行线性组合来进
机器学习基础（一）理解机器学习的本质昊昊该干饭了人工智能 python 机器学习人工智能 python
导读：在本文中，将深入探索机器学习的根本原理，包括基本概念、分类及如何通过构建预测模型来应用这些理论。目录机器学习机器学习概念相关概念机器学习根本：模型数据的语言：特征与标签训练与测试：模型评估机器学习的分类监督学习：有指导的学习过程非监督学习：自我探索的过程强化学习：通过试错学习构建与分析鸢尾花数据模型鸢尾花数据集简介加载数据集创建和训练模型进行预测与评估模型机器学习机器学习概念机器学习是人工智
基于WOA优化CNN-LSTM-Attention的回归或时序算法，包含多种CNN-LSTM算法进行对比|Matlab 机器不会学习CSJ 算法深度学习
01基于WOA优化CNN-LSTM-Attention的回归或时序算法，包含多种CNN-LSTM算法进行对比|Matlab基础知识：基于WOA-CNN-LSTM-Attention的数据回归算法是一种利用深度学习技术来进行数据回归分析的方法。它结合了WOA（WhaleOptimizationAlgorithm）、CNN（ConvolutionalNeuralNetwork）、LSTM（LongSh
Elasticsearch：什么是 kNN? Elastic 中国社区官方博客 Elasticsearch AI Elastic elasticsearch 大数据搜索引擎全文检索人工智能
kNN-K-nearestneighbor定义kNN（即k最近邻算法）是一种机器学习算法，它使用邻近度将一个数据点与其训练并记忆的一组数据进行比较以进行预测。这种基于实例的学习为kNN提供了“惰性学习（lazylearning）”名称，并使算法能够执行分类或回归问题。kNN的假设是相似的点可以在彼此附近找到——物以类聚。作为一种分类算法，kNN将新数据点分配给其邻居中的多数集。作为一种回归算法，k
GEE：关于在GEE平台上进行回归计算的若干问题 _养乐多_ GEE GEE javascript 遥感图像处理云计算回归
作者：CSDN@_养乐多_记录一些在GoogleEarthEngine（GEE）平台上进行机器学习回归计算的问题和解释。文章目录一、回归1.1问：GEE平台上可以进行哪些机器学习回归算法？1.2问：为什么只有这四种？哪个精度高？1.3问：GEE上能否运行深度学习算法？一、回归1.1问：GEE平台上可以进行哪些机器学习回归算法？答：GEE平台上有四种机器学习回归算法，分别是随机森林回归、CART（C
线性回归算法原理及python实现德乌大青蛙机器学习算法 python 数据挖掘
文章目录引言回归与分类的区别线性回归简单线性回归原理及推导python实现算法多元线性回归原理及推导python实现算法手工实现多元线性回归算法sklearn实现多元线性回归算法引言回归与分类的区别区分回归与分类其实很简单，举个例子，预测病人患病概率，结果只有患病和不患病2种，这就是分类；预测房价，结果可能是在一段区间内，这个就是回归。线性回归线性回归是利用数理统计中回归分析方法，其本质是寻找出一
数据回归算法 | Matlab实现Lasso回归预测模型天天酷科研数据回归算法（DR）回归 matlab
文章目录效果一览文章概述源码设计参考资料效果一览文章概述数据回归算法|Matlab实现Lasso回归预测模型.在本文，我们继续讲解另外一种可以解决“多重共线性”的算法——Lasso回归（也称L1正则化算法），其全称叫做（最小绝对值收敛和选择算子算法，leastabsoluteshrinkageandselectionoperator）。在本文，我们继续讲解另外一种可以解决“多重共线性”的算法——L
C语言经典算法之逻辑回归算法 JJJ69 C语言经典算法回归数据挖掘人工智能开发语言 c语言数据结构算法
目录前言A.建议B.简介一代码实现二时空复杂度A.时间复杂度分析：B.空间复杂度分析：C.总结三优缺点A.优点B.缺点四现实中的应用前言A.建议1.学习算法最重要的是理解算法的每一步，而不是记住算法。2.建议读者学习算法的时候，自己手动一步一步地运行算法。B.简介在C语言中实现逻辑回归算法，我们需要构建一个模型来预测二元分类问题的概率，并使用梯度下降或其他优化方法找到最佳的模型参数。一代码实现以下
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement