哎呦-_-不错

百面机器学习—12.优化算法

文章目录

- 引言
- 一、损失函数
- - 1.回归问题损失函数
  - - 1.1 均方误差—MSE(L2损失)
    - 1.2 均方根误差—RMSE
    - 1.3 平均绝对值误差—MAE（L1损失）
    - 1.4 Huber损失函数—平滑的平均绝对误差
    - 1.5 Log-Cosh损失
    - 1.6 分位数损失函数
  - 2. 分类问题中的损失函数
  - - 2.1 对数损失函数
    - 2.2 交叉熵损失函数
- 二、凸优化
- - 1.什么是凸函数？
  - 2. 凸函数有什么性质？
- 三、经典优化算法
- - 1.梯度下降法
  - 2.牛顿法
  - 3.随机梯度下降法—SGD
  - 4. 小批量梯度下降法
- 四.随机梯度下降法的加速
- - 1. 随机梯度下降法偶尔会失效，无法给出满意的训练结果，这是为什么？
  - 2.动量(Momentum)方法
  - 3.AdaGrad方法
  - 4. Adam方法

引言

机器学习算法=模型表征+模型评估+优化算法，优化算法所做的事就是在模型表征空间中找到模型评估指标最好的模型。

一、损失函数

损失函数定义了模型评估指标，不同的损失函数优化难度不同，同时，针对不同的问题也需要选择合适的损失函数。在实际应用中，选取损失函数会受到诸多因素的制约，比如是否有异常值、机器学习算法的选择、梯度下降的时间复杂度、求导的难易程度以及预测值的置信度等等。因此，不存在一种损失函数适用于处理所有类型的数据。

1.回归问题损失函数

这一部分参考机器学习大牛最常用的5个回归损失函数，你知道几个？。这一部分掌握MSE、MAE、Huber损失函数就可以，后面两种略作了解。它们三者的关系是MAE相对于MSE对异常点更鲁棒，但是MAE在转折点出不可导。综合考虑可导性与对异常点的鲁邦性，可以采用Huber损失函数。这个损失函数在残差较小时为平方损失，其余情况为线性损失，处处可导，并且对异常点鲁棒。

1.1 均方误差—MSE(L2损失)

均方误差是预测值与真实值之差平方的期望值，是最常用的回归损失函数
$MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-y_{i}^{p})^2$

1.2 均方根误差—RMSE

均方根误差是均方误差的算术平方根
$RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-y_{i}^{p})^2}$

1.3 平均绝对值误差—MAE（L1损失）

MAE是目标值和预测值之差的绝对值之和。其只衡量了预测值误差的平均模长，而不考虑方向。MAE对异常点更鲁棒一点，但是在转折点出无法求导数。

$MAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-y_{i}^{p}|$

1.4 Huber损失函数—平滑的平均绝对误差

在引出Huber损失之前，我们先比较一下MSE与MAE对于异常值的处理。MAE相对于MSE来说，对异常点有更好的鲁棒性。MSE对误差取了平方，MAE对误差取了绝对值，如果数据存在异常点的话，平方造成的影响远大于绝对值。然而MAE存在一个严重的问题（特别是对于神经网络），更新的梯度始终相同，也就是说，即使对于很小的损失值，梯度也很大。这样不利于模型的学习。总而言之，处理异常点时，L1损失函数更稳定，但它的导数不连续，因此求解效率较低。L2损失函数对异常点更敏感，但通过令其导数为0，可以得到更稳定的封闭解。但是在某些情况下，上述两种损失函数都不能满足需求。

例如，若数据中90%的样本对应的目标值为150，剩下10%在0到30之间。那么使用MAE作为损失函数的模型可能会忽视10%的异常点，而对所有样本的预测值都为150。这是因为模型会按中位数来预测。而使用MSE的模型则会给出很多介于0到30的预测值，因为模型会向异常点偏移。上述两种结果在许多商业场景中都是不可取的。

这是就用到了Huber损失函数。
Huber损失对数据中的异常点没有平方误差损失那么敏感。它在0也可微分。本质上，Huber损失是绝对误差，只是在误差很小时，就变为平方误差。误差降到多小时变为二次误差由超参数δ(delta)来控制。当Huber损失在[0-δ,0+δ]之间时，等价为MSE，而在[-∞,δ]和[δ,+∞]时为MAE。

这里超参数delta的选择非常重要，因为这决定了你对与异常点的定义。当残差大于delta，应当采用L1（对较大的异常值不那么敏感）来最小化，而残差小于超参数，则用L2来最小化。
为何要使用Huber损失？

使用MAE训练神经网络最大的一个问题就是不变的大梯度，这可能导致在使用梯度下降快要结束时，错过了最小点。而对于MSE，梯度会随着损失的减小而减小，使结果更加精确。在这种情况下，Huber损失就非常有用。它会由于梯度的减小而落在最小值附近。比起MSE，它对异常点更加鲁棒。因此，Huber损失结合了MSE和MAE的优点。但是，Huber损失的问题是我们可能需要不断调整超参数delta。

1.5 Log-Cosh损失

Log-cosh是另一种应用于回归问题中的，且比L2更平滑的的损失函数。它的计算方式是预测误差的双曲余弦的对数。

优点：对于较小的 $x$ ， $l o g (c o s h (x))$ 近似等于 $\frac{x^2}{2}$ ，对于较大的 $x$ ，近似等于 $a b s (x) - l o g (2)$ 。这意味着logcosh基本类似于均方误差，但不易受到异常点的影响。它具有Huber损失所有的优点，但不同于Huber损失的是，Log-cosh二阶处处可微。但Log-cosh损失也并非完美，其仍存在某些问题。比如误差很大的话，一阶梯度和Hessian会变成定值，这就导致XGBoost出现缺少分裂点的情况。

1.6 分位数损失函数

当我们更关注区间预测而不仅是点预测时，分位数损失函数就很有用。如何选取合适的分位值取决于我们对正误差和反误差的重视程度。损失函数通过分位值（γ）对高估和低估给予不同的惩罚。例如，当分位数损失函数γ=0.25时，对高估的惩罚更大，使得预测值略低于中值。

γ是所需的分位数，其值介于0和1之间。

这个损失函数也可以在神经网络或基于树的模型中计算预测区间。

2. 分类问题中的损失函数

2.1 对数损失函数

二分类问题中常用对数损失函数

2.2 交叉熵损失函数

二分类问题的交叉熵损失函数，y∈0,1时
$L(y,\hat{y})= -ylog(\hat{y})-(1-y)log(1-\hat{y})$
多分类问题的交叉熵损失函数为
$L(y,\hat{y})=-\sum_{k=1}^{K}y_klogp_k(x)$

二、凸优化

1.什么是凸函数？

凸函数的严格定义为：

或者用我们在高中中学过的概念：二阶导数大于等于0

2. 凸函数有什么性质？

对于凸优化问题，所有的局部极小值都是全局极小值，因此这类问题一般认为是比较容易求解的问题。

三、经典优化算法

1.梯度下降法

梯度下降算法是迭代更新参数，以修正对最优解的估计的方法。梯度下降法采用所有训练数据的平均损失来近似目标函数，在对模型参数进行更新时，需要遍历所有训练数据，当数据很大时，需要很大的计算量，耗费很长时间，在实际中基本不可行。

其中，M是训练样本个数，因此梯度下降的迭代公式为：

其中 $\alpha$ 为学习率

梯度下降法的python实现为：

# 以(x - 2.5) ** 2 - 1.为例
import numpy as np
import matplotlib.pyplot as plt

def J(x):
    return (x - 2.5) ** 2 - 1.

def dJ(x):
    return 2 * (x - 2.5)

def gradient_descent(initial_theta, eta, epsilon=1e-8):
    theta = initial_theta
    history_theta.append(theta)

    while True:
        gradient = dJ(theta)
        last_theta = theta
        theta = theta - eta * gradient
        history_theta.append(theta)
        # 每步最小移动，小于这个说明达到收敛
        if abs(J(last_theta) - J(theta)) < epsilon:
            break


def print_history():
    plt.plot(plot_x, J(plot_x))
    plt.plot(np.array(history_theta), J(np.array(history_theta)), color='r', marker='+')
    plt.show()

plot_x = np.linspace(-1., 6, 141)
plot_y = (plot_x - 2.5) ** 2 - 1.
history_theta = []
eta = 0.01
gradient_descent(0, eta)
print_history()

2.牛顿法

梯度下降法运用的是目标函数的一阶信息，牛顿法运用的是目标函数的二阶信息。
假设当前对最优解的估计值为 $\theta_{t}$ ,希望求解优化问题

来得到更好的估计值 $\theta_{t+1}=\theta_{t}+\delta_{t}$ 。对函数 $L(\theta_{t}+\delta)$ 做二阶泰勒展开得到近似式

其中 $\bigtriangledown^2{L(\theta_{t}})$ 是二阶导数信息

牛顿法的迭代公式为：
$\theta_{t+1} = \theta_{t}-\frac{\bigtriangledown{L(\theta_{t}})}{\bigtriangledown^2{L(\theta_{t}})}$

牛顿法的收敛速度一般要快于梯度下降法，但是在高维的情况下， $\bigtriangledown^2{L(\theta_{t}})$ 求逆的计算复杂度很大，而且当目标函数非凸时，二阶法有可能会收敛到鞍点。

牛顿迭代法python代码实现：

import numpy as np
import matplotlib.pyplot as plt

def J(x):
    return (x - 2.5) ** 2 - 1.

def dJ_d2J(x):
    return (x - 2.5)


def gradient_descent(initial_theta, epsilon=1e-8):
    theta = initial_theta
    history_theta.append(theta)

    while True:
        gradient = dJ_d2J(theta)
        last_theta = theta
        theta = theta - gradient
        history_theta.append(theta)
        # 每步最小移动，小于这个说明达到收敛
        if abs(J(last_theta) - J(theta)) < epsilon:
            break


def print_history():
    plt.plot(plot_x, J(plot_x))
    plt.plot(np.array(history_theta), J(np.array(history_theta)), color='r', marker='+')
    plt.show()

plot_x = np.linspace(-1., 6, 141)
plot_y = (plot_x - 2.5) ** 2 - 1.
history_theta = []
gradient_descent(0)
print_history()

3.随机梯度下降法—SGD

梯度下降算法中，在每次迭代时，需要使用所有训练数据，这非常不适用于大规模数据的优化问题。为了解决该问题，随机梯度下降法用单个训练样本的损失来近似平均损失，因此，随机梯度下降法用单个训练数据即可对模型参数进行一次更新，大大加快收敛效率。

因此随机梯度下降的迭代公式为：

其中 $\alpha$ 为学习率
随机梯度下降法的python实现：

import numpy as np

def dJ_sgd(theta, X_b_i, y_i):
    return 2 * X_b_i.T.dot(X_b_i.dot(theta) - y_i)

def sgd(X_b, y, initial_theta, n_iters):
    # 此处是为了让学习率越来越小，避免直接跳过最优解
    # 这是由于SGD本身的特性决定的
    # t0和t1是两个超参数，可自行调节
    t0, t1 = 5, 50

    def learning_rate(t):
        return t0 / (t + t1)

    theta = initial_theta
    for cur_iter in range(n_iters):
        # 随机取一个数据
        rand_i = np.random.randint(len(X_b))
        gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
        # 我们选用的是当前步数的倒数作为学习率，这样就实现了学习率越来越小
        # 但是为了防止一开始学习率过大，我们分子和分母各增加参数进行调节
        theta = theta - learning_rate(cur_iter) * gradient
    return theta

m = 100000
x = np.random.normal(size=m)
X = x.reshape(-1, 1)
y = 4. * x + 3 + np.random.normal(0, 3, size=m)
X_b = np.hstack([np.ones((len(X), 1)), X])
initial_theta = np.zeros(X_b.shape[1])
theta = sgd(X_b, y, initial_theta, n_iters=m//3)
print(theta)

4. 小批量梯度下降法

为了降低随机梯度的方差，从而使得迭代算法更加稳定，也为了充分利用高度优化的矩阵运算操作，在实际应用中我们会同时处理若干训练数据，该方法被称为小批量梯度下降法 ( Mini-Batch Gradient Descent）。
假设需要同时处理m个训练数据 ${(x_{i1},y_{i1}),...,(x_{im},y_{im})}$ ，则目标函数及其梯度为：

对于小批量梯度下降法的使用，有以下三点需要注意的地方：

如何选取参数m?在不同的应用中，最优的m通常会不一样，需要通过调参选取。一般m取2的幂次时能充分利用矩阵运算操作，所以可以在2的幂次中挑选最优的取值，例如32、64、128、256等。
如何挑选m个训练数据?为了避免数据的特定顺序给算法收敛带来的影响，一般会在每次遍历训练数据之前，先对所有的数据进行随机排序，然后在每次迭代时按顺序挑选m个训练数据直至遍历完所有的数据。
如何选取学习速率 $α$ ?为了加快收敛速率,同时提高求解精度,通常会采用衰减学习速率的方案:一开始算法采用较大的学习速率，当误差曲线进入平台期后，减小学习速率做更精细的调整。最优的学习速率方案也通常需要调参才能得到。

综上，通常采用小批量梯度下降法解决训练数据量过大的问题。每次更新模型参数时，只需要处理m个训练数据即可，其中m是一个远小于总数据量M的常数，这样能够大大加快训练过程。

import numpy as np


def dJ(theta, X_b, y):
    res = np.empty(len(theta))
    res[0] = np.sum(X_b.dot(theta) - y)
    for i in range(1, len(theta)):
        res[i] = (X_b.dot(theta) - y).dot(X_b[:, i])

    return res * 2 / len(X_b)


def mini_batch_gredient_descent(X_b, y, initial_theta, n_iters=1e4, batch_size=10):
    t0, t1 = 5, 50

    def learning_rate(t):
        return t0 / (t + t1)

    theta = initial_theta
    # 构造一个索引并打乱
    indices = np.arange(X_b.shape[0])
    np.random.shuffle(indices)
    cur_iter = 1
    for idx in range(0, len(indices) - batch_size + 1, batch_size):
        # 按照batch_size 取索引
        mini_batch_index = indices[idx: idx + batch_size]
        mini_X_b = X_b[mini_batch_index]
        mini_y = y[mini_batch_index]
        gradient = dJ(theta, mini_X_b, mini_y)
        theta = theta - learning_rate(cur_iter) * gradient
        if cur_iter > n_iters:
            break
        cur_iter += 1
    return theta


m = 100000
x = np.random.normal(size=m)
X = x.reshape(-1, 1)
y = 4. * x + 3 + np.random.normal(0, 3, size=m)
X_b = np.hstack([np.ones((len(X), 1)), X])
initial_theta = np.zeros(X_b.shape[1])
theta = mini_batch_gredient_descent(X_b, y, initial_theta, n_iters=m // 3)
print(theta)

四.随机梯度下降法的加速

随机梯度下降法本质上是采用迭代方式更新参数，每次迭代在当前位置的基础上，沿着某一方向迈一小步抵达下一位置，然后在下一位置重复上述步骤。随机梯度下降法的更新公式表示为:

其中，当前估计的负梯度 $g_t$ ,表示步子的方向，学习速率 $\eta$ 控制步幅。改造的随机梯度下降法仍然基于这个更新公式。改造的方式是加入惯性保持和环境感知。

1. 随机梯度下降法偶尔会失效，无法给出满意的训练结果，这是为什么？

随机梯度下降法放弃了对梯度准确性的追求,每步仅仅随机采样一个(或少量）样本来估计当前梯度，计算速度快，内存开销小。但由于每步接受的信息量有限，随机梯度下降法对梯度的估计常常出现偏差，造成目标函数曲线收敛得很不稳定，伴有剧烈波动，有时甚至出现不收敛的情况。梯度接近或变成零可能是由于当前解在局部最优解附近造成的。事实上，另一种可能性是当前解在鞍点(saddle point)附近。

2.动量(Momentum)方法

动量方法是为了解决随机梯度下降法山谷震荡和鞍点停滞的问题。
随机梯度下降法可以理解为：

纸团在山谷和鞍点处的运动轨迹，在山谷中纸团受重力作用沿山道滚下，两边是不规则的山壁，纸团不可避免地撞在山壁，由于质量小受山壁弹力的干扰大，从一侧山壁反弹回来撞向另一侧山壁，结果来回震荡地滚下;如果当纸团来到鞍点的一片平坦之地时，还是由于质量小，速度很快减为零。

动量(Momentum)方法可以理解为：

一个铁球，当沿山谷滚下时,不容易受到途中旁力的干扰，轨迹会更稳更直;当来到鞍点中心处，在惯性作用下继续前行，从而有机会冲出这片平坦的陷阱。

动量方法模型参数的迭代公式为：
$v_t=\gamma{v_{t-1}}+\eta{g_t}$
$\theta_{t+1}=\theta_{t}-v_t$

$v_t$ 有两部分组成, $v_t$ 直接依赖于 $v_{t-1}$ 和 $g_t$ ，而不仅仅是 $g_t$ 。衰减系数 $\gamma$ 扮演阻力作用

一部分是学习速率 $\eta$ 乘以当前估计梯度 $g_t$
另一部分是带衰减的前一次步伐 $v_{t-1}$

沿山谷滚下的铁球，会受到沿坡道向下的力和与左右山壁碰撞的弹力。向下的力稳定不变，产生的动量不断累积，速度越来越快;左右的弹力总是在不停切换，动量累积的结果是相互抵消，自然减弱了球的来回震荡。因此，与随机梯度下降法相比，动量方法的收敛速度更快，收敛曲线也更稳定

3.AdaGrad方法

AdaGrad算法，根据自变量在每个维度的梯度值的大小来调整各个维度上的学习率，从而避免统一的学习率难以适应所有维度的问题。
AdaGrad方法采用“历史梯度平方和”来衡量不同参数的梯度的稀疏性，取值越小表明越稀疏，AdaGrad方法模型参数的迭代公式表示为

4. Adam方法

Adam方法将惯性保持和环境感知这两个优点集于一身。一方面，Adam记录梯度的一阶矩( first moment ) ，即过往梯度与当前梯度的平均，这体现了惯性保持;另一方面，Adam还记录梯度的二阶矩( second moment)，即过往梯度平方与当前梯度平方的平均，这类似AdaGrad方法，体现了环境感知能力，为不同参数产生自适应的学习速率。一阶矩和二阶矩采用类似于滑动窗口内求平均的思想进行融合，即当前梯度和近一段时间内梯度的平均值，时间久远的梯度对当前平均值的贡献呈指数衰减。具体来说，一阶矩和二阶矩采用指数衰退平均( exponential decay average)技术，计算公式为：

对于任意时间步t，我们可以将 $v_t$ ,再除以 $1-\beta_{1}^{t}$ ，从而使过去各时间步小批量随机梯度权值之和为1。这也叫作偏差修正。在Adam算法中，我们对变量 $v_t$ 和 $s_t$ 均作偏差修正:

如果对您有帮助，麻烦点赞关注，这真的对我很重要！！！如果需要互关，请评论或者私信！

智能优化算法应用：基于哈里斯鹰算法与双伽马校正的图像自适应增强算法智能算法研学社（Jack旭）智能优化算法应用图像增强算法计算机视觉人工智能
智能优化算法应用：基于哈里斯鹰算法与双伽马校正的图像自适应增强算法-附代码文章目录智能优化算法应用：基于哈里斯鹰算法与双伽马校正的图像自适应增强算法-附代码1.全局双伽马校正2.哈里斯鹰算法3.适应度函数设计4.实验与算法结果5.参考文献6.Matlab代码摘要：本文主要介绍基于哈里斯鹰算法与双伽马校正的图像自适应增强算法。1.全局双伽马校正设图像的灰度值范围被归一化到[0,1]范围之内，基于全局
linux dump core 文件位置,Linux core dump使用小麦的天空 linux dump core 文件位置
什么是coredump？coredump是一个当进程意外终止时包含进程内存内容的文件。当程序崩溃的时候，coredump由kernel触发。coredump能够做为程序崩溃时的过后快照(post-mortemsnapshot)，尤为是在难以可靠的重现故障的状况下。html大多数Linux系统默认开始coredump。可是一般这么作是有代价的。一方面咱们想要去收集信息从而提升稳定性而且帮助咱们排除故
手撸 chatgpt 大模型:单词向量化编码和绝对位置编码算法 coding 迪斯尼 chatgpt 算法人工智能大语言模型
在上一节中，我们将每个单词转换为一个表示数字的标记（token）。现在，我们需要将这个数字映射到一个向量上，这个向量称为嵌入（embedding）。在深度学习中，所有无法通过传统数据结构描述的对象都会被用一个向量表示，例如图像、语音、单词、音频等。最初，向量中的各个字段会被初始化为随机数，然后通过大量的数据和深度学习模型来训练这些向量。训练过程逐步改变向量字段的值，从而使这些字段包含某种“知识”。
机器学习基础 dringlestry 机器学习人工智能
了解机器学习的基本概念，如监督学习、无监督学习、强化学习、模型评估指标（准确率、召回率、F1分数等）。机器学习（MachineLearning，ML）是人工智能（AI）的一个分支，它使计算机能够通过数据和经验自动改进，而无需明确编程。机器学习可以根据学习方式和数据的有无，分为以下几种基本类型：1.监督学习（SupervisedLearning）监督学习是一种机器学习类型，其中模型通过带标签的数据进
蓝桥与力扣刷题（蓝桥好数） এ旧栎 leetcode 算法职场和发展学习方法 java
题目：一个整数如果按从低位到高位的顺序，奇数位(个位、百位、万位⋯⋯)上的数字是奇数，偶数位(十位、千位、十万位⋯⋯)上的数字是偶数，我们就称之为“好数”。给定一个正整数N，请计算从1到N一共有多少个好数。输入格式一个整数N。输出格式一个整数代表答案。样例输入124样例输出17样例输入22024样例输出2150样例说明对于第一个样例，24以内的好数有1、3、5、7、9、21、23，一共7个。解题思
蓝桥杯-高精度加法（C语言） dm48-旭蓝桥杯 c语言
蓝桥杯-高精度加法思想百位级的数相加，输入时要按照字符类型存入数组，再从数组中一位一位的转成数字，用-‘0’的方法，二者相加考虑进位，但是加法和乘法有不同之处，进位也只能进一位，所以要将进位的情况考虑进去避免造成少一位的情况，还有就是需要注意在计算的时候将位数从头到尾颠倒问题描述输入两个整数a和b，输出这两个整数的和。a和b都不超过100位。算法描述由于a和b都比较大，所以不能直接使用语言中的标准
AI人工智能带给企业什么影响雪叶雨林 AI 人工智能 ai
在科技日新月异的今天，人工智能(AI)正以前所未有的速度和广度渗透到各行各业，对企业运营产生了深远的影响。这种影响不仅体现在技术层面的革新，更在于企业组织结构、工作流程、决策模式等多个维度的深刻变革。一、优化决策过程，提升精准度人工智能通过大数据分析和机器学习技术，能够处理和分析海量信息，为企业提供更为精准、实时的决策支持。相较于传统的人工分析，AI能够识别出数据中的微妙模式和趋势，帮助企业预见市
当你给大模型一段输入之后，它是怎么得到答案的牛不才 000-大模型 chatgpt AIGC 文心一言 gpt llama agi prompt
1.先把问题“嚼碎”（输入处理）比如你问：“太阳为什么东升西落？”切分知识点：模型会把这句话拆解成词汇单元（比如：“太阳”“为什么”“东”“升”“西”“落”），就像你背单词时先拆解句子。2.动用毕生所学（模型“回想”知识）大模型并不是真有一个“数据库”，而是依靠训练时海量的知识联结：（类似人类的经验积累）内在规律：从上学过的教材、论文、百科中记住过“地球自转导致太阳视运动”这个常识。猜测套路：统计
041集——选取若干点生成三角网（CAD—C#二次开发入门）山水CAD筑梦人 CAD C#二次开发 c#数据库 java
随机生成2000个三维点并生成三角网，效果如下：随机生成20个点，效果如下：附部分代码如下：publicclassNTS三角网{publicstaticintnumPoints=20;[CommandMethod("xx")]publicvoid在NTSdemo(){//获取当前文档和编辑器Documentdoc=Application.DocumentManager.MdiActiveDocum
编程小白冲Kaggle每日打卡（14）--kaggle学堂：＜机器学习简介＞你的第一个机器学习模型 AZmax01 编程小白冲Kaggle每日打卡机器学习人工智能
Kaggle官方课程链接：YourFirstMachineLearningModel本专栏旨在Kaggle官方课程的汉化，让大家更方便地看懂。YourFirstMachineLearningModel建立你的第一个模型。好哇！选择建模数据你的数据集有太多的变量，你无法理解，甚至无法很好地打印出来。你如何将如此庞大的数据量缩减到你能理解的程度？我们将从使用直觉选择几个变量开始。后续课程将向您展示自动
Xline v0.7.0: 一个用于元数据管理的分布式KV存储 rust
Xline是什么？我们为什么要做Xline？Xline是一个基于Curp协议的，用于管理元数据的分布式KV存储。现有的分布式KV存储大多采用Raft共识协议，需要两次RTT才能完成一次请求。当部署在单个数据中心时，节点之间的延迟较低，因此不会对性能产生大的影响。但是，当跨数据中心部署时，节点之间的延迟可能是几十或几百毫秒，此时Raft协议将成为性能瓶颈。Curp协议就是为了解决这个问题而设计的。它
微软Copilot官网入口- Copilot中文版国内使用入口人工智能
微软Copilot：你的AI副驾驶，赋能未来工作与生活✨在数字化浪潮席卷全球的今天，效率和创造力已成为个人和企业成功的关键驱动力。微软Copilot应运而生，它不仅仅是一款软件，更像是一位人工智能副驾驶，旨在通过强大的AI技术，解放你的双手，激发你的灵感，助你驰骋于工作和生活的各个领域。核心功能：不止于智能，更在于赋能微软Copilot的核心在于其对自然语言处理（NLP）和机器学习（ML）的深度融
Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_79856539 javaweb 大数据 python spark
本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt
【机器学习与数据挖掘实战】案例14：基于随机森林分类器的汽车公司客户细分预测 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘随机森林人工智能分类算法
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
在LangFlow中集成OpenAI Compatible API类型的大语言模型几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 语言模型人工智能自然语言处理
一、背景与核心价值从Dify换到这个langflow真的时各种的不适应啊。就比如这个OpenAICompatibleAPI，这不应该是基本操作嘛？算了，服了，习惯了就好了。咱闲言少叙，正片开始：LangFlow作为LangChain的可视化开发工具，其最大优势在于无需编写代码即可构建复杂的大模型应用。随着开源生态发展，越来越多的模型服务（如Ollama、硅基流动、DeepSeek、百度千帆等）开始
【25年新算法】DOA-LSSVM梦境优化算法优化最小二乘支持向量机回归预测，DOA-LSSVM回归预测，多变量输入模型。梦境优化算法(DOA)-2025年3月SCI一区新算法，该算法结合了一个基智能算法及其模型预测支持向量机回归算法
【25年新算法】DOA-LSSVM梦境优化算法优化最小二乘支持向量机回归预测，DOA-LSSVM回归预测，多变量输入模型。梦境优化算法(DOA)-2025年3月SCI一区新算法，该算法结合了一个基本的记忆策略，一个遗忘和补充策略，以平衡探索和利用，值得一试！该成果由YifanLang于2025年3月发表在SCI一区Top期刊《ComputerMethodsinAppliedMechanicsand
前端防重复请求终极方案：从Loading地狱到精准拦截的架构升级前端御书房 JavaScript 前端 javascript
痛点场景：老板亲自督查的紧急需求某日收到线上预警：用户通过脚本0.5秒内狂点200次领券按钮，导致：服务端资源被击穿数据库产生脏数据前端弹出上百个错误提示老板要求：48小时内实现前端全局防重复请求技术难点：存量系统500+接口无法逐个改造需兼容文件上传等特殊场景不能影响现有Loading交互体系一、方案演进：从青铜到王者的三级跳方案1️⃣：暴力Loading法（新手村方案）//请求拦截器axios
整理：4篇论文知识蒸馏引领高效模型新时代 mslion 多模态人工智能知识蒸馏
知识蒸馏（KnowledgeDistillation）是当前机器学习研究中的一个重要方向，特别是在模型压缩和效率优化等任务中。传统的深度学习模型往往依赖于复杂的大型网络，以获取卓越的性能。然而，这些庞大的模型对计算资源和存储空间的需求，使得它们在实际应用中，尤其是在边缘设备或移动端部署中面临巨大挑战。知识蒸馏技术致力于解决这一问题，其核心思想是通过一个“教师模型”向一个更小、更高效的“学生模型”传
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
在Logback中拦截和修改日志木鱼- log logback
事实上，Logback并没有提供修改日志的直接方法，但有一种解决方法可以通过使用过滤器来实现我们的目标，即使它看起来有点黑客。假设你记录了某个用户的某个id号数百次，它分散在整个应用程序中，现在你有了一个新的要求，要求你必须加密这个id号。当然，你足够聪明，可以为此任务编写一个拦截器，而不是手动查找和更改必要的日志。同样，通过这种方式，我们可以确保我们永远不会意外地记录该id号。在这种情况下，我们
【漫话机器学习系列】101.特征选择法之Lasso（Lasso For Feature Selection） IT古董漫话机器学习系列专辑机器学习人工智能
Lasso特征选择法详解1.Lasso回归简介Lasso（LeastAbsoluteShrinkageandSelectionOperator，最小绝对收缩和选择算子）是一种基于L1范数正则化的线性回归方法。它不仅能够提高模型的泛化能力，还可以自动进行特征选择，即将一些不重要的特征的系数收缩到0，从而减少模型的复杂度。2.Lasso回归的数学公式Lasso回归的目标函数如下：其中：是输入数据，w是
人工智能：从基础到前沿顾漂亮人工智能深度学习 windows
目录目录1.引言2.人工智能基础2.1什么是人工智能？2.2人工智能的历史2.3人工智能的分类3.机器学习3.1机器学习概述3.2监督学习3.3无监督学习3.4强化学习4.深度学习4.1深度学习概述4.2神经网络基础4.3卷积神经网络（CNN）4.4循环神经网络（RNN）5.自然语言处理（NLP）5.1NLP概述5.2文本预处理5.3词嵌入5.4语言模型6.计算机视觉6.1计算机视觉概述6.2图像
Python的那些事第二十八篇：数据分析与操作的利器Pandas 暮雨哀尘 Python的那些事信息可视化 python 开发语言 pandas 数据分析数据处理
Pandas：数据分析与操作的利器摘要Pandas是基于Python的开源数据分析库，广泛应用于数据科学、机器学习和商业智能等领域。它提供了高效的数据结构和丰富的分析工具，能够处理结构化数据、时间序列数据以及复杂的数据转换任务。本文从Pandas的基础概念入手，深入探讨其核心数据结构（Series和DataFrame），并结合实际案例，详细阐述数据导入导出、数据清洗、数据处理、分组聚合、数据可视化
深入浅出机器学习：概念、算法与实践倔强的小石头_ AI 机器学习算法人工智能
目录引言机器学习的基本概念什么是机器学习机器学习的基本要素机器学习的主要类型监督学习（SupervisedLearning）无监督学习（UnsupervisedLearning）强化学习（ReinforcementLearning）机器学习的一般流程总结引言在当今数字化时代，数据量呈爆炸式增长。机器学习作为一门多领域交叉学科，致力于让计算机系统从数据中自动学习模式和规律，进而实现对未知数据的预测和
TensorFlow 2 来训练一个线性回归模型大数据张老师 tensorflow 线性回归人工智能
本节将通过一个简单的示例，带领大家了解如何使用TensorFlow2来训练一个线性回归模型。这个例子将帮助大家掌握如何从数据处理、模型构建、训练到评估等步骤，逐步实现一个基础的机器学习任务。下面是代码的详细讲解。importtensorflowastfimportpandasaspd首先，我们导入了TensorFlow和Pandas库。TensorFlow用于构建和训练我们的机器学习模型，Pand
MySQL索引、视图与范式：高效数据库设计与优化秘籍 rain雨雨编程 Java编程数据库 mysql 索引视图范式
‍♂️个人主页：@rain雨雨编程微信公众号：rain雨雨编程✍作者简介：持续分享机器学习，爬虫，数据分析希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录mysqlday04课堂笔记1、索引（index）1.1、什么是索引？1.2、索引的实现原理？1.3、添加索引的注意事项1.4、索引怎么创建？删除？语法是什么？1.5、如何查看某select中是否使用了索引1.
【机器学习算法选型：分类与回归】常见分类算法介绍云博士的AI课堂哈佛博后带你玩转机器学习机器学习分类回归分类与回归机器学习算法选型深度学习人工智能
第2节：常见分类算法介绍在机器学习中，分类算法是用于预测一个样本所属类别的工具。无论是在金融风控、医疗诊断、图像识别还是推荐系统等领域，分类算法都扮演着至关重要的角色。不同的分类算法各自有不同的优缺点和应用场景，因此了解这些算法的特点及其适用条件，是构建高效分类模型的关键。1.逻辑回归（LogisticRegression）介绍逻辑回归是一种广泛应用于二分类问题的线性模型，其目标是根据输入特征预测
人工智能学习框架静默.\\ 人工智能学习
人工智能学习框架概述随着人工智能技术的飞速发展，选择合适的机器学习或深度学习框架对于项目的成功至关重要。这些框架提供了强大的工具和库，使得开发者能够更高效地构建、训练和部署模型。目前市面上有许多流行的AI学习框架，每种框架都有其独特的特点和适用场景。首先，TensorFlow是由Google开发的一个开源机器学习框架，支持从简单的线性回归到复杂的神经网络等多种模型类型。它以其高度灵活性和可扩展性著
联邦学习: 统一数据协作和隐私保护的技术解决之道小牍大数据分布式数据安全
联邦学习:统一数据协作和隐私保护的技术解决之道1.数据价值和隐私2.隐私计算技术安全多方计算可信执行环境联邦学习3.联邦学习的拓展分布式机器学习联邦学习和传统分布式系统的差异联邦学习带来的挑战安全性补充实际案例讲解总结1.数据价值和隐私为什么需要隐私计算呢？数据的产生过程是分散的，数据具有天然的割裂性。不同类型的公司提供不同的业务和服务，产生的数据类型也是不同的，例如社交公司产生用户大量的社交数据
单纯“为取代而取代”的科技没有意义利万国潮科技 A9.36(asi智神版) 经验分享
关于“为取代而取代的科技”的意义辨析技术的核心价值在于创造增量效益，而非单纯替代人力。以下从现象、负面影响和解决路径三方面分析：一、何为“为取代而取代”？这类技术往往仅完成人力替代，但未实现以下目标：1.效率未显著提升例如用户提到的自动收款机，若仍需顾客逐件扫码（耗时等同人工收银），仅将劳动成本转移至消费者，未优化购物流程。2.价值未重新分配无人驾驶若与人类司机耗时相同，且需额外安全冗余成本，则未
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1