普修罗双战士

机器学习之逻辑回归，一文掌握逻辑回归算法知识文集

作者简介，普修罗双战士，一直追求不断学习和成长，在技术的道路上持续探索和实践。
多年互联网行业从业经验，历任核心研发工程师，项目技术负责人。
欢迎点赞✍评论⭐收藏

文章目录

人工智能(逻辑回归算法)
- 一、逻辑回归算法知识
- - 01. 梯度下降法（Gradient Descent）
  - - 1.1 什么是梯度下降法？
    - 1.2 梯度下降法的具体步骤和算法公式？
    - 1.3 梯度下降法的算法公式实现？
  - 02. 牛顿法（Newton's Method）和拟牛顿法（Quasi-Newton Methods）
  - - 2.1 什么是牛顿法和拟牛顿法？
    - 2.2 牛顿法和拟牛顿法的具体步骤和算法公式？
    - 2.3 牛顿法和拟牛顿法的算法公式实现？
  - 03. 共轭梯度法（Conjugate Gradient）
  - - 3.1 什么是共轭梯度法？
    - 3.2 共轭梯度法的具体步骤和算法公式？
    - 3.3 共轭梯度法的算法公式实现？
  - 04. 改进的随机梯度下降法（Improved Stochastic Gradient Descent）
  - - 4.1 什么是改进的随机梯度下降法？
  - 05. Adagrad（自适应梯度算法）
  - - 5.1 什么是 Adagrad？
    - 5.2 RMSprop（均方根传播）的具体步骤和算法公式？
    - 5.3 RMSprop（均方根传播）的算法公式实现？
  - 06. RMSprop（均方根传播）
  - - 6.1 什么是RMSprop？
    - 6.2 Adam（自适应矩估计）的具体步骤和算法公式？
    - 6.3 Adam（自适应矩估计）的算法公式实现？
  - 07. Adam（自适应矩估计）
  - - 7.1 什么是 Adam？
    - 7.2 Adam的具体步骤和算法公式？
    - 7.3 Adam的算法公式实现？
  - 08. LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）
  - - 8.1 什么是 LBFGS？
    - 8.2 LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）的具体步骤和算法公式？
    - 8.3 LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）的算法公式实现？
  - 09. Adamax
  - - 9.1 什么是 Adamax ？
    - 9.2 Adamax的具体步骤和算法公式？
    - 9.3 Nadam的算法公式实现？
  - 10. Nadam
  - - 10.1 什么是**Nadam ？
    - 10.2 Nadam的具体步骤和算法公式？
    - 10.3 Nadam的算法公式实现？

人工智能(逻辑回归算法)

一、逻辑回归算法知识

01. 梯度下降法（Gradient Descent）

1.1 什么是梯度下降法？

梯度下降法是最常用的优化算法之一。它通过迭代更新模型参数，沿着损失函数梯度的反方向逐步进行参数调整。包括批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）和小批量梯度下降（Mini-batch Gradient Descent）等变种。

1.2 梯度下降法的具体步骤和算法公式？

梯度下降法是一种常用的优化算法，用于最小化一个函数的值。该算法通常用于机器学习中的模型训练过程，例如逻辑回归、线性回归等。下面是梯度下降法的具体步骤和算法公式：

算法输入：学习率（learning rate） $\alpha$ 、迭代次数 $T$ 、损失函数 $J(\theta)$

初始化参数 $\theta = [\theta_1, \theta_2, ..., \theta_n]$ ，其中 $n$ 表示模型参数的个数。
将迭代次数设置为 $t = 0$ 。
如果 $t > T$ ，则停止迭代，否则继续下面的步骤。
计算损失函数 $J(\theta)$ 对参数 $\theta$ 的梯度 $\nabla_\theta J(\theta)$ 。
根据学习率 $\alpha$ ，更新参数 $\theta$ ：
将迭代次数 $t$ 加 1。
返回步骤 3。

1.3 梯度下降法的算法公式实现？

梯度下降法的算法公式可以很简单地实现。下面是一个基本的梯度下降算法的伪代码：

输入: 学习率 $\alpha$ ，迭代次数 $T$ ，初始参数 $\theta$

Repeat $T$ 次: 计算损失函数 $J(\theta)$ 对参数 $\theta$ 的梯度 $\nabla_\theta J(\theta)$ 更新参数 $\theta = \theta - \alpha \nabla_\theta J(\theta)$

返回参数 $\theta$

以下是一个简化的 Python 实现代码示例：

def gradient_descent(X, y, learning_rate, iterations):
    # 初始化参数
    theta = np.zeros(X.shape[1])
    m = len(y)
    
    for i in range(iterations):
        # 计算模型预测值
        h = np.dot(X, theta)
        # 计算损失函数对参数的偏导数
        gradient = (1 / m) * np.dot(X.T, (h - y))
        # 更新参数
        theta = theta - learning_rate * gradient
    
    return theta

在这个代码中，X 是特征矩阵，y 是目标向量，learning_rate 是学习率，iterations 是迭代次数。通过计算参数梯度和更新参数，最终返回训练得到的参数 $\theta$ 。

请注意，该代码示例假设使用线性回归进行梯度下降，因此对应的损失函数为均方误差。对于不同的模型和损失函数，需要根据具体情况进行相应的修改。

02. 牛顿法（Newton’s Method）和拟牛顿法（Quasi-Newton Methods）

2.1 什么是牛顿法和拟牛顿法？

牛顿法和拟牛顿法是一类基于二阶导数信息的优化算法。牛顿法使用二阶导数（海森矩阵）来更新参数，可以更快地收敛，但计算代价较高。拟牛顿法通过近似海森矩阵来降低计算复杂度，并在一定程度上保持收敛性能。

2.2 牛顿法和拟牛顿法的具体步骤和算法公式？

牛顿法（Newton’s Method）和拟牛顿法（Quasi-Newton Method）都是一种迭代优化算法，用于求解无约束优化问题。它们通过逐步逼近目标函数的最小值点，并更新参数的方法不同。下面分别介绍牛顿法和拟牛顿法的具体步骤和算法公式：

牛顿法：牛顿法利用目标函数的二阶导数（海森矩阵）来逼近目标函数的局部形状，并通过更新参数来逼近最小值点。

输入：目标函数 $f (x)$ , 初始点 $x_0$ ，迭代停止准则（例如，梯度大小或迭代次数）
1. 初始化 $x = x_0$ ，设置迭代次数 $k = 0$ 。
2. 计算目标函数的一阶导数（梯度）和二阶导数（海森矩阵）： $g_k = \nabla f(x_k)$ ， $H_k = \nabla^2 f(x_k)$ 。
3. 求解方程 $H_k \Delta x = -g_k$ ，得到搜索方向 $\Delta x$ 。
4. 选择合适的步长 $\alpha$ ，更新参数： $x_{k+1} = x_k + \alpha \Delta x$ 。
5. 若满足停止准则（如梯度的大小是否小于某个阈值），则停止迭代；否则，令 $k = k + 1$ ，返回步骤 2。

在每次迭代中，牛顿法使用搜索方向和步长来更新参数，并在每一步中计算目标函数的一阶和二阶导数。相比于梯度下降法，牛顿法可以更快地收敛到最小值附近。

拟牛顿法：拟牛顿法是对牛顿法的改进，因为计算精确的海森矩阵较为困难，拟牛顿法使用近似的方法来构造参数更新规则。

输入：目标函数 $f (x)$ ，初始点 $x_0$ ，迭代停止准则，初始的近似海森矩阵 $B_0$ 。
1. 初始化 $x = x_0$ ，设置迭代次数 $k = 0$ 。
2. 计算目标函数的一阶导数（梯度）： $g_k = \nabla f(x_k)$ 。
3. 求解方程 $B_k \Delta x = -g_k$ ，得到搜索方向 $\Delta x$ 。
4. 选择合适的步长 $\alpha$ ，更新参数： $x_{k+1} = x_k + \alpha \Delta x$ 。
5. 计算新迭代点的梯度 $g_{k+1} = \nabla f(x_{k+1})$ 。
6. 使用近似的方法更新近似海森矩阵 $B_k$ 。
7. 若满足停止准则（如梯度的大小是否小于某个阈值），则停止迭代；否则，令 $k = k + 1$ ，返回步骤 3。

拟牛顿法中，迭代过程中的海森矩阵 $B_k$ 是通过历史的一阶导数和参数更新值来逼近目标函数的海森矩阵。常用的拟牛顿法包括DFP（Davidon-Fletcher-Powell）方法和BFGS（Broyden-Fletcher-Goldfarb-Shanno）方法等。

2.3 牛顿法和拟牛顿法的算法公式实现？

牛顿法和拟牛顿法的具体算法公式可以通过数学推导得到，下面是它们的算法公式实现：

牛顿法的算法公式：

输入: 目标函数 $f (x)$ ，梯度函数 $g (x)$ ，海森矩阵函数 $H (x)$ ，初始点 $x_0$ ，迭代停止准则（如梯度大小或迭代次数）

Repeat 直到满足停止准则：
1. 计算梯度： $g_k = g(x_k)$
2. 计算海森矩阵： $H_k = H(x_k)$
3. 求解线性方程组： $H_k \Delta x = -g_k$ ，找到搜索方向 $\Delta x$
4. 选择合适的步长 $\alpha$ ，更新参数： $x_{k+1} = x_k + \alpha \Delta x$

返回参数 $x^*$

在实现中需要注意，解线性方程组的方法可以选择使用直接求解方法（如LU分解、Cholesky分解）或迭代方法（如共轭梯度法）。

拟牛顿法的算法公式：

输入: 目标函数 $f (x)$ ，梯度函数 $g (x)$ ，初始点 $x_0$ ，迭代停止准则，初始的近似海森矩阵 $B_0$

Repeat 直到满足停止准则：
1. 计算梯度： $g_k = g(x_k)$
2. 求解线性方程组： $B_k \Delta x = -g_k$ ，找到搜索方向 $\Delta x$
3. 选择合适的步长 $\alpha$ ，更新参数： $x_{k+1} = x_k + \alpha \Delta x$
4. 计算新迭代点的梯度： $g_{k+1} = g(x_{k+1})$
5. 更新近似海森矩阵 $B_k$ 的方法（如DFP、BFGS等）

返回参数 $x^*$

在实现拟牛顿法时，需要选择合适的近似海森矩阵更新方法，常用的方法有DFP、BFGS、SR1（Symmetric Rank-One）等。

下面是使用Python实现牛顿法和拟牛顿法的示例代码：

牛顿法的Python实现：

import numpy as np

def newton_method(f, df, d2f, x0, epsilon=1e-6, max_iter=100):
    x = x0
    for _ in range(max_iter):
        g = df(x)
        H = d2f(x)
        dx = -np.linalg.solve(H, g)
        x += dx
        if np.linalg.norm(dx) < epsilon:
            break
    return x

# 示例函数
def f(x):
    return x**2 + 2*x + 1

# 示例函数的一阶导数
def df(x):
    return 2*x + 2

# 示例函数的二阶导数
def d2f(x):
    return 2

# 使用牛顿法求解最小值点
x0 = 0  # 初始点
x_min = newton_method(f, df, d2f, x0)
print("最小值点:", x_min)
print("最小值:", f(x_min))

拟牛顿法的Python实现（以BFGS方法为例）：

import numpy as np

def bfgs_method(f, df, x0, epsilon=1e-6, max_iter=100):
    n = x0.shape[0]
    B = np.eye(n)  # 初始的近似海森矩阵
    x = x0
    for _ in range(max_iter):
        g = df(x)
        dx = -np.linalg.solve(B, g)  # 求解搜索方向
        alpha = line_search(f, df, x, dx)  # 步长选择方法（这里假设有个line_search函数）
        x_new = x + alpha*dx
        g_new = df(x_new)
        s = x_new - x
        y = g_new - g
        rho = 1 / np.dot(y, s)
        B = (np.eye(n) - rho * np.outer(s, y)) @ B @ (np.eye(n) - rho * np.outer(y, s)) + rho*np.outer(s, s)
        x = x_new
        if np.linalg.norm(alpha*dx) < epsilon:
            break
    return x

# 示例函数和一阶导函数同上

# 使用BFGS拟牛顿法求解最小值点
x0 = np.array([0, 0])  # 初始点
x_min = bfgs_method(f, df, x0)
print("最小值点:", x_min)
print("最小值:", f(x_min))

这两个示例代码是简化的实现，仅适用于特定的目标函数和问题。在实际应用中，需要根据具体问题进行调整和改进，例如适当修改迭代停止准则、步长选择方法等。同时，可以使用更高效的数值计算库（如NumPy）和线性方程组求解方法（如SciPy库的scipy.linalg.solve）来提高计算效率。

03. 共轭梯度法（Conjugate Gradient）

3.1 什么是共轭梯度法？

共轭梯度法是一种迭代方法，它可以更快地收敛于二次型损失函数。如果逻辑回归的损失函数是二次型，共轭梯度法是一种高效且可行的优化算法。

3.2 共轭梯度法的具体步骤和算法公式？

共轭梯度法（Conjugate Gradient Method）是一种用于解决线性方程组的迭代方法，它也可以被用于求解无约束最优化问题。这里给出共轭梯度法在求解无约束最优化问题时的步骤和算法公式：

假设我们要求解无约束最优化问题 $\min \, f(x)$ ，其中 $f (x)$ 是目标函数。令 $x^*$ 是最小值点。

初始化：选择初始点 $x_0$ ，计算梯度 $g_0 = \nabla f(x_0)$ ，初始化搜索方向 $d_0 = -g_0$ ，迭代初始点索引 $k = 0$ 。
搜索步长：选择一个合适的步长 $\alpha_k$ ，例如通过线搜索方法（比如Armijo线搜索、Wolfe线搜索等）。
更新参数：更新参数 $x_{k+1} = x_k + \alpha_k d_k$ 。
计算梯度：计算新的梯度 $g_{k+1} = \nabla f(x_{k+1})$ 。
检查终止准则：如果满足终止准则（如梯度大小小于给定的阈值或达到最大迭代次数），则终止迭代，返回最小值点 $x^*$ 。否则，继续下面的步骤。
计算步长系数 $\beta_k$ ： $\beta_k = \frac{{\|g_{k+1}\|^2}}{{\|g_{k}\|^2}}$ 。
更新搜索方向：更新搜索方向 $d_{k+1} = -g_{k+1} + \beta_k d_k$ 。
增加迭代次数： $k = k + 1$ 。
转到步骤 2。

在每次迭代中，共轭梯度法利用之前的搜索方向的信息，以更高效地搜索最小值点。在第 $k$ 步迭代中， $d_k$ 是在 $k$ -1 步迭代后找到的收敛共轭搜索方向。

需要注意的是，共轭梯度法通常用于求解大规模线性方程组或凸二次规划问题，其中线性方程组的系数矩阵是对称正定的。对于一般的非线性最优化问题，可以采用共轭梯度法的变种（如共轭梯度法和拟牛顿法的结合）来加速收敛。

请注意，共轭梯度法的具体实现可能会因应用和问题的不同而有所调整和改进，例如使用合适的线搜索方法和收敛准则。同时，可以使用高效的数值计算库（如NumPy）和线性方程组求解方法（如SciPy库的scipy.linalg.solve）来提高计算效率。

3.3 共轭梯度法的算法公式实现？

以下是共轭梯度法的算法公式实现，以求解线性方程组为例：

输入: 对称正定矩阵 $A$ ，向量 $b$ 输出: 近似解 $x$

初始化：选择初始点 $x_0$ ，计算初始残差 $r_0 = b - A x_0$ ，初始化搜索方向 $d_0 = r_0$ ，设定迭代初始点索引 $k = 0$ 。
迭代更新：对于 $\dots$ ，执行以下步骤：

2.1. 计算步长： $\alpha_k = \frac{{r_k^T r_k}}{{d_k^T A d_k}}$ 。

2.2. 更新参数： $x_{k+1} = x_k + \alpha_k d_k$ 。

2.3. 计算残差： $r_{k+1} = b - A x_{k+1}$ 。

2.4. 检查终止准则：若满足终止准则（如残差大小小于给定的阈值或达到最大迭代次数），则终止迭代，返回近似解 $x$ 。

2.5. 计算步长系数： $\beta_k = \frac{{r_{k+1}^T r_{k+1}}}{{r_k^T r_k}}$ 。

2.6. 更新搜索方向： $d_{k+1} = r_{k+1} + \beta_k d_k$ 。

2.7. 增加迭代次数： $k = k + 1$ 。

2.8. 转到步骤 2.1。

在每次迭代中，共轭梯度法利用了之前的搜索方向的信息，以更高效地搜索最小值点。在第 $k$ 步迭代中， $d_k$ 是在 $k$ -1 步迭代后找到的收敛共轭搜索方向。

需要注意的是，共轭梯度法的实现还需要考虑一些细节，例如选择合适的初始点、终止准则的选择、计算过程中的数值稳定性等。此外，在实际应用中，通常会使用数值计算库提供的高效线性方程组求解方法（如Cholesky分解、共轭梯度法等）来加速计算过程。

以上提供的是共轭梯度法的基本算法公式实现，具体的实现方式可以根据不同的编程语言和数值计算库进行相应的调整和优化。

下面是使用 Python 实现共轭梯度法求解线性方程组的示例代码：

import numpy as np

def conjugate_gradient(A, b, x0, max_iter=1000, tol=1e-6):
    """
    使用共轭梯度法求解线性方程组 Ax = b，其中 A 是对称正定矩阵。
    :param A: 对称正定矩阵
    :param b: 右侧向量
    :param x0: 初始点
    :param max_iter: 最大迭代次数
    :param tol: 迭代终止的残差阈值
    :return: 近似解 x
    """
    x = x0
    r = b - np.dot(A, x)
    d = r
    delta = np.dot(r, r)
    
    for i in range(max_iter):
        q = np.dot(A, d)
        alpha = delta / np.dot(d, q)
        x = x + alpha * d
        r_new = r - alpha * q
        delta_new = np.dot(r_new, r_new)
        if np.sqrt(delta_new) < tol:
            break
        beta = delta_new / delta
        d = r_new + beta * d
        r = r_new
        delta = delta_new
    
    return x

其中，输入参数 A 和 b 分别为线性方程组的系数矩阵和右侧向量，x0 为初始点，max_iter 为最大迭代次数，tol 为迭代终止的残差阈值。对于大规模的线性方程组，可以采用稀疏矩阵进行存储和计算，以提高计算效率。

下面给出一个示例用例：

# 构造一个对称正定矩阵 A 和右侧向量 b
n = 100
A = np.random.randn(n, n)
A = np.dot(A.T, A)
b = np.random.randn(n)

# 使用初始化为零的向量作为初始点
x0 = np.zeros(n)

# 调用共轭梯度法函数求解线性方程组 Ax = b
x = conjugate_gradient(A, b, x0)

# 输出近似解 x
print("近似解 x =", x)

注意，对于一般的非线性最优化问题，需要结合共轭梯度法和其他优化方法，例如牛顿法、拟牛顿法、共轭梯度法和拟牛顿法的结合等。此外，在实际应用中需要对算法进行调整和优化，例如选择合适的终止条件、计算过程中的数值稳定性等。

04. 改进的随机梯度下降法（Improved Stochastic Gradient Descent）

4.1 什么是改进的随机梯度下降法？

针对随机梯度下降法的一些缺点，如收敛速度较慢、参数更新不稳定等问题，已经提出了很多改进的随机梯度下降算法。例如，AdaGrad、RMSprop、Adam等算法可以自适应地调整学习率。

05. Adagrad（自适应梯度算法）

5.1 什么是 Adagrad？

Adagrad是一种自适应学习率算法，它根据参数的历史梯度进行自适应的学习率调整。它对于稀疏特征的处理效果较好，能够有效地进行模型训练。

5.2 RMSprop（均方根传播）的具体步骤和算法公式？

RMSProp（均方根传播）是一种基于梯度的自适应学习率算法，它可以根据每个参数的历史梯度大小来自适应地调整学习率。以下是RMSProp算法的具体步骤和算法公式：

输入：学习率 $\alpha$ ，初始参数 $w$ ，目标函数的梯度函数 $\nabla f(w)$ ，衰减因子 $\rho$ ，常数 $\epsilon$ 。输出：参数的最优解 $w^\star$ 。

初始化：初始参数 $w$ ，初始平方梯度和 $r = 0$ ，迭代次数 $t = 0$ 。
迭代更新：对于每个迭代 $t$ ，执行以下步骤：

2.1. 计算当前迭代的梯度 $\nabla_t = \nabla f(w_t)$ 。

2.2. 计算平方梯度和的衰减平均： $\rho r + (1 - \rho) \nabla_t \odot \nabla_t$ （ $\odot$ 表示按元素相乘）。

2.3. 调整学习率： $\eta_t = \frac{\alpha}{\sqrt{r + \epsilon}}$ 。

2.4. 更新参数： $w_{t+1} = w_t - \eta_t \odot \nabla_t$ 。

2.5. 增加迭代次数： $t = t + 1$ 。
终止准则：根据预设的终止准则（如达到最大迭代次数或梯度变化小于阈值）决定是否停止迭代。若终止迭代，则输出最优解 $w^\star$ ；否则，返回步骤 2。

RMSProp算法与Adagrad算法都是自适应学习率算法，但是RMSProp算法引入了衰减平均的概念，可以缓解学习率急剧下降的问题。在RMSProp算法中，参数的梯度平方和会通过衰减平均进行平滑，以消除梯度信息的噪声影响，同时计算出的学习率也会相应地变得更加平滑和稳定，提高了优化的性能。

需要注意的是，RMSProp算法和Adagrad算法类似，都需要对目标函数进行偏导数求解，并根据求解结果生成梯度函数。在实践应用中，还需要对RMSProp算法进行调参和优化，例如选择合适的学习率和衰减因子，常数 $\epsilon$ 的取值，初始参数，终止条件等，以提高算法的效率和鲁棒性。

5.3 RMSprop（均方根传播）的算法公式实现？

下面是使用 Python 实现 RMSProp 算法的示例代码：

import numpy as np

def rmsprop(grad_func, init_theta, alpha=0.01, rho=0.9, eps=1e-8, max_iters=1000, tol=1e-6):
    """
    使用 RMSProp 算法求解无约束优化问题：min f(theta)，其中 grad_func 是目标函数的梯度函数。
    :param grad_func: 目标函数的梯度函数
    :param init_theta: 参数的初始值
    :param alpha: 初始学习率
    :param rho: 平方梯度和的衰减因子
    :param eps: 避免除零错误的小常数
    :param max_iters: 最大迭代次数
    :param tol: 最小收敛差
    :return: 近似最优解 theta
    """
    theta = init_theta
    grad_squared_sum = np.zeros_like(init_theta)
    
    for i in range(max_iters):
        grad = grad_func(theta)
        grad_squared_sum = rho * grad_squared_sum + (1 - rho) * grad ** 2
        learning_rate = alpha / (np.sqrt(grad_squared_sum) + eps)
        theta_new = theta - learning_rate * grad
        if np.linalg.norm(theta_new - theta) < tol:
            break
        theta = theta_new
    
    return theta

其中，输入参数 grad_func 是目标函数的梯度函数（形如 grad_func(theta)，返回 theta 点处的梯度），init_theta 是参数的初始值，alpha 是初始学习率，rho 是平方梯度和的衰减因子，eps 是避免除零错误的小常数，max_iters 是最大迭代次数，tol 是最小收敛差。输出参数为近似最优解 theta。

需要注意的是，目标函数的梯度函数应满足一定的可导性和连续性条件，否则求解过程可能出现问题。此外，在实践应用中，需要对 RMSProp 算法进行调参和优化，例如选择合适的学习率、衰减因子、常数 $\epsilon$ 的取值、初始参数、终止条件等，以提高算法的表现和效率。

06. RMSprop（均方根传播）

6.1 什么是RMSprop？

RMSprop是一种自适应学习率算法，它通过利用参数梯度的移动平均值来调整学习率。它可以自动调整学习率的大小，从而在不同特征上进行合理的更新。

6.2 Adam（自适应矩估计）的具体步骤和算法公式？

Adam（自适应矩估计）是一种基于梯度的自适应学习率算法，它采用梯度的一阶矩估计和二阶矩估计自适应地调整学习率。以下是Adam算法的具体步骤和算法公式：

输入：学习率 $\alpha$ ，初始参数 $w$ ，目标函数的梯度函数 $\nabla f(w)$ ，一阶矩估计的衰减因子 $\beta_1$ ，二阶矩估计的衰减因子 $\beta_2$ ，常数 $\epsilon$ 。输出：参数的最优解 $w^\star$ 。

初始化：初始参数 $w$ ，一阶矩估计 $\mathbf{m}_0 = 0$ ，二阶矩估计 $\mathbf{v}_0 = 0$ ，迭代次数 $t = 0$ 。
迭代更新：对于每个迭代 $t$ ，执行以下步骤：

2.1. 计算当前迭代的梯度 $\nabla_t = \nabla f(w_t)$ 。

2.2. 更新一阶矩估计： $\mathbf{m}_t = \beta_1 \mathbf{m}_{t-1} + (1 - \beta_1) \nabla_t$ 。

2.3. 更新二阶矩估计： $\mathbf{v}_t = \beta_2 \mathbf{v}_{t-1} + (1 - \beta_2) \nabla_t^2$ 。

2.4. 校正一阶矩估计的偏差： $\hat{\mathbf{m}}_t = \frac{\mathbf{m}_t}{1 - \beta_1^t}$ 。

2.5. 校正二阶矩估计的偏差： $\hat{\mathbf{v}}_t = \frac{\mathbf{v}_t}{1 - \beta_2^t}$ 。

2.6. 计算学习率调整量： $\Delta w_t = \frac{\alpha \hat{\mathbf{m}}_t}{\sqrt{\hat{\mathbf{v}}_t} + \epsilon}$ 。

2.7. 更新参数： $w_{t+1} = w_t - \Delta w_t$ 。

2.8. 增加迭代次数： $t = t + 1$ 。
终止准则：根据预设的终止准则（如达到最大迭代次数或梯度变化小于阈值）决定是否停止迭代。若终止迭代，则输出最优解 $w^\star$ ；否则，返回步骤 2。

Adam算法的核心思想在于利用梯度的一阶矩估计和二阶矩估计对学习率进行自适应调整，同时通过校正偏差来提高精度。具体来说，Adam算法使用一阶矩估计 $\mathbf{m}_t$ 来估计梯度的均值，用二阶矩估计 $\mathbf{v}_t$ 来估计梯度的方差（即均方差），然后结合这两个估计量来自适应地调整学习率。在实践应用中，还需要对Adam算法进行调参和优化，例如选择合适的衰减因子 $\beta_1$ 和 $\beta_2$ ，常数 $\epsilon$ 的取值，初始参数，终止条件等，以提高算法的效率和鲁棒性。

需要注意的是，和RMSProp算法、Adagrad算法一样，Adam算法都需要对目标函数进行偏导数求解，并根据求解

6.3 Adam（自适应矩估计）的算法公式实现？

下面是Adam算法的具体实现，包括算法公式和伪代码：

算法公式：

伪代码：

输入：学习率 alpha, 初始参数 w, 目标函数的梯度函数 grad_f(w), 一阶矩估计的衰减因子 beta1, 二阶矩估计的衰减因子 beta2, 常数 epsilon
输出：参数的最优解 w_star

初始化：初始参数 w, 一阶矩估计 m_0 = 0, 二阶矩估计 v_0 = 0, 迭代次数 t = 0

while 没有达到终止准则 do

   t = t + 1
   
   当前迭代的梯度 grad_t = grad_f(w)
   
   更新一阶矩估计：m_t = beta1 * m_{t-1} + (1 - beta1) * grad_t
   
   更新二阶矩估计：v_t = beta2 * v_{t-1} + (1 - beta2) * grad_t^2
   
   校正一阶矩估计的偏差：m_hat_t = m_t / (1 - beta1^t)
   
   校正二阶矩估计的偏差：v_hat_t = v_t / (1 - beta2^t)
   
   计算学习率调整量：delta_w_t = alpha * m_hat_t / (sqrt(v_hat_t) + epsilon)
   
   更新参数：w = w - delta_w_t

返回参数的最优解 w_star

希望这个实现可以帮助到你！请注意，这只是一个粗略的伪代码示例，具体的实现可能会因编程语言和应用环境而有所不同。在实际使用Adam算法时，还需要进行一些调参和优化来提高算法的性能和收敛速度。

07. Adam（自适应矩估计）

7.1 什么是 Adam？

Adam是一种融合了Momentum和RMSprop的自适应学习率算法。Adam算法具有较好的适应性和鲁棒性，能够在训练过程中自动调整学习率和动量。

7.2 Adam的具体步骤和算法公式？

Adam是一种自适应学习率方法，可以用于优化神经网络的权重，在深度学习领域被广泛使用。它结合了RMSProp和Momentum的优点，能够在不同维度自适应地调整学习率，并对梯度的历史信息进行加权平均，从而更加准确地更新模型参数。Adam是一种基于梯度的优化算法，可以通过计算梯度的一阶矩和二阶矩估计来更新模型的参数，其具体步骤如下：

初始化参数：学习率 $\alpha$ ，动量参数 $\beta_1$ ，二阶动量衰减率 $\beta_2$ ，初始一阶矩和二阶矩 $m_0$ 和 $v_0$ ，一般情况下， $m_0$ ， $v_0$ 初始化为0。
在每次迭代中，通过反向传播计算损失函数的梯度 $g_t$ 。
计算梯度的一阶矩 $m_t$ 和二阶矩 $v_t$ ：
$m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t$
$v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2$
对一阶和二阶矩进行偏差修正，从而减轻因初始化而引入的偏差：
$\hat{m}_t = \frac{m_t}{1-\beta_1^t}$
$\hat{v}_t = \frac{v_t}{1-\beta_2^t}$
使用修正后的 $m_t$ 和 $v_t$ ，以及超参数 $\alpha$ 和 $\epsilon$ 更新参数：
$\Delta\theta_t = -\frac{\alpha}{\sqrt{\hat{v}_t}+\epsilon} \hat{m}_t$
$\theta_t = \theta_{t-1} + \Delta\theta_t$

其中， $t$ 表示迭代的次数， $\theta$ 是需要进行优化的参数， $\alpha$ 是学习率， $\beta_1$ 和 $\beta_2$ 是动量系数， $\epsilon$ 是一个很小的数，以防分母过小。

需要注意的是，Adam算法的偏差校正非常重要，可以提高算法的性能和收敛速度。在Adam算法中， $\hat{m}_t$ 和 $\hat{v}_t$ 是在更新权重时对动量和缩放系数进行校正的项。

上述公式中 $\Delta\theta$ 表示需要更新的参数变化量，即实现时需要将 $\theta$ 增加 $\Delta\theta$ 才能更新参数。

下面是Adam算法的数学公式表示：

初始化：

$m_0 = 0$
$v_0 = 0$
$\beta_1 = 0.9$
$\beta_2 = 0.999$
$\alpha = 0.001$
$\epsilon = 10^{-8}$
对于 t = 1, 2, …，执行以下更新：

计算损失函数关于模型参数的梯度： $g_t = \nabla_{\theta} J(\theta_{t-1})$
更新梯度一阶矩估计： $m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t$
更新梯度二阶矩估计： $v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2$
偏差校正后的一阶矩估计： $\hat{m}_t = \frac{m_t}{1-\beta_1^t}$
偏差校正后的二阶矩估计

7.3 Adam的算法公式实现？

以下是使用Python实现Adam算法的代码示例：

import numpy as np

def adam_optimizer(grad, m, v, beta1, beta2, alpha, epsilon, t):
    # 更新梯度一阶矩估计
    m = beta1 * m + (1 - beta1) * grad
    # 更新梯度二阶矩估计
    v = beta2 * v + (1 - beta2) * (grad ** 2)
    # 偏差校正后的一阶矩估计
    m_hat = m / (1 - beta1**t)
    # 偏差校正后的二阶矩估计
    v_hat = v / (1 - beta2**t)
    # 更新参数
    param = - alpha * m_hat / (np.sqrt(v_hat) + epsilon)
    return param, m, v

# 初始化参数
alpha = 0.001  # 学习率
beta1 = 0.9  # 一阶矩估计衰减率
beta2 = 0.999  # 二阶矩估计衰减率
epsilon = 1e-8  # 平滑项
t = 0  # 迭代次数
m = np.zeros_like(params)  # 梯度一阶矩估计
v = np.zeros_like(params)  # 梯度二阶矩估计

# 在每个迭代步骤中使用Adam算法更新参数
while stopping_criteria:
    t += 1
    # 计算损失函数关于模型参数的梯度
    grad = compute_gradient(params)
    # 更新参数
    param_update, m, v = adam_optimizer(grad, m, v, beta1, beta2, alpha, epsilon, t)
    params += param_update

上述代码中，grad表示损失函数对模型参数的梯度，m表示梯度一阶矩估计，v表示梯度二阶矩估计，beta1表示一阶矩估计衰减率，beta2表示二阶矩估计衰减率，alpha表示学习率，epsilon表示平滑项，t表示当前的迭代次数，param表示更新后的模型参数。

需要注意的是，根据具体的优化问题，可能需要根据经验来调整学习率和各个衰减率的取值，以获得更好的优化性能。

08. LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）

8.1 什么是 LBFGS？

LBFGS是一种拟牛顿法的变种，它使用有限内存来近似计算海森矩阵的逆。LBFGS方法在逻辑回归中通常用于处理大规模数据集。

8.2 LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）的具体步骤和算法公式？

LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）是一种常用的无约束优化算法，包含近似Hessian矩阵的求解过程。下面是LBFGS的具体步骤和算法公式：

步骤：

初始化参数：选择初始参数 $x_0$ 、初始Hessian估计 $H_0$ 、初始步长 $\alpha_0$ ，设定迭代次数上限等。
进入迭代循环：
- 计算梯度：计算当前参数点处的梯度 $g_k = \nabla f(x_k)$ 。
- 更新搜索方向：根据BFGS公式更新搜索方向 $d_k = -H_k \cdot g_k$ 。
- 线搜索：在搜索方向上寻找合适的步长 $\alpha_k$ ，满足强Wolfe条件或Armijo条件。
- 更新参数和梯度差：计算参数的更新量 $\delta x_k = \alpha_k \cdot d_k$ ，更新参数 $x_{k+1} = x_k + \delta x_k$ 。
- 计算梯度差：计算参数的梯度差 $\delta g_k = \nabla f(x_{k+1}) - \nabla f(x_k)$ 。
- 更新Hessian估计：根据LBFGS公式更新Hessian估计 $H_{k+1} = H_k + \frac{\delta x_k \delta x_k^\top}{\delta x_k^\top \delta g_k} - \frac{H_k \delta g_k \delta g_k^\top H_k}{\delta g_k^\top H_k \delta g_k}$ 。
- 如果满足终止准则（如梯度收敛），则停止迭代。否则，返回第二步。

算法公式：

LBFGS算法通过维护Hessian矩阵的近似来实现无约束优化的迭代过程，并利用近似Hessian矩阵来计算搜索方向。这种方法在大规模优化问题中非常高效，因为它不需要显式地存储和计算完整的Hessian矩阵。同时，LBFGS算法还具有全局收敛性和几何收敛速度等优点。

8.3 LBFGS（Limited-memory Broyden-Fletcher-Goldfarb-Shanno）的算法公式实现？

LBFGS算法的具体实现依赖于编程语言和库的实现，下面是一份Python实现的参考代码。这里假设优化目标是凸函数，并使用Wolfe准则进行线搜索。

import numpy as np
from scipy.optimize import line_search

def lbfgs(fun, grad, x0, max_iter=500, m=10, eps=1e-5):
    # 初始化参数
    x = x0
    f, g = fun(x), grad(x)
    H = np.eye(len(x))
    s_list = []
    y_list = []
    alpha_list = []
    g_norm = np.linalg.norm(g)
    
    for k in range(max_iter):
        # 终止准则：如果梯度小于阈值，终止迭代
        if g_norm < eps:
            print(f'LBFGS converges in {k} iterations')
            break
        
        # 计算搜索方向
        d = -np.linalg.solve(H, g)
        
        # 线搜索
        alpha = line_search(fun, grad, x, d, g, f, c1=1e-4, c2=0.9)
        alpha_list.append(alpha[0])
        x = x + alpha[0] * d
        
        # 计算参数和梯度差
        f_new, g_new = fun(x), grad(x)
        s, y = x - s_list[-m], g_new - y_list[-m]
        rho = 1 / (y @ s)
        s_list.append(x)
        y_list.append(g_new)
        alpha_list.append(alpha[0])

        # 更新Hessian估计
        H_s = H @ s.reshape(-1, 1)
        H = H - rho * H_s @ y.reshape(1, -1) + rho * (s @ H_s) * np.outer(y, y)
        g = g_new
        g_norm = np.linalg.norm(g)
        
        # 保持s和y列表长度为m
        if len(s_list) > m:
            s_list.pop(0)
            y_list.pop(0)
        
    return x, f_new

值得注意的是，这份代码使用了以下几个重要的优化技巧：

利用线性代数库Numpy中的np.linalg.solve()函数求解线性方程组，而不是通过矩阵求逆和矩阵乘法的方式计算搜索方向；
使用Wolfe准则进行线搜索，确保每次搜索都朝着下降的方向；
维护s、y和alpha列表的长度为m，避免列表过长导致内存消耗过大。

当然，LBFGS算法的实现还可以进一步优化，比如实现各种不同的线搜索准则、动态调整m等方法来提升求解的速度和精度。

09. Adamax

9.1 什么是 Adamax ？

这是Adam算法的一种变体，它使用L∞范数替代了Adam中的L2范数，在一些具有稀疏梯度的问题上，Adamax的表现比Adam更好。

9.2 Adamax的具体步骤和算法公式？

Adamax是一种用于优化神经网络的自适应学习率算法，它在Adam算法的基础上，将二阶动量指数衰减率 β2替换为无穷范数动量指数衰减率，即使得 v 变为 L2 范数的衰减率 β2 和 L∞ 范数的衰减率 β∞ 之间的最大值。它不仅克服了Adam在高维优化中的性能下降问题，还可以显著提高高维优化的性能。

Adamax算法的具体步骤如下：

初始化学习率α、一阶动量指数衰减率β1、β∞和一个很小的数ε来增强数值的稳定性。初始化一阶矩估计 m 和 v。
在每个迭代中，计算梯度g，然后使用如下公式更新m和v：
m = β1 * m + (1 - β1) * g
v = max(β∞ * v, abs(g))
在更新m后对其进行偏差纠正和清零，并计算出校正后的m和v:
mt = m / (1 - β1^t)
vt = v
使用Adamax更新参数θ:
θ = θ - (α / (1 - β1^t)) * mt / (vt + ε)

公式中，t是迭代次数，Θ是模型参数。

下面是Adamax算法的数学公式表示：

初始化：

m_0 = 0 # 初始化一阶矩估计为0
v_0 = 0 # 初始化v为0
β1 = 0.9 # 一阶动量指数衰减率
β∞ = 0.999 # 无穷范数动量指数衰减率
α = 0.001 # 初始学习率
ε = 10e-8 # 用于数值稳定性，通常设置为很小的值
对于 t = 1, 2, …，执行以下更新：

计算梯度：g_t = ▽_θ L(Θ_t)
更新一阶矩估计：m_t = β1 * m_t-1 + (1 - β1) * g_t
更新二阶动量估计：v_t = max(β∞ * v_t-1, |g_t|)
根据偏差校正计算校正后的一阶矩估计：m_hat_t = m_t / (1 - β1^t)
计算更新参数：Θ_t+1 = Θ_t - α / (1 - β1^t) * m_hat_t / (v_t + ε)

Adamax算法与Adam算法非常相似，但将二阶动量 v 替换为无穷范数动量 v∞，并不需要其偏差校正。公式中，|g|表示给定梯度g的所有元素的绝对值的向量。

9.3 Nadam的算法公式实现？

以下是使用Python实现Adamax算法的代码示例：

import numpy as np

def adamax_optimizer(grad, m, v, beta1, beta_inf, alpha, epsilon, t):
    # 更新梯度一阶矩估计
    m = beta1 * m + (1 - beta1) * grad
    # 更新梯度二阶动量指数
    v = np.maximum(beta_inf * v, np.abs(grad))
    # 偏差校正后的一阶矩估计
    m_hat = m / (1 - beta1**t)
    # 更新参数
    param = - alpha * m_hat / (v + epsilon)
    return param, m, v

# 初始化参数
alpha = 0.001  # 学习率
beta1 = 0.9  # 一阶动量指数衰减率
beta_inf = 0.999  # 无穷范数动量指数衰减率
epsilon = 1e-8  # 平滑项
t = 0  # 迭代次数
m = np.zeros_like(params)  # 梯度一阶矩估计
v = np.zeros_like(params)  # 无穷范数动量指数

# 在每个迭代步骤中使用Adamax算法更新参数
while stopping_criteria:
    t += 1
    # 计算损失函数关于模型参数的梯度
    grad = compute_gradient(params)
    # 更新参数
    param_update, m, v = adamax_optimizer(grad, m, v, beta1, beta_inf, alpha, epsilon, t)
    params += param_update

上述代码中，grad表示损失函数对模型参数的梯度，m表示梯度一阶矩估计，v表示无穷范数动量指数，beta1表示一阶动量指数衰减率，beta_inf表示无穷范数动量指数衰减率，alpha表示学习率，epsilon表示平滑项，t表示当前的迭代次数，param表示更新后的模型参数。

需要注意的是，根据具体的优化问题，可能需要根据经验来调整学习率和各个衰减率的取值，以获得更好的优化性能。

10. Nadam

10.1 什么是**Nadam ？

这是一种带无约束方法的Nesterov动量Adam算法，可以非常有效地控制"m"-方向和"v"-方向的耦合，并且通常可以提高Adam的收敛速度。

10.2 Nadam的具体步骤和算法公式？

Nadam是一种结合了Nesterov动量和Adam优化算法特性的优化算法。下面是Nadam的具体步骤和算法公式：

初始化参数：
- 学习率 α
- 手动动量参数 β1（建议为0.9）
- 二阶动量指数衰减率 β2（建议为0.999）
- 平滑项 ε（用于数值稳定性，通常设置为很小的值，比如1e-8）
初始化变量：
- 梯度的一阶矩估计 m （初始化为0向量）
- 梯度的二阶矩估计 v （初始化为0向量）
- 过去动量方向的指数衰减平均 mt （初始化为0向量）
- 过去二阶动量方向的指数衰减平均 vt （初始化为0向量）
在每次迭代中，执行以下步骤：
- 计算梯度 g，根据当前参数计算损失函数的导数
- 更新一阶矩估计：m = β1 * m + (1 - β1) * g
- 更新二阶矩估计：v = β2 * v + (1 - β2) * g²
- 偏差校正：m_hat = m / (1 - β1^t)，v_hat = v / (1 - β2^t)
- 计算过去动量方向和过去二阶动量方向的指数加权平均： mt = β1 * mt + (1 - β1) * g vt = β2 * vt + (1 - β2) * g²
- 计算校正项：delta = (1 - β1^t) * mt / ((1 - β1^t) * vt + ε)
- 根据Nesterov动量公式，更新参数： θ = θ - α * (β1 * delta + (1 - β1) * g) / sqrt((1 - β2^t) * v + ε)

其中，t表示当前的迭代次数，θ表示模型参数。

通过结合Nesterov动量和Adam算法的思想，Nadam相对于传统的Adam算法可以更好地控制"m"-方向和"v"-方向的耦合，从而提高收敛速度和优化性能。

10.3 Nadam的算法公式实现？

Nadam算法的具体实现公式如下：

首先，初始化参数：

学习率 α
手动动量参数 β1（建议为0.9）
二阶动量指数衰减率 β2（建议为0.999）
平滑项 ε（用于数值稳定性，通常设置为很小的值，比如1e-8）

然后，初始化变量：

梯度的一阶矩估计 m （初始化为0向量）
梯度的二阶矩估计 v （初始化为0向量）
过去动量方向的指数衰减平均 mt （初始化为0向量）
过去二阶动量方向的指数衰减平均 vt （初始化为0向量）

在每次迭代中，执行以下步骤：

计算梯度 g，根据当前参数计算损失函数的导数
更新一阶矩估计：m = β1 * m + (1 - β1) * g
更新二阶矩估计：v = β2 * v + (1 - β2) * g²
偏差校正：m_hat = m / (1 - β1^t)，v_hat = v / (1 - β2^t)
计算过去动量方向和过去二阶动量方向的指数加权平均： mt = β1 * mt + (1 - β1) * g vt = β2 * vt + (1 - β2) * g²
计算校正项：delta = (1 - β1^t) * mt / sqrt((1 - β2^t) * v + ε)
根据Nesterov动量公式，更新参数： θ = θ - α * (β1 * delta + (1 - β1) * g) / (sqrt(v_hat) + ε)

其中，t表示当前的迭代次数，θ表示模型参数。

这些步骤按照顺序执行，直到达到预定的迭代次数或达到其他停止条件。通过这种方式，Nadam算法在优化过程中会自适应地调整学习率和动量，并结合Nesterov动量的思想来加速收敛并获得更好的优化性能。

以下是用Python实现Nadam算法的代码示例：

import numpy as np

def nadam_optimizer(grad, m, v, mt, vt, alpha, beta1, beta2, epsilon, t):
    # 更新梯度一阶矩估计
    m = beta1 * m + (1 - beta1) * grad
    # 更新梯度二阶矩估计
    v = beta2 * v + (1 - beta2) * grad**2
    # 计算偏差校正后的一阶和二阶矩估计
    m_hat = m / (1 - beta1**t)
    v_hat = v / (1 - beta2**t)
    # 更新过去动量方向和过去二阶动量方向的指数加权平均
    mt = beta1 * mt + (1 - beta1) * grad
    vt = beta2 * vt + (1 - beta2) * grad**2
    # 计算校正项delta
    delta = (1 - beta1**t) * mt / (np.sqrt((1 - beta2**t) * v_hat) + epsilon)
    # 计算更新后的参数
    param = - alpha * (beta1 * delta + (1 - beta1) * grad) / (np.sqrt(v_hat) + epsilon)
    return param, m, v, mt, vt

其中，grad表示损失函数对模型参数的梯度，m和v是梯度一阶和二阶矩估计，mt和vt是过去动量方向和过去二阶动量方向的指数加权平均，alpha是学习率，beta1和beta2是手动动量参数和二阶动量指数衰减率，epsilon是平滑项，t表示当前的迭代次数，param表示更新后的模型参数。这个函数将计算和返回Nadam算法中的参数更新公式。

使用上述代码源自的Nadam函数，只需要首先初始化所需的变量，然后按照迭代次数循环调用Nadam函数即可。

# 初始化参数
alpha = 0.001
beta1 = 0.9
beta2 = 0.999
epsilon = 1e-8
t = 0
m = np.zeros_like(params)
v = np.zeros_like(params)
mt = np.zeros_like(params)
vt = np.zeros_like(params)

# 在每个迭代步骤中使用Nadam算法更新参数
while stopping_criteria:
    t += 1
    # 计算损失函数关于模型参数的梯度
    grad = compute_gradient(params)
    # 更新参数
    param_update, m, v, mt, vt = nadam_optimizer(grad, m, v, mt, vt, alpha, beta1, beta2, epsilon, t)
    params += param_update

在使用Nadam的神经网络优化过程中，我们要根据网络的具体情况来具体设置这些参数的值，以充分发挥Nadam算法的特性。

你可能感兴趣的:(人工智能专栏,机器学习,逻辑回归,回归,人工智能,算法,人机交互)

MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
GESP认证C++编程真题解析 | GESP202409 三级单选题和判断题热爱编程的通信人历年GESP CSP-J CSP-S真题解析 c++开发语言
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
LeetCode 学习day3 不喜勿喷小小小新人12123 leetcode 学习算法 python
题目：给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。（LeetCode121.买卖股票的最佳时机）问题分析：简而言之为求最大差Python代码：importnumpyasnpc
算法优化：前缀和+哈希表雨声敲敲，风声潇潇算法算法 java leetcode 性能优化哈希表
今天在leetcode上写到6952.统计趣味子数组的数目这道题的时候出现了超时问题，由此学习了前缀和+哈希表的方法。目前看到与此知识点相关的题目有如下：560.和为k的子数组，非常经典的前缀和+哈希表，可以从这一道题入手。6952.统计趣味子数组的数目，这道题比上一到稍微难一点，但是不至于困难。下面介绍一下前缀和+哈希表以560题为例，题目：给你一个整数数组nums和一个整数k，请你统计并返回该
POS（权益证明机制） Chinatesila 区块链
由来：SunnyKing和ScottNadal首先建议使用权益证明作为工作量证明（PoW）的替代方案，并创造了权益一词。他们描述了一种算法，该算法根据个人钱包中代币的数量和年龄选择生产区块的节点。Peercoin（PPC）被创造出来，并成为第一个混合加密货币。PPC使用PoW分发令牌，并使用PoS验证交易。简介：权益证明机制的目的是让所谓的“权益者”、“锻造者”或者“验证者”来代替矿工，他们本质上
什么是 PoW（工作量证明，Proof of Work） MonkeyKing.sun 区块链
共识算法（ConsensusAlgorithm）是区块链的“心脏”，它决定了多个节点在没有中央机构的前提下，如何就“谁来记账”达成一致。什么是PoW（工作量证明，ProofofWork）定义：工作量证明（ProofofWork,简称PoW）是一种共识机制，要求节点通过解决一个高难度数学问题，来获得记账权。第一个算出答案的节点获得“打包交易→生成区块→获取奖励”的权利。它是比特币、以太坊（1.0）等
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
什么是 PoS（权益证明） MonkeyKing.sun pos
PoS（ProofofStake，权益证明）是区块链中常用的一种共识算法，作为PoW（工作量证明）的替代方案，它通过“持币数量+持有时间”决定谁有权记账（打包区块），从而降低能耗、提升效率。一、什么是PoS（权益证明）？PoS是一种基于“持有代币数量”的区块链共识机制，持币越多、持币越久，获得打包新区块机会的概率越高。换句话说，不是靠算力挖矿，而是靠“你拥有多少币”来竞争记账权。二、PoS的核心原
实现make_power_of_two函数洞阳 c++面试 c++
目录代码make_power_of_two函数解析：将数值转换为大于等于它的最小2的幂一、函数功能与核心逻辑二、代码实现与逐行解析三、逐步骤原理解析四、位运算的数学原理五、不同输入的转换示例六、算法复杂度与适用场景七、与其他实现方式的对比八、注意事项总结代码该函数将任意n转换为大于等于n的最小2的幂（如n=10→16，n=16→16）size_tmake_power_of_two(size_tn)
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
大语言模型中的思维链提示：解锁高效互动的秘密 t0_54program 大数据与人工智能语言模型人工智能自然语言处理个人开发
在当今的人工智能领域，大语言模型（LLMs）已然成为一颗耀眼的明星，它经过海量训练，能够理解并生成人类语言，在编程等诸多领域助力人们完成日常任务。然而，若想与这些模型实现高效沟通，掌握正确的请求方式至关重要，而思维链提示（Chainofthoughtprompting）便是与LLMs互动时最为高效的技术之一。什么是提示（Prompting）？LLMs基于海量数据集进行训练，以理解并生成类人文本。其
深入详解：随机森林算法——概念、原理、实现与应用场景猿享天开算法随机森林机器学习
深入详解：随机森林算法——概念、原理、实现与应用场景随机森林（RandomForest,RF）是一种经典的集成学习算法，广泛应用于机器学习任务。本文将通过图文结合的方式，全面解析随机森林的核心原理、实现细节和应用实践，帮助读者建立系统认知。1.核心概念与直观理解1.1什么是随机森林？随机森林是一种基于决策树的集成学习算法，通过构建多棵决策树进行协同预测。其核心思想是"三个臭皮匠，顶个诸葛亮"——多
【项目实战】Redis使用场景之基于Redis实现分布式限流本本本添哥 002 -进阶开发能力 003 -数据库 redis 分布式数据库
一、技术概览1.1定义分布式限流是指在分布式系统中限制请求的速率，以保护后端服务不被过多的请求压垮。它可以帮助我们控制系统的负载，保证服务的稳定性。Redis是一个高性能的键值存储系统，常用于缓存、消息队列和实时分析等场景。由于其支持丰富的数据结构和原子操作，非常适合用来实现分布式限流。专业术语:令牌桶算法(TokenBucket):一种流量整形算法，允许突发流量但不超过平均速度。漏桶算法(Lea
python ks值计算_风控模型中的K-S理解以及python实现 weixin_39747293 python ks值计算
笔者在工作中计算单变量的ks值时，发现几个分布不同的变量好y计算的ks值相同，凭借统计直觉，发现一定存在问题，笔者从数据和计算ks代码两个方向进行排除。最后定位到计算使用stats.ks_2samp()函数计算ks值时，如果变量存在缺失值，计算得到ks值有误，下面笔者就来好好梳理一下ks值的前世今生。ks检验介绍笔者刚入门机器学习开始做的例子就是金融场景下风控模型。那时评价模型的好坏就用传统的机器
人工智能大模型原理与应用实战：大模型在金融风控中的应用 AI天才研究院 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
文章目录人工智能大模型原理与应用实战：大模型在金融风控中的应用01.背景介绍1.1金融风控的挑战1.2大模型的优势2.核心概念与联系2.1大模型在金融风控中的应用场景2.2大模型与传统风控技术的结合3.核心算法原理具体操作步骤3.1基于大模型的欺诈检测3.2基于大模型的信用评估4.数学模型和公式详细讲解举例说明4.1逻辑回归模型4.2XGBoost模型5.项目实践：代码实例和详细解释说明5.1基于
AlphaStar 星际首秀，人工智能走向星辰大海谷歌开发者
文/王晶，资深工程师，GoogleBrain团队作者王晶，现为GoogleBrain团队的资深工程师，主要致力深度强化学习的研发，和DeepMind团队在强化学习的应用上有许多合作。北京时间1月25日凌晨2点，DeepMind直播了他们的AIAlphaStar和人类顶尖的职业电竞选手对战星际争霸2。根据DeepMind介绍，AlphaStar在2018年12月10日和19日先后以5：0全胜的战绩击
Go项目限流全攻略：超越中间件的全方位解决方案码农老gou golang 中间件开发语言
引言：限流在分布式系统中的重要性在当今高并发的互联网应用中，流量控制已成为保障系统稳定性的关键手段。一次突发的流量洪峰可能导致整个系统崩溃，造成不可估量的损失。作为Go开发者，我们常常会面临这样的面试问题：Go项目中如何实现限流？仅仅使用中间件就足够了吗？本文将深入探讨Go项目中的限流策略，分析中间件的局限性，并介绍超越中间件的全方位解决方案。一、常见限流算法解析1.令牌桶算法（TokenBuck
随机森林详解：原理、优势与应用实践大千AI助手人工智能 Python #OTHER 随机森林算法机器学习决策树人工智能 DecisionTree 数据挖掘
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！随机森林介绍1.定义：随机森林是一种强大的、高度灵活的集成学习（EnsembleLearning）算法，主要用于分类和回归任务。它的核心思想是构建多棵决策树（DecisionTree），并将这些树的预测结果进行组合（例如，分类任务采用投票，回归任务采用
集成学习基础：Bagging 原理与应用大千AI助手人工智能 Python #OTHER 集成学习机器学习人工智能算法决策树 Bagging
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！Bagging介绍1.定义与全称：Bagging是BootstrapAggregating的缩写，中文常译为装袋法。它是一种并行式的集成学习方法。核心目标是通过构建多个基学习器的预测结果进行组合（通常是投票或平均），来获得比单一基学习器更稳定、更准确、
经济学神图：洛伦兹曲线大千AI助手人工智能 Python #OTHER 决策树人工智能 DecisionTree 算法洛伦兹曲线基尼
洛伦兹曲线（LorenzCurve）是衡量社会收入或财富分配不平等程度的经典可视化工具，由美国统计学家马克斯·洛伦兹（MaxOttoLorenz）于1905年提出。它不仅是理解基尼系数的核心基础，也是经济学、社会学中分析资源分配公平性的关键图表。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！往期文
**双生“基尼”**：跨越世纪的术语撞车与学科分野
在学术的宇宙中，“基尼”（Gini）这个名字如同一个奇特的星标，闪耀在两个看似毫不相关的领域：衡量社会贫富差距的经济学与驱动人工智能的机器学习。然而，当人们在这两个领域都遇到“基尼指数”或“基尼系数”时，困惑油然而生——它们为何如此不同？又为何共享同一个名字？这不是某个“傻逼”的随意命名，而是一场跨越学科与世纪的“术语交通事故”，其背后是学术传承与概念抽象的交织。本文由「大千AI助手」原创发布，专
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器 IT古董人工智能课程机器学习算法神经网络
第二章:机器学习与神经网络概述第三部分：类算法理论与实践第三节：决策树分类器内容：信息增益、剪枝技术、过拟合与泛化能力。决策树是一种常用于分类和回归的树状结构模型，它通过一系列特征判断进行决策，有良好的可解释性。一、基本概念节点（Node）：表示特征判断条件边（Branch）：表示特征判断的结果路径叶子节点（Leaf）：表示分类结果二、划分准则：信息增益（InformationGain）信息增益衡
算法练习-02 亮亮爱刷题算法数据结构 c++
今天给大家带来的是第二天的几道练习题，包括几道思路特别巧妙的算法题，以及提升的背包问题，相信这类问题对大家算法能力的提升还是十分有帮助的，希望大家学完可以给博主点一个关注。第一题：问题描述给定一个长度为n的数组a，小蓝希望从数组中选择若干个元素（可以不连续），并将它们重新排列，使得这些元素能够形成一个先严格递增然后严格递减的子序列（可以没有递增部分或递减部分）。你需要求出在满足这个条件下，最多可以
基于Redis分布式的限流 chi_666 redis 分布式数据库
以下是基于Redis实现分布式限流的Java解决方案，包含多种限流算法和完整实现代码：一、限流算法选择与实现1.固定窗口算法（SimpleRateLimiter）publicclassRedisFixedWindowRateLimiter{privatefinalStringRedisTemplateredisTemplate;privatefinalStringscript="localcurr
AI算力综述和资料整理木鱼时刻人工智能
目录总体介绍计算精度传输协议GPU池化资源调度CUDA技术GPU硬件参考链接总体介绍AI算力是人工智能系统的核心基础设施，涵盖了从计算精度、传输协议到硬件架构的完整技术栈。计算精度混合精度训练原生满血版DeepSeek671B是FP8精度。FP16在训练计算力占比有80-90%，FP32占比10%-20%。大模型训练中通常会用到FP16（半精度浮点数），但并不是只使用FP16，而是采用**混合精度
对照原则在临床试验中的应用与挑战
一、对照原则的科学逻辑1.1核心目的1.1.1区分混杂效应通过对照组设置，区分疾病自然进程、安慰剂效应、回归均值现象及非特异性效应等混杂因素，凸显干预措施的真实疗效。1.2统计本质1.2.1真实疗效计算真实疗效=（干预组终点变化-干预组基线）-（对照组终点变化-对照组基线），通过组间比较抵消共同偏倚。二、对照组的五大类型及适用场景2.1安慰剂对照2.1.1构成外观/用法相同的无活性物质。2.1.2
Web中间件性能调优指南：线程池、长连接与负载均衡的最佳实践编程实战派-李工《Java 负载均衡中间件优化 Tomcat调优 Nginx配置性能工程线程池技术 Keep-Alive优化
目录引言一、Web容器线程池配置不当1.1线程池参数的核心作用与影响1.2线程池大小计算模型1.3动态调优实践二、Keep-Alive机制配置缺陷2.1Keep-Alive的工作原理2.2典型配置问题与影响2.3优化配置建议三、负载均衡策略缺失3.1负载均衡的核心价值3.2主流负载均衡算法对比3.3Nginx关键配置优化四、全链路压测与调优方案4.1压测实施流程4.2典型优化案例4.3持续监控体系
从入门到精通：前端工程师必学的 JSON 全解析前端视界前端 json 状态模式 ai
从入门到精通：前端工程师必学的JSON全解析关键词：JSON、前端工程师、数据交换、JavaScript、数据格式摘要：本文围绕前端工程师必学的JSON展开全面解析。从JSON的基本概念、背景知识入手，深入探讨其核心原理、算法实现、数学模型等方面。通过详细的代码示例和实际应用场景分析，帮助前端工程师从入门到精通掌握JSON的使用。同时，提供了丰富的学习资源、开发工具和相关论文推荐，最后对JSON的
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
【网络安全】对称密码体制 Hacker_xingchen web安全安全网络
1.对称密码体制概述1.1定义与特点对称密码体制，也称为单钥密码体制，是一种加密方法，其中加密和解密过程使用相同的密钥。这种加密方式的主要特点包括简单、高效和计算速度快，适合于大量数据的快速加密和解密。对称密码体制的安全性完全依赖于密钥的保密性，一旦密钥被泄露，加密的安全性就会受到威胁。效率：对称密码算法通常比非对称密码算法要快，因为它们的算法结构相对简单，计算量较小。密钥管理：对称密码体制的密钥
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1