小殊小殊

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码

写在前面

一、牛顿法

1.看图理解牛顿法

2.公式推导-三角函数

3.公式推导-二阶泰勒展开

二、BFGS公式推导

三、L-BFGS

四、算法迭代过程

五、代码实现

1.torch.optim.LBFGS说明

2.使用LBFGS优化模型

优化器系列文章列表

Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码

写在前面

这篇文章是优化器系列的第三篇，主要介绍牛顿法、BFGS和L-BFGS，其中BFGS是拟牛顿法的一种，而L-BFGS是对BFGS的优化，那么事情还要从牛顿法开始说起。

一、牛顿法

函数最优化算法方法不唯一，其中耳熟能详的包括梯度下降法，梯度下降法是一种基于迭代的一阶优化方法，优点是计算简单；牛顿法也是一种很重要的优化方法，是基于迭代的二阶优化方法，优点是迭代次数少，收敛速度很快。下面我们简要介绍一下牛顿法。

1.看图理解牛顿法

最优化问题就是寻找能使函数最小化的x，所以目标函数应当是一个凸函数（起码是局部凸函数），假如一个函数如下图：

图1

他的一阶导数可能长下面这个样子：

图2

很显然函数在处取得最小值，同时这个点的导数等于0，如果使用梯度下降，经过多次迭代，x的取值会慢慢接近，我们都能想象这个过程。

如果使用牛顿法，x也会逼近，不过速度会快很多，示例图如下：

图3

这个过程可以这样描述：

a.在X轴上随机一点 $x_{1}$ ,经过 $x_{1}$ 做X轴的垂线,得到垂线与函数图像的交点 $f(x_{1})$ .

b.通过 $f(x_{1})$ 做函数的切线,得到切线与X轴的交点 $x_{2}$ .

c.迭代a/b两步，当前后两次求的x相同或者两个值的差小于一个阈值的时候，我们就认为找到了。

三个步骤的难点在于b，如何快速的找到切线与X轴的交点，下面有两种计算方式，思想不同但结果是一样的。

2.公式推导-三角函数

图4

如图4，蓝色的线是函数的的导数 $f^{'}(x)$ ，则曲线在处的导数为 $f^{''}(x_1)$ ，我们要求，根据三角函数有：

$f^{''}(x_1)=\frac{f^{'}(x_1)}{x_1-x_2}$ （1）

得出：

$x_2=x_1-\frac{f^{'}(x_1)}{f^{''}(x_1)}$ （2）

利用开始进行下一轮的迭代。迭代公式可以简化如下：

$x_{n+1}=x_{n}-\frac{f^{'}(x_{n})}{f^{''}(x_{n})}$ （3）

3.公式推导-二阶泰勒展开

任意一点在附近的二阶泰勒展开公式为：

$f(x)=f(x_n)+f^{'}(x_n)(x-x_n)+\frac{1}{2}f^{''}(x_n)(x-x_n)^2$ （4）

对求导：

$f^{'}(x)=f^{'}(x_n)+f^{''}(x_n)(x-x_n)$ （5）

令 $f^{'}(x)=0$ :

$x=x_{n}-\frac{f^{'}(x_{n})}{f^{''}(x_{n})}$ （6）

写成迭代形式：

$x_{n+1}=x_{n}-\frac{f^{'}(x_{n})}{f^{''}(x_{n})}$ （7）

可以看到使用三角函数和二阶泰勒展开最终得到的结果是一样的。虽然牛顿法收敛速度很快，但是当x的维度特别多的时候，我们想求得 $f^{''}(x)$ 是非常困难的，而牛顿法又是一个迭代算法,所以这个困难我们还要面临无限多次，导致了直接使用牛顿法最为优化算法很难实际落地。为了解决这个问题出现了拟牛顿法，下面介绍一种拟牛顿法BFGS，主要就是想办法一种方法代替二阶导数。

二、BFGS公式推导

函数在处的二阶泰勒展开式为：

$f(x)=f(x_{n+1})+f^{'}(x_{n+1})(x-x_{n+1})+\frac{1}{2}f^{''}(x_{n+1})(x-x_{n+1})^2$ （8）

当x为向量的时候，上式写成：

$f(x)=f(x_{n+1})+\bigtriangledown f(x_{n+1})(x-x_{n+1})+\frac{1}{2}\bigtriangledown^2 f(x_{n+1})(x-x_{n+1})^2$

（9）

令 $G_{n+1}=\bigtriangledown ^2f(x_{n+1})$ ，同时对求导：

$\bigtriangledown f(x)=\bigtriangledown f(x_{n+1})+G_{n+1}(x-x_{n+1})$ （10）

接下来我们要想办法去掉 $G_{n+1}$ ，我们使用 $B_{n+1}$ 代替 $G_{n+1}$ ， $B_{n+1}$ 是在迭代中一点点计算出来的而不使用二阶导数。

上式变为:

$\bigtriangledown f(x)=\bigtriangledown f(x_{n+1})+B_{n+1}(x-x_{n+1})$ （11）

$B_{n+1}(x_{n+1}-x)=\bigtriangledown f(x_{n+1})-\bigtriangledown f(x)$ （12）

我们认为每次迭代与上次变化，形式如下：

$B_{n+1}=B_{n}+E_{n}$ （13）

令：

$y_n=\bigtriangledown f(x_{n+1})-\bigtriangledown f(x_n)$ ， $s_n=x_{n+1}-x_n$ （14）

将式（13）（14）带入式子（12）：

（15）

令：

$E_n=\alpha u_nu_{n}^{T}+\beta v_kv_{k}^{T}$ （16）

其中均为的向量，带入（15）

$(B_n+\alpha u_nu_{n}^{T}+\beta v_nv_{n}^{T})s_n=y_n$ （17）

$\alpha (u_{n}^{T}s_n)u_n+\beta (v_{n}^{T}s_n)v_n=y_n-B_ns_n$ （18）

已知： $u_{n}^{T}s_n,v_{n}^{T}s_n$ 为实数，为向量。式（18）中，参数和解的可能性有很多，我们取特殊的情况，假设 $u_n=rB_ns_n,v_n=\theta y_n$ 。带入（16）得：

$E_n=\alpha r^2B_ns_ns_{n}^{T}B_n+\beta \theta^2 y_ny_{n}^{T}$ （19）

将 $u_n=rB_ns_n,v_n=\theta y_n$ 带入（18）得：

$\alpha [(rB_ns_n)^Ts_n](rB_ns_n)+\beta [(\theta y_n)^T](\theta y_n)=y_n-B_ns_n$ （20）

$[\alpha r^2(s_{n}^{T}B_ns_n)+1]+[\beta \theta ^2(y_{n}^{T}s_n)-1](y_n)=0$ （21）

令 $\alpha r^2(s_{n}^{T}B_ns_n)+1=0$ ，则：

$\alpha r^2=-\frac{1}{s_{n}^{T}B_ns_n}$ （22）

令 $\beta \theta ^2(y_{n}^{T}s_n)-1=0$ ，则

$\beta \theta ^2=\frac{1}{y_{n}^{T}s_n}$ （23）

将式（22）和（23）带入（19）：

$E_n=-\frac{B_ns_ns_{n}^{T}B_n}{s_{n}^TB_ns_n}+\frac{y_ny_{n}^{T}}{y_{n}^{T}s_k}$ （24）

将（24）带入（13）得到的迭代公式：

$B_{n+1}=B_n-\frac{B_ns_ns_{n}^{T}B_n}{s_{n}^TB_ns_n}+\frac{y_ny_{n}^{T}}{y_{n}^{T}s_k}$ （24）

当x为向量的时候，式（7）写成：

$x_{n+1}=x_n-B_{n}^{-1}\bigtriangledown f(x_n)$ （25）

加上学习率得到BFGS的迭代公式：

$x_{n+1}=x_n-\eta(B_{n}^{-1}\bigtriangledown f(x_n))$ （26）

我们发现，还需要求的逆，这里可以引入sherman-morrism公式，求解的逆：

$B_{n+1}^{-1}=(I-\frac{s_ny_n}{y_{n}^{T}s_n})^TB_{n}^{-1}(I-\frac{y_ns_{n}^{T}}{y_{n}^{T}s_n})+\frac{s_ns_{n}^{T}}{y_{n}^{T}s_n}$ （27）

我们用代替 $B^{-1}$ ，得到最终的BFGS迭代公式和的迭代公式：

$x_{n+1}=x_n-\eta(H_{n}\bigtriangledown f(x_n)$ （28）

$H_{n+1}=(I-\frac{s_ny_n}{y_{n}^{T}s_n})^TH_{n}(I-\frac{y_ns_{n}^{T}}{y_{n}^{T}s_n})+\frac{s_ns_{n}^{T}}{y_{n}^{T}s_n}$ （29）

其中是本轮x与上一轮x的差，是本轮梯度与上一轮梯度的差。

三、L-BFGS

在BFGS算法中，仍然有缺陷，每次迭代计算需要前次迭代得到的，的存储空间至少为N(N+1)/2（N为特征维数），对于高维的应用场景，需要的存储空间将是非常巨大的。为了解决这个问题，就有了L-BFGS算法。L-BFGS即Limited-memory BFGS。 L-BFGS的基本思想就是通过存储前m次迭代的少量数据来替代前一次的矩阵，从而大大减少数据的存储空间。

令 $\rho _n=\frac{1}{y_{n}^{T}s_n},V_k=I-\frac{y_ns_{n}^{T}}{y_{n}^{T}s_k}$ ，则式（29）可以表示为：

$H_{n+1}=V_{n}^{T}H_nV_n+\rho _ns_ns_{n}^{T}$ （30）

若在初始时，假定初始的矩阵，则我们可以得到：

$H_1=V_{0}^{T}H_0V_0+\rho _0s_0s_{0}^{T}$ （31）

$H_2=V_{1}^{T}H_1V_1+\rho _1s_1s_{1}^{T}$

$=V_{1}^{T}(V_{0}^{T}H_0V_0+\rho _0s_0s_{0}^{T})+\rho _1s_1s_{1}^{T}$

$=V_{1}^{T}V_{0}^{T}H_0V_1+V_{1}^{T}\rho _0s_0s_{0}^{T}V_1+\rho _1s_1s_{1}^{T}$ （32）

$H_{n+1}=(V_{n}^{T}V_{n-1}^{T}\cdots V_{1}^{T}V_{0}^{T})H_0(V_0V_1\cdots V_{n-1}V_n)$

$+(V_{n}^{T}V_{n-1}^{T}\cdots V_{1}^{T})\rho _1s_1s_{1}^{T}(V_1\cdots V_{n-1}V_n)$

$+ \cdots$

$+V_{n}^{T}\rho _{n-1}s_{n-1}s_{n-1}^{T}V_n$

$+\rho _ns_ns_{n}^{T}$

假设当前迭代为n，只保存最近的m次迭代信息，按照上面的方式迭代m次，可以得到如下的公式：

$H_{n+1}=(V_{n}^{T}V_{n-1}^{T}\cdots V_{n-m}^{T})H_0(V_{n-m}\cdots V_{n-1}V_n)$

$+(V_{n}^{T}V_{n-1}^{T}\cdots V_{n-m}^{T})\rho _1s_1s_{1}^{T}(V_{n-m}\cdots V_{n-1}V_n)$

$+ \cdots$

$+V_{n}^{T}\rho _{n-1}s_{n-1}s_{n-1}^{T}V_n$

$+\rho _ns_ns_{n}^{T}$

由于 $\rho ,V$ 这些变量都最终可以由s、y两个向量计算得到，因此，我们只需存储最后m次的s、y向量即可算出 $H_{n+1}$ ，加上对角阵，总共需要存储2*m+1个N维向量（实际应用中m一般取4到7之间的值，因此需要存储的数据远小于Hesse矩阵）。

四、算法迭代过程

1. 选初始点，最小梯度阈值 $\varepsilon > 0$ ，存储最近 m 次的选代数据；

2.初始化 $n=0,H_0=I,r=\bigtriangledown f(x_0)$ ；

3.如果 $||\bigtriangledown f(x_{n+1})||\leqslant \varepsilon$ ，则返回最优解 x，否则转入步骤4；

4.计算本次选代的可行方向；

5.计算步长 $\alpha _k$ ，用下面的式子进行线搜索；

$f(x_n+\alpha _np_n)=minf(x_n-\alpha p_n)$

6.用下面的更新公式更新x；

$x_{n+1}=x_n+\alpha _np_n$

7.如果 n大于 m，保留最近 m 次的向量对，删除 $s_{n-m},y_{n-m}$ ；

8.计算并保存向量对

$s_n=x_{n+1}-x_n$

$y_n=\bigtriangledown f(x_{n+1})-\bigtriangledown f(x_{n})$

9.用 two-loop recursion算法求：

$r_n=B_n\bigtriangledown f(x_n)$

10.设置，转到步骤3

五、代码实现

1.torch.optim.LBFGS说明

该类实现 LBFGS优化方法。LBFGS是什么已经不用多说了。

Pytorch说明文档：LBFGS — PyTorch 1.13 documentation

'''
lr (float): 学习率 (default: 1)
max_iter (int): 每个优化步骤的最大迭代次数，就像图3那样迭代 (default: 20)
max_eval (int): 每次优化函数计算的最大数量，使用了线搜索算法时，每次迭代计数器可能增加不止1，最好使用线搜索算法时再设置这个参数。计数器同时受max_iter 和max_eval约束，先到哪个值直接跳出迭代。(default: max_iter * 1.25).
tolerance_grad (float): 一阶最优终止公差，就是指yn (default: 1e-5).
tolerance_change (float): 函数值/参数变化的终止容差,就是指sn (default: 1e-9).
history_size (int): 更新历史记录大小 (default: 100).
line_search_fn (str): 使用线搜索算法，只能是'strong_wolfe' 或者None (default: None).
'''
class torch.optim.LBFGS(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

2.使用LBFGS优化模型

我们用一个简单的全连接网络并使用LBFGS优化，下面是代码和运行结果，可以看到，损失下降的速度还是很快的。

# coding=utf-8
#================================================================
#
#   File name   : optim_duibi.py
#   Author      : Faye
#   Created date: 2022/8/26 17:30
#   Description :
#
#================================================================

import torch
import torch.utils.data as Data
import torch.nn.functional as F
from torch.autograd import Variable
import matplotlib.pyplot as plt

# 超参数
LR = 0.01
BATCH_SIZE = 32
EPOCH = 12

# 生成假数据
# torch.unsqueeze() 的作用是将一维变二维，torch只能处理二维的数据
x = torch.unsqueeze(torch.linspace(-1, 1, 1000), dim=1)  # x data (tensor), shape(100, 1)
# 0.2 * torch.rand(x.size())增加噪点
y = x.pow(2) + 0.1 * torch.normal(torch.zeros(*x.size()))

# 定义数据库
dataset = Data.TensorDataset(x, y)

# 定义数据加载器
loader = Data.DataLoader(dataset=dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=0)


# 定义pytorch网络
class Net(torch.nn.Module):
    def __init__(self, n_features, n_hidden, n_output):
        super(Net, self).__init__()
        self.hidden = torch.nn.Linear(n_features, n_hidden)
        self.predict = torch.nn.Linear(n_hidden, n_output)

    def forward(self, x):
        x = F.relu(self.hidden(x))
        y = self.predict(x)
        return y

# 定义不同的优化器网络
net_LBFGS = Net(1, 10, 1)

# 选择不同的优化方法
opt_LBFGS = torch.optim.LBFGS(net_LBFGS.parameters(), lr=LR, max_iter=20)

nets = [net_LBFGS]
optimizers = [opt_LBFGS]

# 选择损失函数
loss_func = torch.nn.MSELoss()

# 不同方法的loss
loss_LBFGS = []

# 保存所有loss
losses = [loss_LBFGS]

# 执行训练
for epoch in range(EPOCH):
    for step, (batch_x, batch_y) in enumerate(loader):
        var_x = Variable(batch_x)
        var_y = Variable(batch_y)
        for net, optimizer, loss_history in zip(nets, optimizers, losses):
            if isinstance(optimizer, torch.optim.LBFGS):
                def closure():
                    y_pred = net(var_x)
                    loss = loss_func(y_pred, var_y)
                    optimizer.zero_grad()
                    loss.backward()
                    return loss
                loss = optimizer.step(closure)
            else:
                # 对x进行预测
                prediction = net(var_x)
                # 计算损失
                loss = loss_func(prediction, var_y)
                # 每次迭代清空上一次的梯度
                optimizer.zero_grad()
                # 反向传播
                loss.backward()
                # 更新梯度
                optimizer.step()
            # 保存loss记录
            loss_history.append(loss.data)

# 画图
labels = ['LBFGS']
for i, loss_history in enumerate(losses):
    plt.plot(loss_history, label=labels[i])
plt.legend(loc='best')
plt.xlabel('Steps')
plt.ylabel('Loss')
plt.ylim((0, 0.2))
plt.show()

牛顿法、BFGS和L-BFGS就介绍到这里，后面我将对比所有优化算法的性能，收藏关注不迷路。

优化器系列文章列表

Pytorch优化器全总结（一）SGD、ASGD、Rprop、Adagrad

Pytorch优化器全总结（二）Adadelta、RMSprop、Adam、Adamax、AdamW、NAdam、SparseAdam

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码

Golang高性能并发：Goroutine调度器优化技巧 Golang编程笔记 golang 爬虫网络 ai
Golang高性能并发：Goroutine调度器优化技巧关键词：Golang、高性能并发、Goroutine、调度器、优化技巧摘要：本文深入探讨了Golang中Goroutine调度器的优化技巧，旨在帮助开发者充分发挥Golang在并发编程方面的优势，提升程序的性能。首先介绍了相关背景知识，包括目的范围、预期读者等，接着解释了核心概念，如Goroutine、调度器等，阐述了它们之间的关系。然后详细
Golang Fiber框架最佳实践：如何构建企业级应用 Golang编程笔记 Golang编程笔记 Golang开发实战 golang 开发语言后端 ai
GolangFiber框架最佳实践：如何构建企业级应用关键词：Golang、Fiber框架、企业级应用、最佳实践、Web开发摘要：本文聚焦于GolangFiber框架在企业级应用构建中的最佳实践。详细介绍了Fiber框架的背景、核心概念、算法原理、数学模型等基础知识，通过具体的代码案例展示了如何搭建开发环境、实现和解读源代码。同时探讨了Fiber框架在实际应用场景中的应用，推荐了相关的学习资源、开
Unity知识点-Renderer常用材质变量徐子竣 unity 材质游戏引擎
本篇总结了Unity中renderer的3种常用的材质相关的变量：renderer.material,renderer.sharedMaterial,renderer.MaterialPropertyBlock。以及三者对SRPBatcher的影响。一.介绍及对比1.概念介绍1.material定义：material是Render组件（如MeshRenderer）的实例化材质。特点：访问rende
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
HarmonyOS从入门到精通：WebView开发逻极 harmonyos 华为鸿蒙 webview UI 前端实战
引言WebView是现代移动应用中不可或缺的组件，它使应用能够显示Web内容，实现混合开发。本文将详细介绍鸿蒙系统中WebView的开发技术，包括基本使用、性能优化和最佳实践。WebView基础知识1.WebView类型鸿蒙系统支持多种WebView实现：系统WebView自定义WebViewWeb组件2.WebView权限配置在开发WebView应用前，需要在配置文件中添加相关权限：{"modu
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
Redis配置与优化 ?ccc? redis 数据库缓存
目录一：Redis介绍1：关系数据库与非关系型数据库2：Redis基础2.1Redis简介2.2Redis安装部署2.3配置参数3：Redis命令工具3.1redis-cli命令行工具3.2redis-benchmark测试工具4：Redis数据库常用命令4.1key相关命令4.2多数据库常用命令二：Redis持久化1：RDB和AOF的区别2：RDB和AOF的优缺点3：Redis持久化配置三：性能
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
linux mysql命令行操作
命令行,linux,命令行操作相关学习资料：https://edu.51cto.com/video/797.htmlhttps://edu.51cto.com/video/1400.htmlhttps://edu.51cto.com/video/3832.htmlLinuxMySQL命令行操作入门指南作为一名刚入行的开发者，掌握Linux系统下的MySQL命令行操作是一项基本技能。本文将带你一步步
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
转行要趁早！网络安全行业人才缺口大，企业招聘需求正旺！
网络安全行业具有人才缺口大、岗位选择多、薪资待遇好、学历要求不高等优势，对于想要转行的人员来说，是一个非常不错的选择。人才缺口大网络安全攻防技术手段日新月异，特别是现在人工智能技术飞速发展，网络安全形势复杂严峻，人才重要性凸显。教育部《网络安全人才实战能力白皮书》数据显示，到2027年，我国网络安全人员缺口将达327万。近期发布的《2024年网络安全产业人才发展报告》中提到，沿用ISC2的人才缺口
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
鸿蒙开发：一文了解桌面卡片
前言本文基于Api13鸿蒙的桌面卡片功能，也就是服务卡片，和Android端的小部件以及iOS端的小组件功能是一样的，只是叫法不一样，都是将应用内比较核心的功能，或者用户关注度高的功能，通过触发桌面应用进行添加到服务卡片上，进而添加到桌面上，以此达到信息展示的及时性，相关功能直达应用内的便捷效果，可以说在用户体验上，是一个质的提升。触发方式也是十分的简单，无论你是Android、iOS还是Harm
Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
深入理解reeze/tipi项目中的词法分析与语法分析技术焦习娜Samantha
深入理解reeze/tipi项目中的词法分析与语法分析技术tipiThinkingInPHPInternals,AnopenbookonPHPInternals项目地址:https://gitcode.com/gh_mirrors/ti/tipi引言在编程语言实现领域，词法分析和语法分析是构建编译器或解释器的关键环节。本文将基于reeze/tipi项目中的相关内容，深入浅出地讲解这些核心技术原理。
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
小程序入门：跳过域名校验、跨域与 Ajax 问题解析 you4580 小程序
在小程序开发过程中，我们常常会遇到一些和网络请求相关的问题，比如合法域名校验、跨域以及Ajax的使用。今天这篇博客就来为大家详细讲解一下这些内容，帮助大家少走弯路，更高效地进行小程序开发。一、跳过request合法域名校验在小程序中发起网络数据请求，有两个硬性条件：接口必须基于https协议，同时要把接口对应的域名配置到合法域名列表里。可要是后端程序员只提供了http协议的接口，这时候该怎么办呢？
pytorch-数学运算码啥码深度学习之pytorch pytorch 深度学习 python
四则运算加减乘除add+sub-mul*div/a=torch.rand(3,4)b=torch.rand(4)a,b'''(tensor([[0.2384,0.5022,0.7100,0.0400],[0.1716,0.0894,0.0795,0.1456],[0.7635,0.9423,0.7649,0.3379]]),tensor([0.8526,0.8296,0.1845,0.7922])
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
根包含文件——Luaconf.h (src) LLLLLLLLLLLLLL265161 Inside Lua lua integer 编译器 alignment c++dll
Luaconf.h是配置的总集，定义了平台相关的设置，是所有文件都包含的，即RootlyIncluded。0.前言开始关注Lua也是06年六月的事情，《程序员》的2006年第六期中，我独独看中了Lua，而不是当时我已经比较熟悉的Python和Ruby，即使它们我都关注了好几年，但是都没有Lua给我的震撼大。于是那个夏天，稍微地尝试读了Lua的代码。开学后，我突然觉得自己有点受唆使，轻信了动态的福音
【安装Stable Diffusion以及遇到问题和总结】岁月玲珑 AI stable diffusion AI编程 AI作画
在本地安装部署StableDiffusion，需要准备好硬件环境，安装相关依赖，然后配置模型。下面为你详细介绍安装部署的步骤：一、硬件要求显卡：需要NVIDIAGPU，显存至少6GB，推荐8GB及以上。系统：Windows10/11、Linux（Ubuntu等）或macOS（需要Rosetta2）。内存：至少16GBRAM。存储空间：准备10GB以上的可用空间。二、软件准备首先要安装Python和
【Html实现“心形日出”（附效果+源代码）】| JavaScript面试题：解释一下异步编程中的回调函数、Promise和Async/Await的概念。它们有什么区别？追光者♂ html5 css3 心形日出前端特效 JS面试题 Promise Async/Await
风会带走你曾经存在过的证明。——虞姬作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！
在vue3项目中使用el-upload实现文件上传柒@宝儿姐 javascript 前端 vue.js vscode
在vue3项目中使用el-upload实现文件上传template将文件拖到此处，或点击上传是否更新已经存在的用户数据仅允许导入xls、xlsx格式文件。下载模板确定取消相关属性说明limit：允许上传文件的最大数量accept：接受上传的文件类型headers：设置上传的请求头部action：请求URLdisabled：是否禁用上传on-progress：文件上传时的钩子on-success：文
博图SCL语言中用户自定义数据类型（UDT）使用详解控界小宇宙西门子PLC 博途（TIA Portal)SCL 自动化运维程序人生开发语言
博图SCL语言中用户自定义数据类型（UDT）使用详解一、UDT概述用户自定义数据类型（UDT）是TIAPortal中强大的结构化工具，允许将多个相关变量组合成单一数据结构。UDT本质是可重用的数据模板，具有以下核心优势：结构化组织：将逻辑相关的变量分组管理代码重用：一次定义，多处使用维护便捷：修改UDT定义自动更新所有实例接口标准化：确保数据传递一致性二、UDT创建步骤（图文详解）1.创建UDT项
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Pytorch优化器全总结（三）牛顿法、BFGS、L-BFGS 含代码

写在前面

一、牛顿法

1.看图理解牛顿法

2.公式推导-三角函数

3.公式推导-二阶泰勒展开

二、BFGS公式推导

三、L-BFGS

四、算法迭代过程

五、代码实现

1.torch.optim.LBFGS说明

2.使用LBFGS优化模型

你可能感兴趣的:(pytorch相关,人工智能,pytorch,深度学习)