GoWeiXH

优化算法 - 牛顿法 and 拟牛顿法

优化算法 - 牛顿法 and 拟牛顿法

预备知识

无约束优化问题
Hesse 矩阵
泰勒展开式

牛顿法

形象化解释
公式化解释
算法过程

拟牛顿法

拟牛顿条件
DFP (Davidon-Fletcher-Powell)

算法推导
算法过程

BFGS (Broyden-Fletcher-Goldfarb-Shanno)

总结

预备知识

无约束优化问题

我们以前聊过约束优化方法，将带有约束的优化问题（例如 SVM 中间隔的间隔要大于 1）通过拉格朗日乘子法转化为凸优化问题，再对各参数求偏导从而求的最优解。

那么对于无约束的优化问题呢？我们通常使用跟梯度有关的算法。例如梯度下降法，在 Logistic回归中以及神经网络中都有应用。而关于梯度的无约束优化算法还有牛顿法系列。

在介绍牛顿法前我们先来了解两个基础知识，Hesse 矩阵以及泰勒展开式。
Hesse 矩阵

简单来说，Hesse 矩阵就是某一矩阵对于其中各元素的偏导（二阶）。

例如有矩阵： $A=\begin{bmatrix} x_1x_1 & x_1x_2\\ x_2x_1 & x_2x_2\\ \end{bmatrix}$

则， $H(x)=\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\ \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} \\ \end{bmatrix}$

Hesse矩阵的通用表达式为： $H(x)=[\frac{\partial^2 f}{\partial x_i \partial x_j}]_{n*n}$
泰勒展开式

高数中的经典公式，将一个函数，在某一点处，利用各阶导数计算原函数值。这里以二阶展开举例，省略高阶无穷小的余项。

将 $f (x)$ 在 x₀ 处的二阶展开：

$f(x)=f(x_0)+f'(x_0)(x-x_0)+\frac{1}{2}f''(x_0)(x-x_0)^2$

对于 x 为矩阵来讲，令 $g (x)$ 表示一阶导， $H (x)$ 表示二阶导：

$\begin{aligned}f(x)=&f(x_0)+f'(x_0)(x-x_0)+\frac{1}{2}f''(x_0)(x-x_0)^2\\ =&f(x_0)+g^T(x_0)(x-x_0)+\frac{1}{2}(x-x_0)^TH(x_0)(x-x_0) \end{aligned}$

牛顿法

接下来进入正题，对于无约束优化问题来讲，无法直接求解，所以需要类似梯度下降一样一步一步的迭代。牛顿法也同样基于这个理念。

形象化解释

首先来看一个形象化的解释：

$\bullet$ 目标：求 $f (x) = 0$ 的解 $x^*$

$\bullet$ 初始选择一个接近函数 $f (x)$ 零点的 $x_0$ ，计算相应的 $f(x_0)$ 和切线斜率 $f'(x_0)$ 。

$\bullet$ 利用“两点式”计算经过点 $x_0, f(x_0))$ 且斜率为 $f'(x_0)$ 的直线，与 $x$ 轴的交点 $x_1,0)$ .

$f'(x_0)=\frac{f(x_0)-f(x_1)}{x_0-x_1}=\frac{f(x_0)}{x_0-x_1}$

$x_1=x_0-\frac{f(x_0)}{f'(x_0)}$ ， $x_1$ 则为下一次迭代的点，

牛顿法又称为切线法，如图所示：
（图片来自 https://www.cnblogs.com/shixiangwan/p/7532830.html）

以上步骤是求解能使 $f (x) = 0$ 时的解 $x^*$ ，但我们现在要求的是能使 $f^{'} (x) = 0$ 的解，所以，我们的目标变为：

$f''(x_0)=\frac{f'(x_0)-f'(x_1)}{x_0-x_1}$

得到：

$x_1=x_0-\frac{f'(x_0)}{f''(x_0)} \mathop{}_{\Longrightarrow}^{~~k}x_{k+1}=x_k-\frac{f'(x_k)}{f''(x_k)}$

这便是我们牛顿法的迭代更新过程。
公式化解释

对于函数 $g (x)$ ，其导数 $H (x)$ ，对 $g (x)$ 在点 $x_k$ 出使用泰勒二阶展开，得：

$g(x)=g(x_k)+H(x_k)(x-x_k)$

令 $x=x_{k+1}，g_k=g(x_k)，H_k=H(x_k)$ ，则更新迭代公式为：

$x_{k+1}=x_k+H_k^{-1}(g_{k+1}-g_k)$

（ $g_{k+1}=0~时则与之前所推等价$ ）
算法过程
1. $确定精度要求 ε，初始化 x_0，置k=0$
2. $g_k=g(x_k)，若||g(x_k)||\leε 则停止计算，求得近似解 x^*=x_k；否则转第~3~步$
3. $计算 H_k=H(x_k)，以及其逆矩阵 H_k^{-1}$
4. $计算 x_{k+1}=x_k-H_k^{-1}g_k，令k=k+1，转第~2~步$
我们可以看到，在迭代过程中，需要求 $H_k的逆矩阵 H_k^{-1}$ ，这个计算比较复杂，效率很低，所以就产生了拟牛顿法。

拟牛顿法

拟牛顿法的思想是与牛顿法一样的，但由于求逆矩阵复杂，多以拟牛顿法寻找一个矩阵用来近似替代 $H_k^{-1}$

拟牛顿条件

想找替代矩阵可不是随便找的，需要满足一个条件（两点式），即：

$x_{k+1}-x_k=H_k^{-1}(g_{k+1}-g_k)$

此条件被称为“拟牛顿条件”。

拟牛顿法则是使用 $G_k$ 作为 $H_k^{-1}$ 的近似，要求 $G_k$ 为正定矩阵，且满足拟牛顿条件。根据拟牛顿条件的不同，选取的正定矩阵也不一样：

如果选择 $G_k$ 作为 $H_k^{-1}$ 的近似，就成为 DFP 算法；
如果选择 $B_k$ 作为 $H_k$ 的近似，就成为 BFGS 算法。

按照拟牛顿条件，在每次迭代中可以选择更新替代矩阵，用以近似 $H_k^{-1}或H_k$ ：

$G_{k+1}=G_k+ΔG_k$

为什么要求 $G_k或B_k$ 为正定矩阵呢？那是因为只有它们为正定矩阵时，x 的搜索方向才是 $f (x)$ 下降的方向。

具体的，根据迭代更新公式： $x_{k+1}=x_k-H_k^{-1}g_k$ ，

引入步长因子 $λ$ ，定义 $p_k=-H_k^{-1}g_k$

迭代更新公式变为： $x_{k+1}=x_k-λP_k$

$f(x_{k+1})$ 在 $x_k$ 处的泰勒一阶展开： $f(x_{k+1})=f(x_k)+g_k^T(x_{k+1}-x_k)$

将迭代更新公式代入，得：

$f(x_{k+1})=f(x_k)-λg_k^TH_k^{-1}g_k$

因为 $H_k$ 是正定的（ $H_k^{-1}$ 也是正定的），所以有 $g_k^TH_k^{-1}g_k>0$ ，当 $λ$ 为充分小的正数时，总有 $f(x_{k+1})<f(x_k)$ ，就意味着 $f (x)$ 在迭代中逐步逼近最小值，也就是说 $p_k$ 的方向是函数下降方向。

（原牛顿法中没有步长因子 $λ$ 的存在，当 $G_k或B_k$ 为奇异矩阵时可能会出现数值问题，即出现 $f(x_{k+1})>f(x_k)$ 的情况。此时目标函数值并没有稳定下降，而且有可能无法收敛。）
DFP (Davidon-Fletcher-Powell)
- 算法推导
  
  DFP 算法选择 $G_k$ 作为 $H_k^{-1}$ 的近似，假设每一步迭代中矩阵 $G_{k+1}$ 是由 $G_k$ 加上两个附加矩阵构成的，即：
  
  $G_{k+1}=G_k+P_k+Q_k$ ，其中 $P_k，Q_k$ 为待定矩阵，令 $y_k=g_{k+1}-g_k$ ， $δ_k=x_{k+1}-x_k$
  
  这时， $G_{k+1}y_k=G_ky_k+P_k+Q_ky_k$
  
  为使 $G_{k+1}$ 满足拟牛顿条件，可使 $P_k，Q_k$ 满足：
  
  $P_ky_k=δ_k$ ，可以找到 $P_k=\frac{δ_kδ_k^T}{δ_k^Ty_k}$
  
  $Q_ky_k=-G_ky_k$ ，可以找到 $Q_k=-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$
  
  由以上得到矩阵 $G_{k+1}$ 的迭代公式：
  
  $G_{k+1}=G_k+\frac{δ_kδ_k^T}{δ_k^Ty_k}-\frac{G_ky_ky_k^TG_k}{y_k^TG_ky_k}$ （公式 G）
  
  可以证明，如果初始矩阵 $G_0$ 是正定的，则迭代过程中的每个矩阵 $G_k$ 都是正定的。
- 算法过程
  1. $确定精度要求 ε，初始化 x_0、G_0为正定对称矩阵，置k=0$
  2. $g_k=g(x_k)，若||g(x_k)||\leε 则停止计算，求得近似解 x^*=x_k；否则转第~3~步$
  3. $计算 p_k=G_kg_k$
  4. $一维搜索：λ_k=\mathop{}_{~~~λ\ge0}^{argmin}f(x_k+λp_k)$
  5. $计算 x_{k+1}=x_k+λ_kp_k$
  6. $计算g_{k+1}=g(x_{k+1})，若||g(x_k)||\leε 则停止计算，求得近似解 x^*=x_k；否则，按（公式G）计算 G_{k+1}，置 k=k+1$
BFGS (Broyden-Fletcher-Goldfarb-Shanno)

BFGS 与 DFP 类似，不同的是选取的替代矩阵不同：

$B_{k+1}=B_k+\frac{y_kδ_y^T}{y_k^Tδ_k}-\frac{B_kδ_kδ_k^TB_k}{δ_k^TB_kδ_k}$

总结

对于牛顿法与拟牛顿法的计算过程的区别：

牛顿法：

通过泰勒展开式近似原函数，每次迭代以计算 Hesse 的逆矩阵为核心，从而逼近原函数的最小值。
拟牛顿法：

通过初始化 $G_0或B_0)$ ，一维搜索 $λ_k$ ，以及替代矩阵 $G_{k+1}或B_{k+1})$ 的迭代计算，代替了 Hesse 逆矩阵的计算。

从本质上去看，牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法的收敛速度更快。更通俗地说，如果想找一条最短的路径走到一个山的最底部，梯度下降法每次只从当前所处位置选一个坡度最大的方向走一步，而牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑在走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想。）

你可能感兴趣的:(机器学习,(ML),深度学习,(DL))

【2025软考高级架构师】重点笔记部分——3、系统规划、分析与设计 Richard Chijq 2025年软考系统架构师笔记系统架构
目录一.系统规划1.1项目的提出与选择1.2可行性研究与效益分析1.3方案的制订和改进1.4新旧系统分析和比较二.系统分析与设计2.1定义问题与归结模型2.2需求2.2.1需求工程2.2.2需求分析2.3系统设计(软件设计)2.4结构化分析与设计2.4.1分析步骤2.4.2分析工具2.4.3结构化设计2.4.4数据流图、流程图2.5面向对象分析与设计2.5.1基本概念2.5.2UML(统一建模语言
SpringBoot统一功能处理——统一异常处理棕豆兔＆ spring boot spring java
目录一、异常简单使用二、@ControllerAdvice源码分析一、异常简单使用统一异常处理使用的是@ControllerAdvice+@ExceptionHandler来实现的，@ControllerAdvice表示控制器通知类，@ExceptionHandler是异常处理器，两个结合表示当出现异常的时候执行某个通知，也就是执行某个方法事件。importcom.example.demo.mod
配置文件对比工具 foolishboy_w 开发工具提效小工具服务器 json
配置文件对比工具文章目录配置文件对比工具Introdutiongit地址QuickStart1.下载源码，获取可执行的jar包2.执行jar包，对比文件3.执行结果说明Introdutionconfig-compare是一个小工具，你可以使用它来对比配置文件。目前支持的配置文件格式有yaml、yml、properties以及json，甚至你可以对比两个类型不同的文件，比如yml和json。git地
深度学习在SSVEP信号分类中的应用分析自由的晚风深度学习分类人工智能
目录前言1.SSVEP信号分类的处理流程2.模型输入和数据预处理3.模型结构设计3.1卷积神经网络（CNN）3.2长短期记忆网络（LSTM）4.训练方法与激活函数5.性能评估与挑战6.未来方向前言随着脑机接口（BCI）技术的发展，SSVEP（稳态视觉诱发电位）因其高信息传输速率和短训练时间而成为最受欢迎的BCI范式之一。近年来，深度学习方法在SSVEP信号分类中取得了显著的成果。本文通过对31个深
如何使用staruml创建时序图 forjav java staruml 时序图
说明：staruml版本：5.0.2.15701、打开staruml2、添加模型，右键Untitled=>add=>model=>取名myuml(可以随意取)3、添加图表，右键myuml=>AddDiagram=>SequenceDiagram4、重命名图表5、添加参与者actor，右键myuml=>add=>actor=>重命名为person6、添加对象，右键mysd=>Add=>Object=
Android Studio打包cocos creator项目出现java.lang.UnsatisfiedLinkError:SDKWrapper.nativeLoadAllPlugins:() ToBeTheOnlyOne Android cocos creator android android studio 游戏
最近用cocoscreator开发一个游戏，用AndroidStudio打包Apk时却出现了以下错误：Process:org.cocos2dx.javascript,PID:24123java.lang.UnsatisfiedLinkError:Nativemethodnotfound:org.cocos2dx.javascript.SDKWrapper.nativeLoadAllPlugins:
UML面向对象建模与设计——笔记（二）忧愁的awe uml 面向对象
UML面向对象建模与设计（第二版）笔记——第二部分：分析与设计开发过程1系统构思2分析3系统设计4类设计5实现6测试7培训8部署9开发生命周期系统构思1阐释概念2准备问题陈述系统分析1领域分析1创建领域类模型2分析领域状态模型3领域交互模型2应用分析1应用交互模型2应用类模型3应用状态模型系统设计类设计1填补空白区2实现用例3设计算法1选择算法2选择数据结构3定义内部类的操作4把操作分配给个类4向
大语言模型引擎全解析：Transformers、vLLM、Llama.cpp等，最佳选择全攻略！大模型入门教程语言模型 llama 人工智能 DeepSeek prompt AI大模型大模型
近年来，大语言模型（LLMs）如GPT、LLaMA、BERT等已经成为人工智能领域的核心驱动力。然而，如何高效地运行和优化这些模型，成为了开发者和研究者面临的重要挑战。为此，一系列专为大语言模型设计的引擎应运而生。本文将带你深入了解Transformers、vLLM、Llama.cpp、SGLang、MLX和Ollama这些引擎，帮助你找到最适合的工具，释放大语言模型的全部潜力！作为技术人员，不仅
网络安全入门教程（非常详细）从零基础入门到精通，看完这一篇就够了白帽黑客坤哥 web安全网络安全网络安全物联网
href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/kdoc_html_views-1a98987dfd.css"rel="stylesheet"/>href="https://csdnimg.cn/release/blogv2/dist/mdeditor/css/editerView/ck_htmledit_v
PSPNet在图像超分辨率中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
PSPNet在图像超分辨率中的应用1.背景介绍图像超分辨率(ImageSuper-Resolution,ISR)是计算机视觉领域的一个重要研究方向,旨在从低分辨率图像中重建高分辨率图像。传统的ISR方法主要基于插值算法,如双线性插值、双三次插值等,但这些方法往往无法恢复图像的高频细节信息。近年来,随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)的
基于文本特征的微博谣言检测机器懒得学习人工智能大数据图像处理计算机视觉
随着社交媒体的普及，微博等平台成为了信息传播的重要渠道。然而，虚假信息和谣言的传播也带来了严重的社会问题。因此，自动化的谣言检测技术变得尤为重要。本文将介绍如何基于文本特征，使用深度学习模型（如LSTM、CNN）和传统机器学习模型（如SVM）来实现微博谣言检测，并对这些模型的性能进行比较。完整项目地址：基于文本特征的微博谣言检测1.项目概述本项目旨在通过分析微博文本内容，自动检测其中的谣言。系统通
基于机器学习的恶意软件检测系统的详细设计与实现源码空间站11 机器学习人工智能课程设计 python 网络安全信息安全恶意软件检测
以下是一个基于机器学习的恶意软件检测系统的详细设计与实现，适合作为课程作业或项目开发。我们将实现一个通过机器学习模型分析恶意软件特征来检测文件是否为恶意软件的系统。总体思路数据准备：选择现有的恶意软件数据集（如Kaggle的恶意软件数据集）或构造模拟数据集。数据集中包含文件的特征（如二进制特征、字符串特征、API调用特征等）和标签（"恶意"或"正常"）。特征提取：提取文件的静态特征（如文件大小、字
TCP服务端和客户端实例代码 hhaijiuwo TCP网络编程网络通信 socket linux
1、TCP服务器#include#include#include#include#include#includevoiderror_handling(char*message){fputs(message,stderr);fputc('\n',stderr);exit(1);}intmain(intargc,char*argv[]){intserv_sock;intclnt_sock;struct
基于深度学习的恶意软件检测系统：设计与实现机器懒得学习深度学习人工智能
引言随着信息技术的飞速发展，恶意软件（如病毒、木马、勒索软件等）对全球网络安全构成了严重威胁。传统的恶意软件检测方法（如特征码匹配、行为分析等）在面对新型恶意软件变种时往往力不从心。近年来，深度学习技术在模式识别和分类任务中取得了显著成效，为恶意软件检测领域带来了新的机遇。本文将详细介绍一个基于深度学习的恶意软件检测系统的开发过程，该系统利用长短期记忆网络（LSTM）对Windows可执行程序的A
前端学习——CSS+JS实现进度条动画 younger_LF 前端（HTML+CSS+JS）CSS JS 进度条动画
CSS+JS实现进度条动画之前学习了导航条，那现在就来学习一下进度条。本次的学习试着写了两种风格的进度条，一种是圆点，一种是传统的条状。如下图：简单介绍一下，点击按钮之后，圆点的效果是蓝色部分从零开始变大，到充满了整个父标签，从左向右进行；传统条状的效果就单纯的从左向右进行。由于有光晕的效果，父标签应该允许溢出部分显示。再次点击按钮就重置为原来的样子。话不多说，直接开始。HTML部分HTML部分很
AI Agent: AI的下一个风口从图形用户界面到自然语言的进化 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AIAgent:AI的下一个风口从图形用户界面到自然语言的进化文章目录AIAgent:AI的下一个风口从图形用户界面到自然语言的进化1.背景介绍1.1人机交互的演变历程1.1.1命令行界面时代1.1.2图形用户界面时代1.1.3自然语言交互的兴起1.2AI技术的发展现状1.2.1机器学习和深度学习的突破1.2.2自然语言处理技术的进步1.2.3知识图谱和语义理解的发展1.3AIAgent的概念与意
```markdown 伍辰惟
#超越边界：构建优雅的六边形架构（HexagonalArchitecture）hex-arch-kotlin-spring-bootReferenceJVMmultimoduleprojectforareactivemicroserviceandlambdausingahexagonalarchitecture,DDD,Kotlin,SpringBoot,Quarkus,Lambda,Gradle
基于PyTorch的深度学习4——使用numpy实现机器学习vs使用Tensor及Antograd实现机器学习 Wis4e 深度学习机器学习 pytorch
首先，给出一个数组x，然后基于表达式y=3x2+2，加上一些噪音数据到达另一组数据y。然后，构建一个机器学习模型，学习表达式y=wx2+b的两个参数w、b。利用数组x，y的数据为训练数据。最后，采用梯度梯度下降法，通过多次迭代，学习到w、b的值。以下为具体步骤：1)导入需要的库。importnumpyasnp%matplotlibinlinefrommatplotlibimportpyplotas
AI 大模型应用数据中心建设：数据中心成本优化杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据 java python javascript kotlin golang 架构人工智能
AI大模型应用数据中心建设：数据中心成本优化1.背景介绍在人工智能（AI）和大模型应用的快速发展中，数据中心（DataCenter）成为了一个至关重要的组成部分。无论是进行深度学习模型的训练，还是大模型应用的推理，数据中心都需要提供充足的计算资源、存储空间和网络带宽。随着AI模型和大数据量的增长，数据中心的建设和管理成本逐渐成为AI技术落地和应用的核心挑战之一。为了优化数据中心成本，同时保持高性能
xxssss 墨菲斯托888 xss 前端 javascript
XSS。这是一种将任意Javascript代码插入到其他Web用户页面中执行以达到攻击目的的漏洞。攻击者利用浏览器的动态展示数据功能，在HTML页面里嵌入恶意代码。当用户浏览该页时，这些潜入在HTML中的恶意代码会被执行，用户浏览器被攻击者控制，从而达到攻击者的特殊目的，为了执行javascirpt代码,XSS攻击的脚本通常被嵌入到网页的HTML、JavaScript代码中，或者通过URL参数传递
xXSS 墨菲斯托888 xss 前端
XSS漏洞：XSS又叫CSS（CrossSiteScript）跨站脚本攻击是一种针对网站应用程序的安全漏洞攻击技术，是代码注入的一种。它允许恶意用户将代码注入网页，其他用户在浏览网页时会受到影响。恶意用户利用xss代码攻击成功后，可能得到很高的权限：私密网页内容，会话和Cookiexss漏洞通常是通过php的输出函数将javascript代码输出到html页面中，通过用户本地浏览器执行的，所以xs
深度学习-144-Text2SQL之基于langchain的少量样本提示词模板FewShotPromptTemplate的应用实战(三) 皮皮冰燃深度学习深度学习 langchain Text2SQL
文章目录1基本组件1.1大模型1.2数据库Chinook1.2.1创建并载入数据1.2.2SQLDatabase2年龄最大的员工姓名和年龄3少量样本提示词模板3.1创建示例集3.2创建格式化程序3.3创建示例选择器3.4创建少量示例提示词模板3.5应用测试3.6添加新示例4参考附录1基本组件1.1大模型fromlangchain_ollamaimportChatOllamaimportosos.e
Spring Boot笔记 @卡卡-罗特 spring boot 笔记后端
01概要SpringBoot是Java领域最流行的快速开发框架，专为简化Spring应用的初始搭建和开发而设计。一、SpringBoot解决了什么问题？传统Spring痛点•繁琐的XML配置•需要手动管理依赖版本•部署依赖外部Web服务器（如Tomcat）SpringBoot的答案•约定优于配置：自动配置80%的默认设置•内嵌服务器：直接打包成可执行JAR•起步依赖：一键集成常用技术栈（如数据库、
探索未来架构的钥匙：Hex-Arch-Kotlin-Spring-Boot 孟振优Harvester
探索未来架构的钥匙：Hex-Arch-Kotlin-Spring-Boothex-arch-kotlin-spring-bootReferenceJVMmultimoduleprojectforareactivemicroserviceandlambdausingahexagonalarchitecture,DDD,Kotlin,SpringBoot,Quarkus,Lambda,Gradle.项
Pytorch 第九回：卷积神经网络——ResNet模型 Start_Present pytorch cnn python 分类深度学习
Pytorch第九回：卷积神经网络——ResNet模型本次开启深度学习第九回，基于Pytorch的ResNet卷积神经网络模型。这是分享的第四个卷积神经网络模型。该模型是基于解决因网络加深而出现的梯度消失和网络退化而进行设计的。接下来给大家分享具体思路。本次学习，借助的平台是PyCharm2024.1.3，python版本3.11numpy版本是1.26.4，pytorch版本2.0.0+cu11
RoPE——Transformer 的旋转位置编码机智的小神仙儿深度学习大模型 transformer 深度学习人工智能
在自然语言处理领域，Transformer是现代深度学习模型的基础，而位置编码（PositionEmbedding）则是Transformer处理序列数据的关键模块之一。近年来，一种新型的位置编码方法RoPE（RotaryPositionEmbedding）得到了广泛关注。本文将全面解读RoPE的背景、原理、实现、优势及其应用场景，帮助读者深入理解这一方法。1.什么是RoPE？RoPE（Rotar
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
python爬取酷狗音乐的mv地址_爬取酷狗音乐.py HAR.王帅真
importrequestsfromseleniumimportwebdriverfrompyqueryimportPyQueryaspq#获取歌名defAccess_to_the_song(C):doc=pq(C)The_song=doc('.audioName').text()returnThe_song#进入听歌的界面爬取HTMLdefBrowser_access(URL):The_brow
Deepseek-R1性能指标 ZHOU_CAMP agent 论文解读人工智能 agent
目录Figure基准测试任务1.AIME2024(Pass@1)2.Codeforces(Percentile)3.GPQADiamond(Pass@1)4.MATH-500(Pass@1)5.MMLU(Pass@1)6.SWE-benchVerified(Resolved)Figure基准测试任务1.AIME2024(Pass@1)主要衡量模型在数学竞赛题目上的解题能力。DeepSeek-R1的
win7系统问题：——桌面壁纸变黑解决方案 lanlan_bupt win7系统问题
出现了这个问题，网上搜罗的方案电脑情况：系统为win7，启动时突然桌面壁纸变黑，更新壁纸无用，右下角未出现win7副本非正版标识发现可以更改纯色背景，但是无法读取图片作为背景。尝试方法1：https://zhidao.baidu.com/question/684800033364569732.html管理员运行cmd，SFC/SCANNOW进行检测检测结果：未发现冲突。恢复失败尝试方法2：http
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他