大饼博士X

入门神经网络优化算法（五）：一文看懂二阶优化算法Natural Gradient Descent（Fisher Information）

欢迎查看我的博客文章合集：我的Blog文章索引：：机器学习方法系列，深度学习方法系列，三十分钟理解系列等

这个系列会有多篇神经网络优化方法的复习/学习笔记，主要是一些优化器。目前有计划的包括：

入门神经网络优化算法（一）：Gradient Descent，Momentum，Nesterov accelerated gradient
入门神经网络优化算法（二）：Adaptive Optimization Methods：Adagrad，RMSprop，Adam
入门神经网络优化算法（三）：待定
入门神经网络优化算法（四）：AMSGrad，Radam等一些Adam变种
入门神经网络优化算法（五）：二阶优化算法Natural Gradient Descent（Fisher Information）
入门神经网络优化算法（六）：二阶优化算法K-FAC
入门神经网络优化算法（七）：二阶优化算法Shampoo

文章目录

1. Fisher Information Matrix

1.1 Score function
1.2 Fisher Information
1.3 Fisher矩阵和Hessian矩阵的关系

2. 自然梯度下降法Natural Gradient Descent

2.1 分布空间中的最速下降，Natural gradient方法

与Adam关系的类比讨论
参考资料

二阶优化算法Natural Gradient Descent，是从分布空间推导最速梯度下降方向的方法，和牛顿方法有非常紧密的联系。Fisher Information Matrix往往可以用来代替牛顿法的Hessian矩阵计算。下面详细道来。

1. Fisher Information Matrix

了解Natural Gradient Descent方法，需要先了解Fisher Information Matrix的定义。参考资料主要有[1][2]，加上我自己的理解。

1.1 Score function

假设我们有一个模型参数向量是 $\theta$ ，似然函数一般表示成 $\theta)$ 。在很多算法中，我们经常需要学习参数 $\theta$ 以最大化似然函数（likelihood） $\theta)$ 。这个时候，定义Score function $s(\theta)$ ，the gradient of log likelihood function：
$s(\theta) = \nabla_{\theta} \log p(x \vert \theta) \\$

这个Score function在很多地方都要用到，特别的，在强化学习Policy Gradient类方法中，我们会直接用到Score function求参数梯度来更新policy参数。

Score function的性质：The expected value of score function wrt. the model is zero.

证明：
$\mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ s(\theta) \right] = \mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \nabla \log p(x \vert \theta) \right] \\[5pt] = \int \nabla \log p(x \vert \theta) \, p(x \vert \theta) \, \text{d}x \\[5pt] = \int \frac{1}{p(x \vert \theta)} \nabla p(x \vert \theta) p(x \vert \theta) \text{d}x \\[5pt] = \int \nabla p(x \vert \theta) \, \text{d}x \\[5pt] = \nabla \int p(x \vert \theta) \, \text{d}x \\[5pt] = \nabla 1 \\[5pt] = 0$

1.2 Fisher Information

虽然期望为零，但是我们需要评估Score function的不确定性，我们采用协方差矩阵的期望（针对模型本身）：
$\mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ (s(\theta) - 0) \, (s(\theta) - 0)^{\text{T}} \right]$
上述定义（协方差矩阵的期望，针对model $\vert \theta)$ ）称之为Fisher Information，如果 $\theta$ 是表示成一个列向量，那么Score function也是一个列向量，而Fisher Information是一个矩阵形式，我们称之为Fisher Information Matrix。

$\text{F} = \mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \nabla \log p(x \vert \theta) \, \nabla \log p(x \vert \theta)^{\text{T}} \right]$

但是呢，往往 $\vert \theta)$ 形式是比较复杂的，甚至是一个模型的输出，要计算期望是不太可能的。因此，实际上我们用的比较多的情况是，采用training data $\{ x_1, x_2, \cdots, x_N \}$ 计算得到的Empirical Fisher：
$\text{F} = \frac{1}{N} \sum_{i=1}^{N} \nabla \log p(x_i \vert \theta) \, \nabla \log p(x_i \vert \theta)^{\text{T}}$

1.3 Fisher矩阵和Hessian矩阵的关系

前面是背景介绍，下面进入正题，Fisher矩阵和Hessian矩阵的关系。可以证明：log似然函数的海森矩阵的期望的负数，等于Fisher Information Matrix.

Claim: The negative expected Hessian of log likelihood is equal to the Fisher Information Matrix F

证明：核心思想是，The Hessian of the log likelihood is given by the Jacobian of its gradient：
$\text{H}_{\log p(x \vert \theta)} = \text{J} \left[\frac{\nabla p(x \vert \theta)}{p(x \vert \theta)}\right] \\[8pt] = \frac{ \text{H}_{p(x \vert \theta)} \, p(x \vert \theta) - \nabla p(x \vert \theta) \, \nabla p(x \vert \theta)^{\text{T}}}{p(x \vert \theta) \, p(x \vert \theta)} \\[8pt] = \frac{\text{H}_{p(x \vert \theta)} \, p(x \vert \theta)}{p(x \vert \theta) \, p(x \vert \theta)} - \frac{\nabla p(x \vert \theta) \, \nabla p(x \vert \theta)^{\text{T}}}{p(x \vert \theta) \, p(x \vert \theta)} \\[8pt] = \frac{\text{H}_{p(x \vert \theta)}}{p(x \vert \theta)} - \left( \frac{\nabla p(x \vert \theta)}{p(x \vert \theta)} \right) \left( \frac{\nabla p(x \vert \theta)}{p(x \vert \theta)}\right)^{\text{T}}$

推导的时候主要注意， $\vert \theta)$ 是一个标量；而 $\nabla p(x \vert \theta)$ 是对参数的梯度，是一个列向量。
然后Taking expectation wrt. the model, we have：

$\mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \text{H}_{\log p(x \vert \theta)} \right] = \mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \frac{\text{H}_{p(x \vert \theta)}}{p(x \vert \theta)} - \left( \frac{\nabla p(x \vert \theta)}{p(x \vert \theta)} \right) \left( \frac{\nabla p(x \vert \theta)}{p(x \vert \theta)} \right)^{\text{T}} \right] \\[5pt] = \mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \frac{\text{H}_{p(x \vert \theta)}}{p(x \vert \theta)} \right] - \mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \left( \frac{\nabla p(x \vert \theta)}{p(x \vert \theta)} \right) \left( \frac{\nabla p(x \vert \theta)}{p(x \vert \theta)}\right)^{\text{T}} \right] \\[5pt] = \int \frac{\text{H}_{p(x \vert \theta)}}{p(x \vert \theta)} p(x \vert \theta) \, \text{d}x \, - \mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \nabla \log p(x \vert \theta) \, \nabla \log p(x \vert \theta)^{\text{T}} \right] \\[5pt] = \text{H}_{\int p(x \vert \theta) \, \text{d}x} \, - \text{F} \\[5pt] = \text{H}_{1} - \text{F} \\[5pt] = -\text{F} \, .$

因此我们得到了： $\text{F} = -\mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \text{H}_{\log p(x \vert \theta)} \right]$ ，证明完毕。我们可以将F的作用看作是对数似然函数曲率的度量。一种很自然的想法就是，在二阶优化算法中，比如牛顿法中，需要计算Hessian矩阵，那么是否可以用Fisher矩阵来代替Hessian举证呢？这就引出了下面要讲的natural gradient方法了。

2. 自然梯度下降法Natural Gradient Descent

先来讲一讲parameter space和distribution space的概念，导致了对梯度下降的不同理解。

parameter space：一般我们解决优化问题最常用的方法是用梯度下降，每一步优化方向采用负梯度方向， $-\nabla_\theta \mathcal{L}(\theta)$ 。可以知道，负梯度方向是在当前的参数值 $\theta$ 的local neighborhood里loss在参数空间的最速下降方向。
$\frac{-\nabla_\theta \mathcal{L}(\theta)}{\lVert \nabla_\theta \mathcal{L}(\theta) \rVert} = \lim_{\epsilon \to 0} \frac{1}{\epsilon} \mathop{\text{arg min}}_{d \text{ s.t. } \lVert d \rVert \leq \epsilon} \mathcal{L}(\theta + d) \, .$
上面的表达式是，参数空间中最陡的下降方向是选取一个向量 $d$ ，使得新参数 $\theta+d$ 在当前参数 $\theta$ 的 $\epsilon$ -邻域内，并且我们选取使损失最小的 $d$ 。注意我们用欧几里德范数来表示这个邻域。因此，梯度下降的优化依赖于参数空间的欧氏几何度量。
distribution space：同时，如果我们的目标是最小化损失函数（最大化似然），那么我们自然会在所有可能的似然空间中采取优化步骤，通过参数 $\theta$ 来实现。由于似然函数本身是一个概率分布，我们称它所在的空间为分布空间（distribution space）。因此，在分布空间中采用最陡下降方向，而不是参数空间，是有道理的。

在distribution space中，用什么距离度量呢？常用的选择就是用KL散度（KL-divergence），KL散度常用语评估两个分布的接近程度。但是，实际上KL散度是不对称的，因此理论上不是一个distance metric，但是呢，很多地方还是用KL散度来衡量两个分布的接近程度。（as $d$ goes to zero, KL-divergence is asymptotically symmetric. So, within a local neighbourhood, KL-divergence is approximately symmetric [3].）

2.1 分布空间中的最速下降，Natural gradient方法

前面讲了那么多，终于要引出自然梯度方法的基本推导了。

先推导KL散度的泰勒展开有如下形式：
$\text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta + d)] \approx \frac{1}{2} d^\text{T} \text{F} d$

证明：写出二阶泰勒展开：

$\text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta+d)] \\[5pt] \approx \text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta')]\vert_{\theta' = \theta} + (\left. \nabla_{\theta'} \text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta')] \right\vert_{\theta' = \theta})^\text{T} d + \frac{1}{2} d^\text{T} \nabla_{\theta'}^2 \, \text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta')]\vert_{\theta' = \theta}d \\[5pt] =\text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta)] - \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \nabla_\theta \log p(x \vert \theta) ]^\text{T} d + \frac{1}{2} d^\text{T} \text{F} d = \frac{1}{2} d^\text{T} \text{F} d\\[5pt]$

这样理解为什么引入 $\theta'$ ：把KL散度第一个 $\vert \theta)$ 看成一个确定的分布，而变化的是在第二个分布的参数上。我们依次来看下约等号 $\approx$ 后面这三项：

泰勒展开的第一项 $\text{KL}[p_{\theta} \, \Vert \, p_{\theta}] = 0$
第二项的推导：
$\nabla_{\theta'} \text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta')] = \nabla_{\theta'} \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \log p(x \vert \theta) ] - \nabla_{\theta'} \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \log p(x \vert \theta') ] \\[8pt] = - \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \nabla_{\theta'} \log p(x \vert \theta') ] =0\\[5pt]$
考虑 $\vert_{\theta' = \theta}$ 的话，第二项包含了Score function的期望。正好是本章节前面Fisher Matrix部分讲过的，Score function的期望，已经证明过是0。
第三项，需要用到前面第一章证明过的， $\text{F} = -\mathop{\mathbb{E}}_{p(x \vert \theta)} \left[ \text{H}_{\log p(x \vert \theta)} \right]$ ，以及如下性质：Fisher Information Matrix F is the Hessian of KL-divergence between two distributions $\vert \theta)$ and $\vert \theta')$ , with respect to $\theta'$ , evaluated at $\theta' = \theta$ ，下面是推导过程：
$\text{KL} [p(x \vert \theta) \, \Vert \, p(x \vert \theta')] = \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \log p(x \vert \theta) ] - \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \log p(x \vert \theta') ]$
The first derivative wrt. $\theta'$ is：
$\nabla_{\theta'} \text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta')] = \nabla_{\theta'} \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \log p(x \vert \theta) ] - \nabla_{\theta'} \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \log p(x \vert \theta') ] \\[5pt] = - \mathop{\mathbb{E}}_{p(x \vert \theta)} [ \nabla_{\theta'} \log p(x \vert \theta') ] \\[5pt] = - \int p(x \vert \theta) \nabla_{\theta'} \log p(x \vert \theta') \, \text{d}x$
The second derivative is：
$\nabla_{\theta'}^2 \, \text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta')]\vert_{\theta' = \theta} = - \int p(x \vert \theta) \, \nabla_{\theta'}^2 \log p(x \vert \theta')\vert_{\theta' = \theta} \, \text{d}x \\[5pt] = - \int p(x \vert \theta) \, \text{H}_{\log p(x \vert \theta)} \, \text{d}x \\[5pt] = - \mathop{\mathbb{E}}_{p(x \vert \theta)} [\text{H}_{\log p(x \vert \theta)}] \\[5pt] = \text{F}$

所以得到KL散度的二阶泰勒展开形式：
$\text{KL}[p(x \vert \theta) \, \Vert \, p(x \vert \theta + d)] \approx \frac{1}{2} d^\text{T} \text{F} d$

现在，我们想知道什么是使分布空间中的损失函数L最小化的更新向量d，以便我们知道哪个方向的KL散度减小得最多。这类似于最速下降法，但在以KL散度为度量的分布空间，而不是通常的以欧氏度量的参数空间。为此，我们将最小化：

$d^* = \mathop{\text{arg min}}_{d \text{ s.t. } \text{KL}[p_\theta \Vert p_{\theta + d}] \leq c} \mathcal{L} (\theta + d) \, ,$

如果我们写出上面的最小化问题在拉格朗日乘子法形式，用二阶泰勒展开近似KL散度，用一阶泰勒级数展开近似 $\mathcal{L}$ ：

$d^* = \mathop{\text{arg min}}_d \, \mathcal{L} (\theta + d) + \lambda \, (\text{KL}[p_\theta \Vert p_{\theta + d}] - c) \\[8pt] \approx \mathop{\text{arg min}}_d \, \mathcal{L}(\theta) + \nabla_\theta \mathcal{L}(\theta)^\text{T} d + \frac{1}{2} \lambda \, d^\text{T} \text{F} d - \lambda c$
其中 $\lambda$ 是拉格朗日系数，要求解这个优化问题，我们求 $d$ 的梯度等于0：
$\frac{\partial}{\partial d} \left[\mathcal{L}(\theta) + \nabla_\theta \mathcal{L}(\theta)^\text{T} d + \frac{1}{2} \lambda \, d^\text{T} \text{F} d - \lambda c\right] \\[8pt] = \nabla_\theta \mathcal{L}(\theta) + \lambda \, \text{F} d \\[8pt] \lambda \, \text{F} d = -\nabla_\theta \mathcal{L}(\theta) \\[8pt] d = -\frac{1}{\lambda} \text{F}^{-1} \nabla_\theta \mathcal{L}(\theta) \\[8pt]$

因此，先不看 $\frac{1}{\lambda}$ （可以一起考虑吸收到learning rate部分），我们得到在分布空间中，最优的更新方向是 $-\text{F}^{-1} \nabla_\theta \mathcal{L}(\theta)$ 。（类比二阶优化方法的牛顿法，更新方向是 $-\text{H}^{-1} \nabla_\theta \mathcal{L}(\theta)$ ，非常类似吧）。

我们把Natural gradient 定义成： $\tilde{\nabla}_\theta \mathcal{L}(\theta) = \text{F}^{-1} \nabla_\theta \mathcal{L}(\theta)$ . 自然梯度下降算法的基本流程如下：（一般我们会采用batch模式的Empirical Fisher Matrix： $\text{F} = \frac{1}{N} \sum_{i=1}^{N} \nabla \log p(x_i \vert \theta) \, \nabla \log p(x_i \vert \theta)^{\text{T}}$ ）

与Adam关系的类比讨论

在数据量较少的非常简单的模型中，我们看到可以很容易地实现自然梯度下降。但众所周知，深度学习模型中的参数数目非常大，千万甚至亿级参数量模型很常见，即使一层都有上百万参数。这类模型的Fisher信息矩阵难以计算、存储、以及求逆。这和二阶优化方法在深度学习中不受欢迎的原因是一样的。

解决这个问题的一种方法是计算近似的Fisher/Hessian。像ADAM[5]这样的方法计算梯度的一阶和二阶moving average（m和v）。m是动量momentum，这里不讨论。而v可以看成是Fisher信息矩阵的近似——但将其约束为对角矩阵（协方差的对角线元素是梯度的平方）。因此，在ADAM中，我们只需要 $O (n)$ 空间来存储（F的近似值）而不是 $O(n^2)$ ，并且可以在 $O (n)$ 而不是 $O(n^3)$ 中进行求逆运算。在实践中，ADAM工作得非常好，是目前优化深层神经网络的基准优化方法。

OK，这一篇终于基本写好了，后面会继续这个话题，再记录一下如何加速自然梯度方法的工作，主要是比较知名的K-FAC算法。这篇可能还有一些关于自然梯度的引申讨论，过几天再补。参考[6][7]。TBD…

参考资料

[1] https://wiseodd.github.io/techblog/2018/03/11/fisher-information/
[2] https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/
[3] Martens, James. “New insights and perspectives on the natural gradient method.” arXiv preprint arXiv:1412.1193 (2014).
[4] Ly, Alexander, et al. “A tutorial on Fisher information.” Journal of Mathematical Psychology 80 (2017): 40-55
[5] ADAM A METHOD FOR STOCHASTIC OPTIMIZATION. 2015
[6] 多角度理解自然梯度，https://zhuanlan.zhihu.com/p/82934100
[7] 如何理解 natural gradient descent?，https://www.zhihu.com/question/266846405

【机器学习】机器学习四大分类藓类少女机器学习机器学习分类人工智能
机器学习的方法主要可以分为四大类，根据学习方式和数据标注情况进行分类：1.监督学习（SupervisedLearning）特点：有标注数据（即训练数据有明确的输入(X)和输出(Y)）。学习目标是找到一个映射(f(X)\approxY)。适用于分类和回归问题。主要算法：分类（Classification）：逻辑回归（LogisticRegression）支持向量机（SVM）朴素贝叶斯（NaïveBa
机器学习——KNN超参数练习AI两年半机器学习人工智能深度学习
sklearn.model_selection.GridSearchCV是scikit-learn中用于超参数调优的核心工具，通过结合交叉验证和网格搜索实现模型参数的自动化优化。以下是详细介绍：一、功能概述GridSearchCV在指定参数网格上穷举所有可能的超参数组合，通过交叉验证评估每组参数的性能，最终选择最优参数组合。其核心价值在于：自动化调参：替代手动参数调试，提升效率3。交叉验证支持：通
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
HarmonyOS Next 应用性能优化实战 SameX-4869 harmonyos 性能优化华为
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中应用性能优化的技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、性能评估指标与工具（一）关键性能评估指标CPU使用率CPU使用率是衡量应用在运行过程中对CPU资源占用情况的重要指标。一个高效的Ha
ARPG 游戏战斗系统设计详解小宝哥Code Unity引擎游戏
ARPG游戏战斗系统设计详解ARPG（ActionRole-PlayingGame，动作角色扮演游戏）的战斗系统需要兼顾操作性、打击感、技能组合、AI交互等多个方面。本指南将详细解析ARPG战斗系统的核心要素、设计思路与优化方案，适用于Unity、UE4及自研引擎开发。1.ARPG战斗系统的核心要素1.1战斗核心机制即时战斗（Real-TimeCombat）：无回合制，玩家实时控制角色进行攻击、闪
QHDBO基于量子计算和多策略融合的蜣螂优化算法算法小狂人算法改进智能优化算法量子计算算法
2.DBO基本的蜣螂算法通过模拟蜣螂在自然界中的四种行为（滚动、产卵、觅食和偷窃）来执行种群位置更新。2.1滚动蜣螂在自然界中，蜣螂必须通过太阳导航，使其球滚动的路线尽可能直线。方程(1)用于原始论文中更新滚动蜣螂的位置：xi(t+1)=xi(t)+α⋅k⋅xi(t−1)+b⋅Δx(1)x_i(t+1)=x_i(t)+\alpha\cdotk\cdotx_i(t-1)+b\cdot\Deltax\
精选2024年5款流程图软件，第一款强推 Firra流程图流程图
流程图绘制是现代化办公中必不可少的一部分，无论是用于团队协作、项目管理还是业务流程优化等，流程图都起到了最强辅助的作用。目前在线流程图工具是时下较为流行的绘制流程图方式。下面就为大家总结5款流程图软件的使用心得，也是在众多流程图软件中挑选出来的top5，可从中挑选一款最适合自己的进行使用哦。1.Firra在线流程图Firra是一款在线流程图工具，主打理念是轻便快捷，随时随地创作。Firra流程图的
A800核心加速技术深度剖析智能计算研究中心其他
内容概要作为第三代异构计算架构的典型代表，A800通过深度融合通用计算单元与专用加速模块，构建了高度灵活的资源调度体系。其核心突破在于将矩阵运算、并行任务分发与内存访问路径进行系统性重构，解决了传统架构中计算密度与能效失衡的行业痛点。通过实测数据显示，在典型AI训练场景下，A800相较于前代架构实现了3.2倍的吞吐量提升，同时单位功耗下的指令执行效率优化达47%。技术维度第二代架构A800架构提升
H200架构升级与实战解析智能计算研究中心其他
内容概要作为新一代高性能计算平台的核心载体，H200架构通过系统性硬件重构实现了计算性能的显著跃迁。本文将从芯片级设计革新出发，剖析其多维度升级路径：首先解读计算单元拓扑重组带来的并行效率提升，阐释内存子系统的带宽优化策略；继而拆解面向AI训练场景的混合精度加速机制，以及科学计算工作负载的动态资源调度方案。通过比对行业典型部署案例中的能效曲线与吞吐表现，系统化呈现H200在模型训练加速、大规模仿真
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
H800能效架构实战解析智能计算研究中心其他
内容概要H800能效架构以异构计算资源调度与动态功耗控制为核心，通过系统级协同设计实现算力密度与能耗优化的双重目标。其核心技术覆盖智能负载分配、电压频率动态调节及热管理三大模块，形成从芯片级到数据中心级的垂直优化链路。在架构设计中，异构资源调度算法通过实时分析任务特征与硬件状态，动态分配CPU、GPU及专用加速器资源，最大化硬件利用率；动态功耗模块则基于负载波动自适应调整供电策略，结合多级电压频率
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
算力网协同创新与多场景应用实践智能计算研究中心其他
内容概要算力网协同创新正通过技术融合与场景适配，驱动算力资源的高效整合与跨域调度。核心突破方向涵盖异构计算架构优化、边缘计算实时响应能力提升，以及智能算力在工业互联网、数字孪生等场景的动态供给。随着“东数西算”工程推进，算力网络需兼顾性能与可持续性，在芯片制程优化、模型压缩算法及能耗管理等领域形成技术闭环。技术方向应用场景关键指标异构计算架构工业检测任务延迟<10ms模型压缩算法医疗影像分析计算资
算力技术创新与多场景应用突破智能计算研究中心其他
内容概要算力技术创新正成为驱动数字经济发展的核心引擎，其演进路径呈现出多维度突破态势。从量子计算颠覆性架构到光子计算超高速特性，从异构计算资源动态整合到边缘计算实时响应机制，技术革新持续突破物理边界与能耗瓶颈。应用层面，工业互联网实时控制、元宇宙沉浸式交互、生物计算精准建模等场景对算力提出差异化需求，推动智能调度算法与能效管理体系的协同优化。与此同时，全国一体化算力网络建设加速芯片制程迭代、数据中
RTX 4090旗舰显卡效能实战剖析智能计算研究中心其他
内容概要作为NVIDIA新一代旗舰显卡，RTX4090凭借AdaLovelace架构的革新设计，在4K/8K分辨率下的游戏与创作场景中展现了突破性表现。本文将通过多维度实测数据，系统解析其核心性能：首先聚焦8K游戏帧率与光线追踪效果的实战表现，结合DLSS3.0技术的动态对比，揭示超分辨率技术对高负载场景的优化逻辑；随后深入探讨24GBGDDR6X显存在视频渲染与AI运算中的效率边界，同步验证显存
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
Java有哪些编程技巧？ java
Java编程技巧：提升效率与质量的实用指南在Java编程中，掌握一些高效的编程技巧不仅可以提高开发效率，还能提升代码的可读性、可维护性和性能。以下是一些实用的Java编程技巧，供开发者参考和应用。一、代码优化技巧（一）合理使用数据类型选择合适的数据类型：根据实际需求选择合适的数据类型。例如，如果只需要存储整数，且数值范围较小，可以使用int而不是long，以节省内存。使用包装类时需谨慎：Java的
Docker 数据持久化核心：挂载（Mounts）与卷（Volumes）的区别与选择指南 z2637305611 docker 容器运维
Docker容器默认是无状态的——这意味着容器停止后，其内部生成的数据也会随之消失。为了持久化保存数据或在容器间共享数据，Docker提供了两种主要机制：挂载（Mounts）和卷（Volumes）。理解它们的区别并正确使用，是优化Docker应用架构的重要一步。一、挂载（Mounts）1.什么是挂载？挂载（通常指BindMounts）允许将宿主机上的目录或文件直接映射到容器内部，提供了一种直接访问
重要重要！！fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵概率论线性代数 windows 微信机器学习
fisher矩阵是怎么计算和更新的，以及计算过程中参数的物理含义Fisher信息矩阵（FisherInformationMatrix,FIM）用于衡量模型参数估计的不确定性，其计算和更新在统计学、机器学习和优化中具有重要作用。以下是其计算和更新的关键步骤：一、Fisher矩阵的计算定义Fisher矩阵的元素表示对数似然函数关于参数的二阶导数的期望值的负数，即：Fi,j=−
DeepSeek R1 本地部署指南 (3) - 更换本地部署模型 Windows/macOS 通用 Eric Woo X 人工智能 AI DeepSeek macos windows deepseek ai
0.准备完成Windows或macOS安装：DeepSeekR1本地部署指南(1)-Windows本地部署-CSDN博客DeepSeekR1本地部署指南(2)-macOS本地部署-CSDN博客以下内容Windows和macOS命令执行相同：Windows管理员启动：命令提示符CMDmacOS启动：Terminal1.查看已安装模型ollamalist如图，已安装1.5b版本：ollamarunde
《MySQL 入门教程》第 30 篇数据库索引不剪发的Tony老师 MySQL入门教程 mysql 索引 create index drop index
文章目录30.1创建索引30.2查看索引30.3修改索引30.4删除索引数据库索引（Index）就像书籍后面的关键字索引，按照关键字进行排序，并且提供了指向具体内容的页码。索引可以用于提高数据库的查询性能；但是索引需要占用额外的磁盘空间，修改数据时也需要进行索引的维护。了解并适当利用索引对于数据库的优化至关重要，本篇我们介绍MySQL索引的管理。关于B-树索引的原理以及利用索引优化SQL语句的详细
「JavaScript深入」Socket.IO：基于 WebSocket 的实时通信库八了个戒 JavaScript系列面试宝典大前端 javascript websocket 开发语言前端
Socket.IOSocket.IO的核心特性Socket.IO的架构解析Socket.IO的工作流程Socket.IO示例：使用Node.js搭建实时聊天服务器1.安装Socket.IO2.服务器端代码（Node.js）3.客户端代码（HTML+JavaScript）4.房间功能高级功能实现1.命名空间2.中间件3.二进制传输性能优化策略1.负载均衡2.资源管理3.监控与调试安全与可靠性1.安全
并发安全的sync.Map 不7夜宵基础知识后端
对于并发读写map的情况下，map的数据会被写乱造成panic。Go语言原生map并不是线程安全的，因此对它进行并发读写操作时需要加锁。但是当操作频繁且要求性能的情况下，锁的优化已经无法满足业务需求，考虑到互联网应用通常是读多写少的场景，Golang的标准库提供了一个特殊的并发安全的map实现，为了与原生map区分，人们习惯性称为sync.map。一、sync.map与map的区别1.并发安全sy
Midscene.js自然语言驱动的网页自动化全指南 Hello.Reader 前端技术人工智能 javascript 自动化开发语言
一、概述网页自动化在数据抓取、UI测试和业务流程优化中发挥着重要作用。然而，传统工具如Selenium和Puppeteer要求用户具备编程技能，编写复杂的选择器和脚本维护成本高昂。Midscene.js通过自然语言接口革新了这一领域，用户只需描述任务（如“点击登录按钮”或“提取产品价格”），AI即可自动执行，大幅降低技术门槛。Midscene.js由web-infra-dev团队开发，开源于Git
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
SLAM十四讲【一】基本概念略知12 slam SLAM 三维重建单目
SLAM十四讲【一】基本概念SLAM十四讲【一】基本概念SLAM十四讲【二】三维空间刚体运动SLAM十四讲【三】李群与李代数SLAM十四讲【四】相机与图像SLAM十四讲【五】线性优化SLAM十四讲【六】视觉里程计SLAM十四讲【七】回环检测SLAM十四讲【八】建图文章目录SLAM十四讲【一】基本概念一、SLAM1.1SLAM1.2单目SLAM1.3双目SLAM和深度相机二、经典SLAM框架2.1视
华山论剑，大模型(deepseek qwq gemini)辩论人生意义 Lifeng66666666 语言模型语言模型人工智能
借助DeepDiscussion程序，通过让大模型(deepseekqwqgemini)讨论“人生意义是什么”这一挑战问题，我们得以客观观察目前这几种大模型的价值观，能力，不足。部分讨论过程：问题:人生的意义是什么？deepseek/deepseek-r1:free初始方案:针对“人生的意义是什么”这一终极问题，我的解决方案分为以下五个层次，融合东西方哲学智慧与实践心理学，并提供具体行动方向：一、
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc