mike112223

Batch Normalization详解

这几天重新看了BN，完成了翻译，也仔细的对里面一些自己感到疑惑的点，进行了查阅和思考，其中有一些个人见解，欢迎大家来讨论。
本文分两个部分，第一部分对BN进行一些基本讲解，第二部分讲其他的一些Normalization方法。

Batch Normalization

1 问题

首先我们要明白BN想要解决的问题是什么，参考原文我们发现，随着网络越来越深，训练深度网络变得很困难，收敛速度很慢。

1.1 原因

原文告诉我们是因为 Internal covariate shift （ICS）现象以及梯度弥散等问题。ICS，简言之就是网络中间层输入数据分布的不断变化，这样就导致网络后面层被迫去追随这种变化。

1.2 原来的方法

没有BN之前，网络也是要训练的，那么怎么保证收敛呢，原文提到，一是使用较小的学习率，二是对参数初始化进行精心设计。

1.3 BN的好处

自然有了BN之后，就能加快深度网络的训练，加快收敛。那BN的优势就在于。一，解决了（或者说减弱了）ICS现象；二，解决了梯度弥散；三，减小了对于学习率和初始化的依赖；四，引入了一定的泛化效果。

2 BN的思路

现在我们从问题出发，也就是我们知道现在网络收敛慢的原因了——ICS，那么我们如何来进行突破呢？从ICS的字面上，我们知道是因为中间层的输入数据分布的不断变化导致的。那么自然就想到固定每一层的输入数据分布，岂不是就可以了。那么问题又来了，如何固定呢，应该选择怎样的分布来进行固定呢？

2.1 数据白化（标准化）

做深度学习或机器学习的人们都知道，在训练之前，我们的数据都是要进行预处理的。要么做数据白化（使数据不同维度去相关，使数据每个维度的方差为1），让数据近似满足独立同分布的条件，或者退而求其次，做数据标准化（减去均值，除以方差），让数据满足近似的同分布。然后这样做了，就可以加快模型的收敛。

2.1.1 原因

那么为什么做了这样的数据预处理就可以加快收敛呢？请参考博主很早的博客feature scaling以及Efficient BackProp

2.2 子网络

这里我们引入子网络的概念，正常一个N层的网络，我们剥离开第1层，那么剩下的N-1层可以看成是一个新网络，它就是原来网络的一个子网络，那同理，剥离掉第1,2层，剩下的N-2层又是一个新的子网络。
结合2.1，我们知道了对输入数据做白化是能加快收敛的，那么对于子网络的输入数据做白化按理来说也是可以加快收敛的，以此类推。

我们结合2.1和2.2，是不是就回答了我们刚才的问题，那么BN的思路就是对每一层进行数据白化。

3 BN里面的简化处理

我们已经知道我们要怎么做了，可是真正做的时候遇到一些阻碍，需要进行简化处理，原文提到了两种简化处理。

3.1 标准化取代白化

做数据白化是很繁琐且计算量巨大的，因为涉及到协方差矩阵的运算，要求取所有特征之间的协方差，同时在反传的时候还要求取相应变换，这会随着特征的增多而指数性的增长，因此，我们退而求其次，进行简单的标准化处理。就像计算机视觉中，对于输入图像，我们往往进行简单的标准化处理，而非白化处理。

3.2 使用mini-batch统计信息来近似全局分布

既然要进行标准化处理，就涉及到对于每个特征的均值和方差的求取，原则上我们是希望使用全局的训练数据来统计均值和方差的，但是使用SGD的话，或者说mini-batch SGD的话，我们无法得到全局的信息（我们虽然有所有的训练数据，但是我们也只能求到输入层的均值和方差，我们无法得到中间层的均值和方差，因为它们是在随时变化的）。所以我们使用mini-batch来生成每个特征的均值和方差的估计。

4 BN公式

到这里，我们终于可以给出BN的公式了。

5 疑问

我第一次看到这个公式的时候，讲道理是一头雾水，前面顺下来都讲的通，你让我标准化，那我就给你标准化，然后你又告诉我要进行平移缩放，wat？仿佛在玩我的样子，这里自然就有海量疑问。

5.1 为什么要进行再次的缩放和平移？

对于这个地方，原文真的是一笔带过，虽然加入了斜体，但真真是轻描淡写，the transformation inserted in the network can represent the identity transform。也就是现在我们已经完成了标准化了，每一层的输入都被我们强行调整成了近似0均值，1方差。那么直观上来讲，就是我学了半天，你给我标准化了，我再学，你再标准化，我岂不是白学了。所以为了解决这个问题，需要进行缩放和平移，来以网络自己学习的方式来复原该层所学习到的东西，它可能是完全复原，也可能变成别的分布，这样就是所谓的恢复了模型的容量（capacity），恢复了网络的表达能力。

5.2 两次变换是否有用，是否会相互抵消，是否真的有效？

首先需要肯定的是，这两次变换肯定是有效的，毕竟BN已经被反复验证是work了的，个人觉得，这样看似矛盾的来去变换其本质是在进行参数更新的解耦，让各自层的参数尽量各自的学习，减少层之间的影响。这里从反传梯度的角度来看一下。

左图为我原始网络的其中两层，右图为在其间加入BN层，这里我将激活函数省略了。
ICS现象告诉我们，后面层会因为前面层的输出的不断变化而迫使自己不断的去学习这个新的分布，所以我们主要看 $W_2$ 的更新情况。
左图原始的参数更新：
$\frac{\partial \ell}{\partial W_2}=\frac{\partial \ell}{\partial z_2}\frac{\partial z_2}{\partial W_2}=\frac{\partial \ell}{\partial z_2}z_1\propto z_1$
右图：
$\frac{\partial \ell}{\partial W_2}=\frac{\partial \ell}{\partial z_2}\frac{\partial z_2}{\partial W_2}=\frac{\partial \ell}{\partial z_2}a_1\propto a_1 \\ a_1 = \gamma \widehat z_1+\beta \\ \frac{\partial \ell}{\partial \gamma}=\frac{\partial \ell}{\partial z_2}\frac{\partial z_2}{\partial a_1} \frac{\partial a_1}{\partial \gamma}=\frac{\partial \ell}{\partial z_2}W_2 \widehat z_1\propto W_2 \widehat z_1$

那么从反传的上下对比的话，我们可以明显的看出，新参数的学习形态与原参数完全不同了，不再与上一层的输出有着直接的关系，甚至说关系很小了。
也就是虽然再一次的平移变换，可能会完全复原以前的数据分布，但是在后续的梯度反传，参数更新的的时候，它们将朝着不同的方向更新了。也就所谓的我不会再根据你变化来变化了，我现在就自己在学习，在学习自己的分布。
那么我们再换一个角度来想，

对于每个BN层，我们将其与前面层分开，我们看该BN层与其后面网络层所组成的子网络，BN的前三步就是数据预处理的部分，BN的第四步只是单纯添加了一层网络层。那么其实就很像是在单独的训练一个网络，这样也同样印证了这个解耦操作，减弱了ICS。

6 Inference

前面的部分已经基本理清楚了BN的操作以及对一些疑问的解答，那么接下来我们考虑infer的时候是如何使用BN的，因为训练的时候用了BN，自然测试的时候也要使用。但是测试的时候，就会遇到问题，这个时候，我们没有mini-batch这个概念了，测试样例可能是一个个过来的，所以无法通过训练时候mini-batch的方法求得均值和方差。
这个时候网络已经训练完毕，理论上是希望使用全部训练数据来得到一个均值和方差来用于测试。这里依然是考虑到训练样本总数可能太过庞大，还有就是在训练的时候也希望能够跟踪我们模型的准确率，所以考虑在训练的时候使用滑动平均的方式来对均值和方差的无偏估计进行一个跟踪和保存，然后最后infer的时候，就使用这个保存的值。

7 BN的好处

1.3节我们提到了BN的优势和好处，一共有4点，前面其实我们只讲到了一点，减弱了ICS现象。本节，我们讲剩下的三点。

7.1 梯度弥散

原文讲到的是，BN能够使得带饱和激活的网络也能够收敛，我们知道sigmoid两侧是梯度饱和区，中间是线性区域，那标准化之后，自然特征的都移动到了线性区域，就没有了梯度弥散的问题，可以加快收敛。

7.2 减小对学习率和初始化的依赖

在没有BN的时候，我们要训练深度网络是无法使用很大的学习率的，这是因为太高的学习率会导致梯度的爆炸或者弥散，使得模型无法训练，使用了BN之后，防止参数的小的变化被放大，增加了训练对于参数尺度变化的韧性。下式就反映了这一点
$\begin{aligned} \frac{\partial \text{BN}((a W)\text u)}{\partial \text u}=\frac{\partial \text{BN}(W\text u)}{\partial \text u} \\ \frac{\partial \text{BN}((a W)\text u)}{\partial (aW)}=\frac{1}{a} \cdot \frac{\partial\text{BN}(W\text u)}{\partial W} \end{aligned}$
就算使用大的学习率，让参数的变化幅度增大，但是在梯度反穿的时候，这种类似缩放的尺度变化会被BN吃掉。甚至对于大参数的梯度还有抑制的作用，也就是越大的权重梯度越小，这就保证了所有参数的稳定训练。其实这里也同时说明了BN对于梯度弥散和梯度爆炸的抑制。

7.3 泛化效果

训练时，每个mini-batch的平移缩放过程使用的均值和方差都是基于该mini-batch来计算的，就算是同样的样本，在不同的mini-batch里，它的输出也是不一样的，这里就引入了噪声，自然引入了噪声就带入了泛化的效果。

8 CNN里的BN

对于d维数据，也就是d维向量，我们知道均值和方差是在每个特征维度上用mini-batch来进行统计的，如下图带框的部分，也就是特征维度的标准化，对不同样本的同一个特征进行平移缩放。

那对于CNN，我们要如何来做BN呢？这时我们的特征从 $(m, d)$ 变成了 $(N, C, H, W)$ ，如果直接照搬的话，就如下图，等同于将一个batch里的每张图片的对应通道的对应像素来进行标准化。但是很明显这种方法是不对的，因为每张图片的对应通道的对应像素并不代表一种特征，它们只是单纯的位于图像的同一个位置。

那么具体应该怎么做呢，按原文来说，通道才是我们的特征维度，所以我们一个batch的大小从 $N$ 变成了 $\times H \times W$ 。这样做其实才是符合我们对于卷积网络的假设的，因为图像具有局部相关性，所以我们使用卷积的方式来提取一个patch的局部特征，而每个通道的特征图是使用同一个卷积核卷积出来的，自然就是同一种特征了（比如都是提取横向的edge），那这样的话，就可以对其进行标准化。

其他 Normalization

接下来我们讲解一下其他的Normalization。先放出这张图，能够很大程度上，帮助理解接下来的几种不同的normalization。

Layer Normalization

BN是需要对输入数据求取滑动平均的。对于拥有固定深度的网络来说，可以直接对每个隐藏层的滑动平均数据进行存储。但是对于RNN来说，网络的深度是变化的，如果使用BN的话，就需要存储不同时间步不同层的统计数据，这听起来似乎就不是很直观，且还有点复杂了。为此，引入LN直接对每一层的每个样本进行标准化，不再需要引入训练样本间的依赖性了，也不需要存储任何信息。

适用于需要使用递归神经网络的场景，对于视觉任务如果用LN取代BN，效果会变差，这是因为这并不符合CNN的假设，CNN每个通道的特征是学习出来的，相对独立的，将每个样本的所有通道联合起来进行标准化，就等同于把学习到的特征都抹去了，所以效果会变差。

Instance Normalization

IN直观上来讲就是对每张图像的每个通道进行标准化，这实际上就是对每张图像进行亮度和对比度的调整，经过标准化后，就相当于去除掉了图像的亮度和对比度信息。

目前，IN一般应用于图像风格转换任务，在该任务中，我们要将风格图像的风格（颜色、纹理等）与内容图像的内容相结合，那么我们就希望内容图像的风格不要影响到风格图像，所以IN应运而生，也确实与任务的需求相吻合。

Group Normalization

目前计算机视觉中很多任务（检测，分割，视频等）由于存储限制，只能使用很小的batch进行训练，而BN随着batch越来越小，效果是越来越差的。这是因为越小的batch，其统计的均值和方差就越不准确。由此引入GN，和LN，IN一样，要独立于batch的维度来进行normalization。

GN的核心思想就是引入group的概念，将channel划分成不同的group，在group内求均值和方差。如果group为1，那么GN就等同于LN。同理group等于通道数的话，那么GN等于IN。

LN和IN在视觉任务中效果并不好，但是GN效果不错，由此可见group的设定很重要。它也符合我们对于CNN的假设，深度网络每层的通道数是很多的，尤其到了网络的深层。可以想象这么多特征，特征与特征之间其实是有一定的微妙关系的，有些很相关，其特征分布很相似，有些就大相径庭。group的想法，其实就类似于特征聚类，让网络通过学习将相似相关的特征集中学习到一个group里，然后进行标准化，很合情合理。

这里其实顺理成章的就想到了BN和GN的结合，它们对于CNN的假设都是友好的，合理的，如果能将两者结合，是不是会效果更好呢？博主没有做过相关实验，就说到这儿了。

时间序列预测综述 Super_Whw 时序预测
文章目录非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2seq(attention_based_model)2.Facebook-prophet，类似于STL分解思路3.深度学习网络，结合CNN+RNN+Attention，作用各不相同互相配合参考：非周期时间序列预测1.转化为监督学习数据集，使用xgboot/LSTM模型/时间卷积网络/seq2s
IGModel——提高基于 GNN与Attention 机制的方法在药物发现中的实用性 Jackie_AI 计算机视觉 stable diffusion 自然语言处理语言模型 Imagen
IGModel——提高基于GNN与Attention机制的方法在药物发现中的实用性导言深度学习在药物发现（发现治疗药物）领域的应用以及传统方法面临的挑战。药物（尤其是我们将在本文中讨论的被称为抑制剂的药物）通过与在人体中发挥不良功能的蛋白质结合并改变这些蛋白质的功能来发挥治疗效果。因此，在设计药物时，必须优化这些结合的亲和力和药理特性，并准确预测蛋白质与药物之间的相互作用。近年来，人们尤其提倡使用
如何有效控制 KV 缓存的内存占用，优化推理速度？ m0_70960708 笔记缓存
使用KV缓存技术的目的是在生成过程中计算过去tokens的键和值张量时，将这些张量存储（“缓存”）在GPU内存中，从而避免在每个生成步骤中重新计算这些tokens的键和值张量。KV缓存是一种妥协：我们以内存的消耗换取计算量的减少。在这篇文章中，我们将了解KV缓存的容量有多大、会带来哪些挑战，以及面对这些挑战最常用的应对策略是什么。01KV缓存的容量有多大？这相当简单：对于每个batch中每个序列的
Pytorch 自学笔记（三）：利用自定义文本数据集构建Dataset和DataLoader JimmyTotoro Pytorch 自学笔记 pytorch 笔记人工智能
Pytorch自学笔记（三）1.Dataset与DataLoader1.1torch.utils.data.Dataset1.2torch.utils.data.DataLoaderPytorch自学笔记系列的第三篇。针对Pytorch的Dataset和DataLoader进行简单的介绍，同时，介绍如何使用自定义文本数据集构建Dataset和DataLoader，以实现数据集的随机采样与batch
基于YOLOv5、YOLOv8和YOLOv10的机场安检行李检测：深度学习应用与实现 2025年数学建模美赛 YOLO 深度学习人工智能目标跟踪目标检测
引言随着全球航空运输业的持续增长，机场的安全性变得越来越重要。机场安检作为航空安全的重要组成部分，主要负责对乘客和行李进行检查，防止危险物品进入机场或飞行器。传统的安检方式多依赖人工检查，效率低下且容易出错。因此，基于深度学习的自动化行李检测系统应运而生，通过计算机视觉技术，自动识别和分类行李中的物品，大大提高了安检的效率与准确性。YOLO（YouOnlyLookOnce）系列算法，由于其高效的目
深入理解GPT底层原理--从n-gram到RNN到LSTM/GRU到Transformer/GPT的进化网络安全研发随想 rnn gpt lstm
从简单的RNN到复杂的LSTM/GRU,再到引入注意力机制,研究者们一直在努力解决序列建模的核心问题。每一步的进展都为下一步的突破奠定了基础,最终孕育出了革命性的Transformer架构和GPT大模型。1.从n-gram到循环神经网络(RNN)的诞生1.1N-gram模型在深度学习兴起之前,处理序列数据主要依靠统计方法,如n-gram模型。N-gram是一种基于统计的语言模型,它的核心思想是:一
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
transformer模型代码地瓜不是呱学习笔记 transformer 深度学习 pytorch
importnumpyasnpimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportmatplotlib.pyplotaspltimportmathdefmake_batch(sentences):input_batch=[[src_vocab[n]forninsentences[0].split()]]output_batch=[[
从SSL到TLS——互联网传输的护卫军创意锦囊 ssl 网络安全
在这个信息化高度发展的时代，我们每天都在不知不觉中接触到大量的网络传输协议，但大多数人对于这些协议背后的技术并不清楚。TLS（TransportLayerSecurity）就是这样一种守护网络传输安全的技术，悄然为我们保驾护航。TLS的前身是SSL（SecureSocketsLayer），如今已发展成互联网传输协议的基石。今天，我们就来聊聊TLS的发展历程，从SSL到TLS，它是如何一步步成为互联
C#远程获取标签方案，减少测试等人员重复配置或复制标签的功能：一次配置，终身使用小黄人软件 c#java android
减少测试等人员重复配置或复制标签的功能：一次配置，终身使用【开发人员】放标签到远程并手工配置好【使用人员】只需选择型号和group，点从远程获取，所有标签与pdf自动从远程复制到本地。(比如F20标准版)远程获取标签方案用C#写一个程序:读取config.ini文件里的Model和TEMPLATE_GROUP，在label.ini文件中读取[Model@TEMPLATE_GROUP]下所有key-
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
思考（八十五）：IM 服务设计思路 fananchong2 Go游戏服务器开发的一些思考 IM 服务架构设计聊天服后端
IM服务器IM服务器，在游戏开发中，俗称聊天服一般有内嵌在游戏服架构内，与外置于游戏服架构外外置于游戏服架构外的聊天服，通常就是完整的IM服务器设计目标消息可靠，不丢失无状态，易扩展高性能服务类型介绍设计以下服务：服务类型说明Gateway网关，保持玩家连接APIAPI服，HTTPWeb服务，处理除聊天流程外的逻辑，如注册账号、鉴权、好友管理、群组管理等等Single单聊消息处理服务Group群组
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
Android Rxjava3 使用场景 2401_89760309 android
Observable>>hotKey=ApiManager.getInstance().getApiService().getHotKey();Observable.just(articleList).subscribeOn(Schedulers.io()).observeOn(AndroidSchedulers.mainThread()).map(newFunction,Observable>>
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能 tensorflow python
深入解析如何进行TensorFlow框架下的算子开发与适配插件开发：基于昇腾AI的完整流程在人工智能领域中，算子（Operator）作为深度学习模型的基础执行单元，决定了整个模型的计算性能和结果准确性。随着硬件平台的多样化，如何将第三方深度学习框架中的算子适配到特定的硬件平台变得至关重要。本文将深入探讨如何在TensorFlow框架下开发适配昇腾AI处理器的算子插件，通过解析算子属性映射、数据排布
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析框架适配开发：基于CANN平台的自定义算子开发与第三方框架适配全流程详解随着深度学习的发展，不同的深度学习框架如TensorFlow、PyTorch、ONNX等在AI开发者社区中占据了重要地位。然而，针对某些硬件平台（如华为昇腾AI处理器），算子库中的算子并非都已经适配了所有主流框架。为了解决这一问题，框架适配开发应运而生，它允许开发者将已存在于算子库中的算子适配到其他未支持的第三方框架上
深入解析CANN算子开发：TBE与AI CPU算子类型及其开发方法全指南快撑死的鱼华为昇腾 Ascend C的算子开发系统学习人工智能
深入解析CANN算子开发：TBE与AICPU算子类型及其开发方法全指南在现代AI计算领域中，高效的算子开发对于优化深度学习模型的推理与训练至关重要。CANN（ComputeArchitectureforNeuralNetworks）作为华为AscendAI处理器的开发平台，提供了两种类型的算子开发支持：TBE算子和AICPU算子。每种算子类型针对不同的计算任务和硬件架构，开发者需要根据具体场景选择
深度学习-90-大型语言模型LLM之基于LM Studio本地化部署运行自己的大模型皮皮冰燃深度学习深度学习语言模型人工智能
文章目录1LMStudio1.1LMStudio的优点1.2LMStudio的安装1.3配置国内下载模型2LMStudio的应用2.1查找/下载模型2.2模型名称的含义2.3查看已经下载的模型2.4使用聊天3配置服务端3.1启动服务3.2支持的接口3.2.1列出当前加载的模型/v1/models3.2.2聊天补全/v1/chat/completions3.2.3文本补全/v1/completion
Oracle体系架构 MySQL冲冲冲 oracle 架构数据库
目录1.什么是oracle数据库？2.什么是oracle实例？3.存储结构4.进程结构5.内存结构6.管理数据库实例1.什么是oracle数据库？——存储在硬盘上的文件-这些文件可以看作是物理存储结构目录：/u01/app/oracle/oradata/orcl下，.ctl.dbf.log文件2.什么是oracle实例？——把数据库中的文件读入到内存中，把内存中的镜像叫实例（instance）所以
Hive SQL 分组与连接操作详解大数据深度洞察 Hive 数据库 hive 大数据数据仓库 sql
目录分组GroupBy语句1.案例实操Having语句1.having与where不同点2.案例实操Join语句等值Join1.案例实操表的别名1.好处2.案例实操内连接左外连接右外连接满外连接多表连接1.创建位置表2.导入数据3.多表连接查询笛卡尔集1.笛卡尔集会在下面条件下产生2.案例实操联合（union&unionall）1.union&unionall上下拼接2.案例实操分组GroupBy
docker设置开机自启操作 docker
一：开启自启服务文件配置1：docker.socketsudotee/usr/lib/systemd/system/docker.socket<
AI 代理碎片化格局下，哪些具体赛道及项目值得关注人工智能
作者：Techub精选编译撰文：0xJeff，曾就职于TheSpartanGroup编译：Yangz，TechubNews在L1和L2的扩张超出我们两只手就能数清的范围时，流动性碎片化在去年成为了一大挑战。随后，比特币L2的加入，使得局面更加复杂。在无数生态中，流动性、关注度和用户体验变得支离破碎。这些生态中的许多L2和DApp都缺乏具有实际意义的「抓手」，资本只流向了少数几个有着杰出社区、优秀产
go语言两个协程goroutine交替打印1-100 Cider瞳读研的日常拾光 golang 开发语言后端 go 面试算法
go语言两个协程goroutine交替打印1-100该程序使用了sync.WaitGroup来协调两个goroutine的执行。首先创建了两个无缓冲的通道ch1和ch2，并将WaitGroup的计数器设置为2，表示需要等待两个goroutine完成。第一个goroutine从1开始，每次加2生成奇数，将奇数发送到ch1并打印，然后等待从ch2接收数据，接收数据后继续下一次迭代，当完成1到100的奇
prometheus（二）——数据模型、数据模块、表达式浏览器姜姜是美女 Prometheus 数据挖掘人工智能
文章目录一、prometheus数据模型1.概述2.指标类型3.作业job和实例targets/instance4.prometheusQL（数据查询语言也是时序数据库使用语言)二、prometheus数据模块三、表达式浏览器(promQL过滤使用)四、部署servicediscovery服务发现1.Prometheus指标抓取的生命周期2.prometheus服务发现机制3.静态配置发现4.动态
中科曙光C/C++研发工程师二面 TrustZone_ ARM/Linux嵌入式面试 c语言 c++开发语言
自我介绍；针对项目：CNN模型、损失函数、评价指标、改进方向、计算加速；CNN模型CNN，即卷积神经网络，是一种专门用于处理具有类似网格结构数据的深度学习模型。它通过卷积层和池化层提取图像特征，并通过全连接层进行分类或回归预测。CNN在图像识别、目标检测和图像生成等领域取得了巨大成功。具体来说，CNN的模型结构包括输入层、卷积层、激活函数、池化层、全连接层和输出层。输入层接收图像数据，并将其转换为
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts