happynear

《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》阅读笔记与实现

　　今年过年之前，MSRA和Google相继在ImagenNet图像识别数据集上报告他们的效果超越了人类水平，下面将分两期介绍两者的算法细节。

　　这次先讲Google的这篇《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》，主要是因为这里面的思想比较有普适性，而且一直答应群里的人写一个有关预处理的科普，但一直没抽出时间来写。

一、神经网络中的权重初始化与预处理方法的关系

如果做过dnn的实验，大家可能会发现在对数据进行预处理，例如白化或者zscore，甚至是简单的减均值操作都是可以加速收敛的，例如下图所示的一个简单的例子：

　　图中红点代表2维的数据点，由于图像数据的每一维一般都是0-255之间的数字，因此数据点只会落在第一象限，而且图像数据具有很强的相关性，比如第一个灰度值为30，比较黑，那它旁边的一个像素值一般不会超过100，否则给人的感觉就像噪声一样。由于强相关性，数据点仅会落在第一象限的很小的区域中，形成类似上图所示的狭长分布。

　　而神经网络模型在初始化的时候，权重W是随机采样生成的，一个常见的神经元表示为：ReLU(Wx+b) = max(Wx+b,0)，即在Wx+b=0的两侧，对数据采用不同的操作方法。具体到ReLU就是一侧收缩，一侧保持不变。

　　随机的Wx+b=0表现为上图中的随机虚线，注意到，两条绿色虚线实际上并没有什么意义，在使用梯度下降时，可能需要很多次迭代才会使这些虚线对数据点进行有效的分割，就像紫色虚线那样，这势必会带来求解速率变慢的问题。更何况，我们这只是个二维的演示，数据占据四个象限中的一个，如果是几百、几千、上万维呢？而且数据在第一象限中也只是占了很小的一部分区域而已，可想而知不对数据进行预处理带来了多少运算资源的浪费，而且大量的数据外分割面在迭代时很可能会在刚进入数据中时就遇到了一个局部最优，导致overfit的问题。

　　这时，如果我们将数据减去其均值，数据点就不再只分布在第一象限，这时一个随机分界面落入数据分布的概率增加了多少呢？2^n倍！如果我们使用去除相关性的算法，例如PCA和ZCA白化，数据不再是一个狭长的分布，随机分界面有效的概率就又大大增加了。

　　不过计算协方差矩阵的特征值太耗时也太耗空间，我们一般最多只用到z-score处理，即每一维度减去自身均值，再除以自身标准差，这样能使数据点在每维上具有相似的宽度，可以起到一定的增大数据分布范围，进而使更多随机分界面有意义的作用。

二、Batch Normalization

　　上一节我们讲到对输入数据进行预处理，减均值->zscore->白化可以逐级提升随机初始化的权重对数据分割的有效性，还可以降低overfit的可能性。我们都知道，现在的神经网络的层数都是很深的，如果我们对每一层的数据都进行处理，训练时间和overfit程度是否可以降低呢？Google的这篇论文给出了答案。

1、算法描述

　　按照第一章的理论，应当在每一层的激活函数之后，例如ReLU=max(Wx+b,0)之后，对数据进行归一化。然而，文章中说这样做在训练初期，分界面还在剧烈变化时，计算出的参数不稳定，所以退而求其次，在Wx+b之后进行归一化。因为初始的W是从标准高斯分布中采样得到的，而W中元素的数量远大于x，Wx+b每维的均值本身就接近0、方差接近1，所以在Wx+b后使用Batch Normalization能得到更稳定的结果。

文中使用了类似z-score的归一化方式：每一维度减去自身均值，再除以自身标准差，由于使用的是随机梯度下降法，这些均值和方差也只能在当前迭代的batch中计算，故作者给这个算法命名为Batch Normalization。这里有一点需要注意，像卷积层这样具有权值共享的层，Wx+b的均值和方差是对整张map求得的，在batch_size * channel * height * width这么大的一层中，对总共batch_size*height*width个像素点统计得到一个均值和一个标准差，共得到channel组参数。

　　在Normalization完成后，Google的研究员仍对数值稳定性不放心，又加入了两个参数gamma和beta，使得

注意到，如果我们令gamma等于之前求得的标准差，beta等于之前求得的均值，则这个变换就又将数据还原回去了。在他们的模型中，这两个参数与每层的W和b一样，是需要迭代求解的。文章中举了个例子，在sigmoid激活函数的中间部分，函数近似于一个线性函数（如下图所示），使用BN后会使归一化后的数据仅使用这一段线性的部分（吐槽一下：再乘个2之类的不就行了）。

可以看到，在[0.2, 0.8]范围内，sigmoid函数基本呈线性递增，甚至在[0.1, 0.9]范围内，sigmoid函数都是类似于线性函数的，如果只用这一段，那网络不就成了线性网络了么，这显然不是大家愿意见到的。至于这两个参数对ReLU起的作用文中没说，我就不妄自揣摩了哈。

算法原理到这差不多就讲完了，下面是大家最不喜欢的公式环节了，求均值和方差就不用说了，在BP的时候，我们需要求最终的损失函数对gamma和beta两个参数的导数，还要求损失函数对Wx+b中的x的导数，以便使误差继续向后传播。求导公式如下：

　　具体的公式推导就不写了，有兴趣的读者可以自己推一下，主要用到了链式法则。

　　在训练的最后一个epoch时，要对这一epoch所有的训练样本的均值和标准差进行统计，这样在一张测试图片进来时，使用训练样本中的标准差的期望和均值的期望（好绕口）对测试数据进行归一化，注意这里标准差使用的期望是其无偏估计：

2、算法优势

　　论文中将Batch Normalization的作用说得突破天际，好似一下解决了所有问题，下面就来一一列举一下：

　　(1) 可以使用更高的学习率。如果每层的scale不一致，实际上每层需要的学习率是不一样的，同一层不同维度的scale往往也需要不同大小的学习率，通常需要使用最小的那个学习率才能保证损失函数有效下降，Batch Normalization将每层、每维的scale保持一致，那么我们就可以直接使用较高的学习率进行优化。

　　(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重就已经落在数据内部，overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型，与之前的40%-50%相比，可以大大提高训练速度。

　　(3) 降低L2权重衰减系数。还是一样的问题，边界处的局部最优往往有几维的权重（斜率）较大，使用L2衰减可以缓解这一问题，现在用了Batch Normalization，就可以把这个值降低了，论文中降低为原来的5倍。

　　(4) 取消Local Response Normalization层。由于使用了一种Normalization，再使用LRN就显得没那么必要了。而且LRN实际上也没那么work。

　　(5) 减少图像扭曲的使用。由于现在训练epoch数降低，所以要对输入数据少做一些扭曲，让神经网络多看看真实的数据。

三、实验

　　这里我只在matlab上面对算法进行了仿真，修改了DeepLearnToolbox 里面的NN模型，代码如下：

　　在前向传播时，分两种情况进行讨论：如果是在train过程，就使用当前batch的数据统计均值和标准差，并按照第二章所述公式对Wx+b进行归一化，之后再乘上gamma，加上beta得到Batch Normalization层的输出；如果在进行test过程，则使用记录下的均值和标准差，还有之前训练好的gamma和beta计算得到结果

if nn.testing
    nn.a_pre{i} = nn.a{i - 1} * nn.W{i - 1}';
    norm_factor = nn.gamma{i-1}./sqrt(nn.mean_sigma2{i-1}+nn.epsilon);
    nn.a_hat{i} = bsxfun(@times, nn.a_pre{i}, norm_factor);
    nn.a_hat{i} = bsxfun(@plus, nn.a_hat{i}, nn.beta{i-1} -  norm_factor .* nn.mean_mu{i-1});
else
    nn.a_pre{i} = nn.a{i - 1} * nn.W{i - 1}';
    nn.mu{i-1} = mean(nn.a_pre{i});
    x_mu = bsxfun(@minus,nn.a_pre{i},nn.mu{i-1});
    nn.sigma2{i-1} = mean(x_mu.^2);
    norm_factor = nn.gamma{i-1}./sqrt(nn.sigma2{i-1}+nn.epsilon);
    nn.a_hat{i} = bsxfun(@times, nn.a_pre{i}, norm_factor);
    nn.a_hat{i} = bsxfun(@plus, nn.a_hat{i}, nn.beta{i-1} -  norm_factor .* nn.mu{i-1});
end;

　　反向传播就跟上面那一堆公式一样啦，注意为了运行效率，尽量使用向量化的代码，避免使用for循环：

d_xhat = bsxfun(@times, d{i}(:,2:end), nn.gamma{i-1});
x_mu = bsxfun(@minus, nn.a_pre{i}, nn.mu{i-1});
inv_sqrt_sigma = 1 ./ sqrt(nn.sigma2{i-1} + nn.epsilon);
d_sigma2 = -0.5 * sum(d_xhat .* x_mu) .* inv_sqrt_sigma.^3;
d_mu = bsxfun(@times, d_xhat, inv_sqrt_sigma);
d_mu = -1 * sum(d_mu) -2 .* d_sigma2 .* mean(x_mu);
d_gamma = mean(d{i}(:,2:end) .* nn.a_hat{i});
d_beta = mean(d{i}(:,2:end));
di1 = bsxfun(@times,d_xhat,inv_sqrt_sigma);
di2 = 2/m * bsxfun(@times, d_sigma2,x_mu);
d{i}(:,2:end) = di1 + di2 + 1/m * repmat(d_mu,m,1);

　　在训练的最后一个epoch，要对所有的gamma和beta进行统计，代码很简单就不贴了，完整代码在我的Github上有：https://github.com/happynear/DeepLearnToolbox

1、sigmoid激活函数的过饱和问题

　　经测试发现算法对sigmoid激活函数的提升非常明显，解决了困扰学术界十几年的sigmoid过饱和的问题，即在深层的神经网络中，前几层在梯度下降时得到的梯度过低，导致深层神经网络变成了前边是随机变换，只在最后几层才是真正在做分类的问题。
　　下面是使用一个10个隐藏层的nn网络，对mnist进行分类，每层的梯度值：

　　使用Batch Normalization前：

epoch:1 iteration:10/300
 3.23e-07 8.3215e-07 3.3605e-06 1.5193e-05 6.4892e-05 0.00027249 0.0011954 0.006295 0.029835 0.12476 0.38948
epoch:1 iteration:20/300
 4.4649e-07 1.3282e-06 5.6753e-06 2.5294e-05 0.00010326 0.00043651 0.0019583 0.0096396 0.040469 0.16142 0.5235
epoch:1 iteration:30/300
 4.6973e-07 1.2993e-06 5.3923e-06 2.3111e-05 9.4839e-05 0.00040398 0.0017893 0.0081367 0.037543 0.1544 0.46472
epoch:1 iteration:40/300
 4.6986e-07 1.3801e-06 5.677e-06 2.4355e-05 0.00010245 0.00041999 0.0019832 0.0095022 0.043719 0.17696 0.56134
epoch:1 iteration:50/300
 4.6964e-07 1.6532e-06 7.2543e-06 3.0731e-05 0.00011805 0.00048795 0.0021705 0.0099466 0.042835 0.17993 0.5319

　　可以看到，最开始的几层只有1e-6到1e-7这个量级的梯度，基本上梯度在最后3层就已经饱和了。

　　使用Batch Normalization后：

epoch:1 iteration:10/300
 0.27121 0.15534 0.15116 0.15409 0.15515 0.14542 0.12878 0.13888 0.16607 0.21036 0.76037
epoch:1 iteration:20/300
 0.24567 0.15369 0.14169 0.13183 0.1278 0.13904 0.13546 0.12032 0.14332 0.14868 0.54481
epoch:1 iteration:30/300
 0.30403 0.16365 0.14119 0.14502 0.13916 0.12851 0.11781 0.11424 0.11082 0.1088 0.39574
epoch:1 iteration:40/300
 0.32681 0.19801 0.16792 0.14741 0.13294 0.12805 0.13754 0.12941 0.13288 0.12957 0.50937
epoch:1 iteration:50/300
 0.32358 0.17484 0.16367 0.16605 0.17118 0.14703 0.14458 0.12693 0.13928 0.11938 0.3692

　　我第一次看到的时候，就像之前看到ReLU一样惊艳，终于，sigmoid的饱和问题也得到了解决。不过论文中还有我自己的实验都表明，sigmoid在分类问题上确实没有ReLU好用，真的是蛮遗憾的。

2、gamma和beta的作用

　　在第二章提到，引入gamma和beta两个参数是为了避免数据只用sigmoid的线性部分，这里做了个简单的测试，将用和不用gamma与beta参数训练出的网络的最大/最小激活值显示出来：

《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》阅读笔记与实现_第4张图片

　　可以看到，如果不使用gamma和beta，激活值基本上会在[0.1 0.9]这个近似线性的区域中，这与深度神经网络所要求的“多层非线性函数逼近任意函数”的要求不符，所以引入gamma和beta还是有必要的，深度网络会自动决定使用哪一段函数（这是我自己想的，其具体作用欢迎讨论）。

　　对于ReLU来说，gamma的作用可能不是很明显，因为relu是分段”线性“的，对数值进行伸缩并不能影响relu取x还是取0。但beta的作用就很大了，试想一下如果没有beta，经过batch normalization层的特征，都具有0均值的期望，这样岂不是强制令ReLU的输出有一半是0一半非0么？这与我们的初衷不太相符，我们希望神经网络自行决定在什么位置去设定这个阈值，而不是增加一个如此强的限制。另外，因为这个beta我曾经还闹了个大笑话，记录在http://blog.csdn.net/happynear/article/details/46583811，请大家引以为戒。

四、总结

　　Batch Normalization的加速作用体现在两个方面：一是归一化了每层和每维度的scale，所以可以整体使用一个较高的学习率，而不必像以前那样迁就小scale的维度；二是归一化后使得更多的权重分界面落在了数据中，降低了overfit的可能性，因此一些防止overfit但会降低速度的方法，例如dropout和权重衰减就可以不使用或者降低其权重。

　　截止到目前，还没有哪个机构宣布重现了论文中的结果，不过归一化的用处在理论层面就已经有了保证，以后也许归一化的形式会有所改变，但逐层的归一化应该会成为一种标准。本博客文章仅仅给出了归一化优点的几何解释，希望有更多的理论解释来指导我们使用归一化层。

　　就目前来看，争议的重点在于归一化的位置，还有gamma与beta参数的引入，从理论上分析，论文中的这两个细节实际上并不符合ReLU的特性：ReLU后，数据分布重新回到第一象限，这时是最应当进行归一化的；gamma与beta对sigmoid函数确实能起到一定的作用（实际也不如固定gamma=2），但对于ReLU这种分段线性的激活函数，并不存在sigmoid的低scale呈线性的现象。期待更多的理论分析，我自己也会持续跟进这个方向。

五、一些资源

本文所用到的matlab代码：https://github.com/happynear/DeepLearnToolbox

Caffe的BN实现：https://github.com/ducha-aiki/caffe/tree/bn

cxxnet的BN实现：https://github.com/antinucleon/cxxnet

2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载拓端研究室百度人工智能
原文链接：https://tecdat.cn/?p=40348在当今快速发展的商业环境中，采购和供应链管理领域正经历着深刻变革，人工智能（AI）技术的融入成为推动这一变革的关键力量。本报告汇总解读聚焦于AI在采购和供应链管理中的应用，深入剖析其发展现状、面临挑战与潜在机遇。通过对大量数据的分析，揭示AI技术在实际应用中的具体表现，如不同行业的采用比例、应用场景等。本报告汇总洞察基于文末135份供应
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
TOGAF（ADM的每个阶段及其落地实施的措施） AGI-杠哥学习路线兼职副业 AGI langchain 人工智能 microsoft
TOGAF的架构开发方法（ADM,ArchitectureDevelopmentMethod）是其核心组成部分，提供了一个详细的、迭代的架构开发过程，涵盖从架构规划、设计、实施到治理的各个阶段。ADM为企业架构师提供了一个系统化的架构开发框架，帮助企业确保其业务目标与IT系统之间的对齐。下面将逐步介绍TOGAFADM的每个阶段及其落地实施的措施和工具。TOGAFADM的整体结构ADM是一个循环过程
【TOGAF系列】架构开发方法（ADF）第四章东临碣石82 架构
4.1目标B阶段的目标是：制定目标业务架构，描述企业需要如何运营以实现业务目标，并以解决架构工作声明和利益相关者关切的方式响应架构愿景中规定的战略驱动因素根据基线和目标业务架构之间的差距确定候选架构路线图组件4.2输入本节定义了阶段B的输入。4.2.1企业外部参考资料■架构参考资料（见TOGAF标准——架构内容）4.2.2非架构输入■架构工作请求（见TOGAF标准——架构内容）■业务原则、业务目标
CSS中相对定位使用详情 ~废弃回忆 �༄ HTML css 前端 CSS中相对定位使用详情
1.如何设置相对定位?给元素设置postition:relative即可实现相对定位.可以使用left,right,top,bottom四个属性调整位置.2.相对定位的参考点在哪里?相对于自己原来的位置3.相对定位的特点:1.不会脱离文档流,元素位置的变化,只是视觉效果上的变化,不会对其他元素产生任何影响.2.定位元素的显示层级比普通元素高,无论什么定位,显示层级都是一样的.默认规则是:定位的元素
DeepSeek 与其他 AI 模型的对比：优势与特色分析 CarlowZJ 人工智能 DeepSeek
一、引言在众多AI模型中，DeepSeek凭借其独特的功能和优势脱颖而出。本文将对比DeepSeek与其他流行的AI模型，分析它的优势与特色。二、与GPT系列的对比功能多样性：DeepSeek不仅支持文本生成，还支持代码生成和对话交互。多模态能力：DeepSeek支持多种输入和输出形式，如图像和语音。行业适配性：DeepSeek提供了针对不同行业的优化方案。三、与BERT系列的对比生成能力：Dee
DeepSeek 面试题精选 CarlowZJ DeepSeek
以下是针对DeepSeek面试的精选问题及解答，涵盖技术原理、模型架构、训练方法和应用场景等方面，供面试准备参考：一、DeepSeek模型架构与技术原理1.请简述DeepSeek-V3模型的总体架构和主要创新点。架构：DeepSeek-V3基于混合专家系统（MoE）架构，包含2048个领域专家模型，通过门控网络动态分配查询请求。创新点：使用多头潜在注意力（MLA）技术，通过低秩压缩降低KV缓存需求
spring 的model repository service controller的功能 LCY133 web开发 spring java 后端
1.Controller层（控制层）•功能：负责接收和处理HTTP请求，协调客户端与业务逻辑之间的交互。•核心职责：•请求处理：解析HTTP请求参数（如URL参数、Body数据、Headers）。•路由分发：根据请求路径（@RequestMapping）调用对应的Service方法。•响应生成：返回格式化数据（如JSON、XML）或视图（如HTML页面）。•输入校验：验证请求参数的合法性（如使用@
RY9121 17V 2A 500KHz ECOT PWM Sync Step-Down Regulator BTSS2013 同步降压调节器
1、FeaturesWide4.5Vto17VOperatingInputRange110mΩ/70mΩLowRDs(oN)InternalPower2AContinuousOutputCurrentMOSFETS500KHzSwitchingFrequencyOutputAdjustablefrom0.6VECOTModeControlwithFastTransientNoSchottkyDio
Web组态可视化编辑器快速绘制组态 2401_88272797 前端编辑器
随着工业智能制造的发展，工业企业对设备可视化、远程运维的需求日趋强烈，传统的单机版组态软件已经不能满足越来越复杂的控制需求，那么实现Web组态可视化界面成为了主要的技术路径。行业痛点对于软件服务商来说，将单机版软件转变为网页版软件已经到了势在必行的阶段。但是，转变是一个复杂的过程，尤其是软件里面的组态功能部分，对于公司或个人都会面临以下几方面的问题：1、无相关组态开发经验，无技术积累。2、开发周期
RocketMQ中事务消息的实现机制啊sen丶 rocketmq 数据库 java
在分布式系统中，确保消息与本地事务的一致性是一个关键问题。RocketMQ通过事务消息提供了对这种需求的支持，其核心思想是通过两阶段提交来确保消息和本地事务的原子性。本文将深入探讨RocketMQ事务消息的实现机制，包括基本流程、事务回查机制以及消息状态的处理。一、事务消息的基本流程（一）第一阶段：半消息的发送当生产者发送事务消息时，RocketMQ会将消息存储在一个特殊的队列RMQ_SYS_TR
DeepSeek选择方向的优势 AIWritePaper官方账号 DeepSeek AIWritePaper ChatGPT 人工智能 deepseek AIWritePaper 机器学习大数据
DeepSeek选择方向的优势在学术研究与论文发表的征程中，DeepSeek凭借其独特的优势，正逐渐成为研究者们不可或缺的得力助手。以下将从多个维度深入剖析DeepSeek选择方向的卓越之处。一、高效的数据处理能力DeepSeek能够迅速处理海量数据，自动识别数据模式，精准定位关键趋势与关联。这一能力使研究者无需耗费大量时间在数据的海洋中苦苦搜寻，从而为论文研究节省宝贵时间，显著提升研究效率。二、
CSS中绝对定位 ~废弃回忆 �༄ HTML css 前端 CSS中绝对定位
1.如何设置绝对定位?给元素设置postition:absolute即可实现绝对定位可以使用left,right,top,bottom四个属性调整位置2.绝对定位的参考点在哪里?参考他的包含块.什么是包含块?1.对于没有脱离文档流的元素:包含块就是父元素;2.对于脱离文档流的元素:包含块是第一个拥有定位属性的祖先元素(如果所有祖先都没有定位,那包含块就是整个页面)3.绝对定位元素的特点:1.脱离文
工程化与框架系列（30）--前端日志系统实现一进制ᅟᅠ ‌‍‎‏ 前端工程化与框架前端状态模式
前端日志系统实现引言前端日志系统是应用监控和问题诊断的重要工具。本文将深入探讨前端日志系统的设计与实现，包括日志收集、处理、存储和分析等方面，帮助开发者构建完整的前端日志解决方案。日志系统概述前端日志系统主要包括以下方面：日志收集：用户行为、性能指标、错误信息等日志处理：过滤、格式化、压缩等日志存储：本地存储、远程上传等日志分析：统计分析、可视化展示等实时监控：告警、通知等日志系统实现日志管理器/
SpringBoot调用deepseek 想买CT5的小曹 spring boot 后端 java
1、效果截图：2、代码部分：application.propertiesserver.port=8080deepseek.api.token=sk-d34e929e887b4881813395241df2f745deepseek.api.url=https://api.deepseek.com/chat/completionscontroller部分请求参数可以缩短，写成实体类形式packagec
计算机科学与技术python方向_合肥师范学院计算机科学与技术python复习 weixin_39710106
1.计算机是根据指令操作数据的设备，具备功能性和可编程性两个基本特性2.程序设计语言的执行方式有编译执行和解释执行3.语言特点：与平台无关、粘性扩展、开源理念、支持中文、类库丰富4.IPO程序编写方法：input、process、output5.2.x与3.x的区别：(1)修改编码：3.x系列默认采用UTF-8编码；(2)去掉长整数类型：3.x系列不再区分整数和长整数类型，只有int类型，int类
【DuodooTEKr】基于Odoo18 Maintenance设备模块与ZXing扫码技术实现医疗器械DHR无纸化追溯技术方案邹工转型手札风吟九宵 Odoo18开源 Duodoo开源制造人工智能开源物联网 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月10日一、行业现状与需求痛点1.1医疗器械行业DHR管理现状传统纸质记录存在的合规风险FDA21CFRPart11对电子记录的特殊要求生产设备、检验设备、环境监控等多系统数据孤岛1.2典型业务场景分析原材料批次追溯（需关联供应商批号、效期）生产工序执行验证（人员、设备、参数三位一体）灭菌批次与产品追溯的强关联设备维护记录与产品生产周期的对
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
Python和FastAPI框架开发和容器化部署AWS上支持多种LLM和向量数据库的微服务API weixin_30777913 python 语言模型微服务 aws
用FastAPI创建一个输入提示词和所使用的LLM名称和向量搜索方式的API，返回LLM输出文本，其中用到OpenAIGPT4o3和AWSBedrock上的多个LLM模型的API，通过内部的类配置使用的模型和向量数据搜索类型，向量数据搜索类型包括faiss向量数据库和AWSKendra向量数据库搜索服务，这样的逻辑用设计模式中的工厂模式实现，用Python实现Docker打包项目Python代码并
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
MySQL 技术浅析（聚簇索引、UndoLog、RedoLog、MVCC）代码没写完哪有脸睡觉 mysql 数据库
MySQL核心技术深度解析一、聚簇索引与非聚簇索引1.聚簇索引结构存储方式InnoDB中，聚簇索引的叶子节点直接存储完整数据行，数据按主键值物理排序存储。主键索引即数据文件，非叶子节点存储主键范围和子节点指针数据行与主键索引绑定，主键顺序决定磁盘存储顺序示例存储结构B+树结构：根节点→[id20;--索引设计为(name,age)2.事务控制建议控制事务粒度：单个事务执行时间<1秒批量操作分批次提
RabbitMQ实战（二）-消息持久化策略、事务以及Confirm消息确认方式 Java思享汇 RabbitMQ学习 RabbitMQ 消息持久化事务 confirm ack
「扫码关注我，面试、各种技术（mysql、zookeeper、微服务、redis、jvm）持续更新中～」RabbitMQ学习列表：RabbitMQ实战（一）-消息通信基本概念·在上一篇学习完RabbitMQ通信的基本概念后，我们来继续学习消息的持久化以及代码实现RabbitMQ通信。在正常生产环境运维过程中无法避免RabbitMQ服务器重启，那么，如果RabbitMQ重启之后，那些队列和交换器就会
【Agent实战】发票信息识别提取专家（AI +OCR技术结合ChatGPT4o能力+结构化prompt（CoT、One-shot等）+Knowledge - RAG+API工具Agent项目实践）姚瑞南大模型落地探索及agent搭建 RAG技术应用探索 prompt实战应用案例人工智能 ocr prompt AIGC chatgpt gpt agi
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录1.项目背景2.项目目标定性：定量：3.发票核心字段概述4.关键举措5.Workflow设计思路及编排5.1整体设计思路5.2流程搭建及解读流程解读：代码节点：解析agent数据
卷积神经网络可视化天行者@ cnn 人工智能神经网络
卷积神经网络（CNN）的可视化是理解模型行为、调试性能和解释预测结果的重要工具。以下从技术原理、实现方法和应用场景三个维度，系统梳理CNN可视化的核心技术，并提供代码示例和前沿方向分析：一、CNN可视化的核心维度1.卷积核可视化原理：提取卷积层的权重，将其转换为图像形式，观察滤波器学习到的模式。实现步骤：提取卷积层权重（形状为[out_channels,in_channels,kernel_siz
如何打造TikTok矩阵：多账号管理与内容引流的高效策略 m0_74891046 矩阵
随着短视频平台的崛起，TikTok成为了全球范围内最具影响力的社交平台之一。在这个平台上，通过精确的内容营销和运营策略，许多创作者和品牌成功实现了曝光、粉丝增长和变现。为了提高运营效率，许多专业的内容创作者和团队开始使用TikTok矩阵系统，借助多个账号同时运营和引流，进一步放大曝光效果。本文将介绍如何打造一个高效的TikTok矩阵，帮助你利用多个账号进行精准引流，提升内容创作和运营效率，并实现变
深入解析：大型机器学习模型的基本概念与特点 AI大模型-大飞机器学习人工智能 AI大模型 AI 神经网络大模型
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的基本概念出发，对大模型领域容易混淆的相关概念进行区分，并就大模型的发展历程、特点和分类、泛化与微调进行了详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。本文目录如下：·大模型的定义·大模型相关概念区分·大模型的发展历程·大模型的特点·大模型的分类·大模型的泛化与微调1.大模型的定义大模型是指具有大规模参数和复杂计算结
【从零开始学习计算机科学】数据库系统（十）XML、XPATH、XQuery与XML数据库贫苦游商数据库学习 xml xpath xml数据库 xquery sql
【从零开始学习计算机科学】数据库系统（十）XML、XPATH、XQuery与XML数据库XML基础知识元素属性Namespaces文档类型定义(DTD)文档类型定义(DTD)XML数据文档的树模型XML树模型的生成方式Xpath语言Xpath常用的标记XQuery语言XML基础知识XML是一种语言，更是一种适合灵活描述各种办半结构化的数据和结构的好工具。在一应用程序与另一应用程序需通信(交换数据)
【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL 与 NewSQL 贫苦游商数据库学习 nosql newsql 云数据库 CAP sql
【从零开始学习计算机科学】数据库系统（十一）云数据库、NoSQL与NewSQL云数据库云服务器的服务云数据库和传统的分布式数据库的异同NoSQLNoSQL数据库的特点CAP定理NoSQL的特性NoSQL数据库的分类NoSQL的适用场景Nosql数据库实例-RedisRedis的优势MongoDBMongoDB的特点NewSQLNewSQL出现的背景NewSQL（新型分布式数据库）的概念NewSQL
【从零开始学习计算机科学】编程语言（一）常用编程语言的发展与介绍贫苦游商学习 java python c++编程语言 r语言 javascript
【从零开始学习计算机科学】编程语言（一）常用编程语言的发展与介绍编程语言可读性可写性可靠性代价影响编程语言的因素编程语言的分类编程语言设计中的权衡编程语言的实现方法编程环境编程语言的发展过程低级语言时代高级语言时代第一个高级语言—Fortran第一个结构化程序设计语言—ALGOL最简单的语言——BASIC编程语言里一个重要的里程碑——Pascal现代程序语言革命的起点——C语言面向对象时代Java
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少