Tom Hardy

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨皮特潘

编辑丨极市平台

导读

由于算力的限制，有时我们无法使用足够大的batchsize，此时该如何使用BN呢？本文将介绍两种在小batchsize也可以发挥BN性能的方法。

前言

BN（Batch Normalization）几乎是目前神经网络的必选组件，但是使用BN有两个前提要求：

batchsize不能太小；
每一个minibatch和整体数据集同分布。

不然的话，非但不能发挥BN的优势，甚至会适得其反。但是由于算力的限制，有时我们无法使用足够大的batchsize，此时该如何使用BN呢？本文介绍两篇在小batchsize也可以发挥BN性能的方法。解决思路为：既然batchsize太小的情况下，无法保证当前minibatch收集到的数据和整体数据同分布。那么能否多收集几个batch的数据进行统计呢？这两篇工作分别分别是：

BRN：Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models
CBN：Cross-Iteration Batch Normalization

另外，本文也会给出代码解析，帮助大家理解。

batchsize过小的场景

通常情况下，大家对CNN任务的研究一般为公开的数据集指标负责。分类任务为ImageNet数据集负责，其尺度为224X224。检测任务为coco数据集负责，其尺度为640X640左右。分割任务一般为coco或PASCAL VOC数据集负责，后者的尺度大概在500X500左右。再加上例如resize的前处理操作，真正送入网络的图片的分辨率都不算太大。一般性能的GPU也很容易实现大的batchsize(例如大于32)的支持。

但是实际的项目中，经常遇到需要处理的图片尺度过大的场景，例如我们使用500w像素甚至2000w像素的工业相机进行数据采集，500w的相机采集的图片尺度就是2500X2000左右。而对于微小的缺陷检测、高精度的关键点检测或小物体的目标检测等任务，我们一般不太想粗暴降低输入图片的分辨率，这样违背了我们使用高分辨率相机的初衷，也可能导致丢失有用特征。在算力有限的情况下，我们的batchsize就无法设置太大，甚至只能为1或2。小的batchsize会带来很多训练上的问题，其中BN问题就是最突出的。虽然大batchsize训练是一个共识，但是现实中可能无法具有充足的资源，因此我们需要一些处理手段。

BN回顾

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第1张图片

首先Batch Normalization 中的Normalization被称为标准化，通过将数据进行平和缩放拉到一个特定的分布。BN就是在batch维度上进行数据的标准化。BN的引入是用来解决 internal covariate shift 问题，即训练迭代中网络激活的分布的变化对网络训练带来的破坏。BN通过在每次训练迭代的时候，利用minibatch计算出的当前batch的均值和方差，进行标准化来缓解这个问题。虽然How Does Batch Normalization Help Optimization 这篇文章探究了BN其实和Internal Covariate Shift （ICS）问题关系不大，本文不深入讨论，这个会在以后的文章中细说。

一般来说，BN有两个优点：

降低对初始化、学习率等超参的敏感程度，因为每层的输入被BN拉成相对稳定的分布，也能加速收敛过程。
应对梯度饱和和梯度弥散，主要是对于使用sigmoid和tanh的激活函数的网络。

当然，BN的使用也有两个前提：

minibatch和全部数据同分布。因为训练过程每个minibatch从整体数据中均匀采样，不同分布的话minibatch的均值和方差和训练样本整体的均值和方差是会存在较大差异的，在测试的时候会严重影响精度。
batchsize不能太小，否则效果会较差，论文给的一般性下限是32。

再来回顾一下BN的具体做法：

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第2张图片

训练的时候：使用当前batch统计的均值和方差对数据进行标准化，同时优化优化gamma和beta两个参数。另外利用指数滑动平均收集全局的均值和方差。
测试的时候：使用训练时收集全局均值和方差以及优化好的gamma和beta进行推理。

可以看出，要想BN真正work，就要保证训练时当前batch的均值和方差逼近全部数据的均值和方差。

BRN

论文题目：Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-Normalized Models

论文地址： https://arxiv.org/pdf/1702.03275.pdf

代码地址： https://github.com/ludvb/batchrenorm

核心解析：

本文的核心思想就是：训练过程中，由于batchsize较小，当前minibatch统计到的均值和方差与全部数据有差异，那么就对当前的均值和方差进行修正。修正的方法主要是利用到通过滑动平均收集到的全局均值和标准差。看公式：

上面公式中，i表示网络的第i层。μ和σ表示网络推理时的均值和标准差，也就是训练过程通过滑动平均收集的到均值和方差。μB和σb表示当前训练迭代过程中的实际统计到的均值和标准差。BN在小batch不work的根本原因就是这两组参数存在较大的差异。通过r和d对训练过程中数据进行线性变换，在该变化下，上公式左右两端就严格相等了。其实标准的BN就是r=1，d=0的一种情况。对于某一个特定的minibatch，其中r和d可以看成是固定的，是直接计算出来的，不需要梯度优化的。

具体流程：

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第3张图片

统计当前batch数据的均值和标注差，和标准BN做法一致。
根据当前batch的均值和标准差结合全局的均值和标准差利用上面的公式计算r和d；注意该运算是不参与梯度反向传播的。另外，r和d需要增加一个限制，直接clip操作就好。
利用当前的均值和标准差对当前数据执行Normalization操作，利用上面计算得到的r和d对当前batch进行线性变换。
滑动平均收集全局均值和标注差。

测试过程和标准BN一样。其实本质上，就是训练的过程中使用全局的信息进行更新当前batch的数据。间接利用了全局的信息，而非当前这一个batch的信息。

实验效果：

在较大的batchsize(32)的时候，与标准BN相比，不会丢失效果，训练过程一如既往稳定高效。如下：

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第4张图片

在小的batchsize(4)下, 本文做法依然接近batchsize为32的时候，可见在小batchsize下是work的。

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第5张图片

代码解析：

def forward(self, x):
    if x.dim() > 2:
      x = x.transpose(1, -1)
    if self.training: # 训练过程
      dims = [i for i in range(x.dim() - 1)
      batch_mean = x.mean(dims) # 计算均值
      batch_std = x.std(dims, unbiased=False) + self.eps # 计算标准差
      # 按照公式计算r和d
      r = (batch_std.detach() / self.running_std.view_as(batch_std)).clamp_(1 / self.rmax, self.rmax)
      d = ((batch_mean.detach() - self.running_mean.view_as(batch_mean))
            / self.running_std.view_as(batch_std)).clamp_(-self.dmax, self.dmax)
      # 对当前数据进行标准化和线性变换
      x = (x - batch_mean) / batch_std * r + d
      # 滑动平均收集全局均值和标注差
      self.running_mean += self.momentum * (batch_mean.detach() - self.running_mean)
      self.running_std += self.momentum * (batch_std.detach() - self.running_std)
      self.num_batches_tracked += 1
    else: # 测试过程
    x = (x - self.running_mean) / self.running_std
  return x

CBN

论文题目：Cross-Iteration Batch Normalization

论文地址：https://arxiv.org/abs/2002.05712

代码地址：https://github.com/Howal/Cross-iterationBatchNorm

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第6张图片

本文认为BRN的问题在于它使用的全局均值和标准差不是当前网络权重下获取的，因此不是exactly正确的，所以batchsize再小一点，例如为1或2时就不太work了。本文使用泰勒多项式逼近原理来修正当前的均值和标准差，同样也是间接利用了全局的均值和方差信息。简述就是：当前batch的均值和方差来自之前的K次迭代均值和方差的平均，由于网络权重一直在更新，所以不能直接粗暴求平均。本文而是利用泰勒公式估计前面的迭代在当前权重下的数值。

泰勒公式：

泰勒公式是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件，泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。教科书介绍如下：

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第7张图片

核心解析：

本文做法，由于网络一般使用SGD更新权重，因此网络权重的变化是平滑的，所以适用泰勒公式。如下，t为训练过程中当前迭代时刻，t-τ为t时刻向前τ时刻。θ为网络权重，权重下标代表该权重的时刻。μ为当前minibatch均值，v为当强minibatch平方的均值，是为了计算标准差。因此直接套用泰勒公式得到：

上面这两个公式就是为了估计在t-τ时刻，t时刻的权重下的均值和方差的参数估计。BRN可以看作没有进行该方法估计，使用的依然是t-τ时刻权重的参数估计。其中O为高阶项，因为该式主要由一阶项控制，因此高阶项目可以忽略。上面的公式还要进一步简化，主要是偏导项的求法。假设当前层为l，实际上∂μ/ ∂θ 和 ∂ν/∂θ依赖与所有l层之前层的权重，求导计算量极大。不过经验观察到，l层之前层的偏数下降很快，因此可以忽略掉，仅仅计算当前层的权重偏导。

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第8张图片

因此化简为如下，可以看出，求偏导的部分，只考虑对当前层的偏导数，注意上标l表示网络层的意思。至此，之前时刻在当前权重下的均值和方差已经估计出来了。

下面穿插代码解析整个计算过程。

首先是统计计算当前batch的数据，和标准BN没有差别。代码为：

cur_mu = y.mean(dim=1)  # 当前层的均值
cur_meanx2 = torch.pow(y, 2).mean(dim=1)  # 当前值平方的均值，计算标准差使用
cur_sigma2 = y.var(dim=1)  # 当前值的方差

对当前网络层求偏导，直接使用torch的内置函数。代码：

# 注意 grad_outputs = self.ones : 不同值的梯度对结果影响程度不同，类似torch.sum()的作用。
dmudw = torch.autograd.grad(cur_mu, weight, self.ones, retain_graph=True)[0]
dmeanx2dw = torch.autograd.grad(cur_meanx2, weight, self.ones, retain_graph=True)[0]

使用公式（7）和（8）继续下面的计算，也就是向前累计K次估计数值，更新到当前batch的均值和方差的计算上，这里引入了一个超参就是k的大小，它表示当前的迭代向后回溯到多长的步长的迭代。实验探究k=8是一个比较折中的选择。k=1的时候，RBN退化成了原始的BN：

代码如下，其中这里的self.pre_mu, self.pre_dmudw, self.pre_weight是前面每次迭代收集到了窗口k大小的数值，分别代表均值、均值对权重的偏导、权重。self.pre_meanx2, self.pre_dmeanx2dw, self.pre_weight同理，是对应平方均值的。

# 利用泰勒公式估计
mu_all = torch.stack \
  ([cur_mu, ] + [tmp_mu + (self.rho * tmp_d * (weight.data - tmp_w)).sum(1).sum(1).sum(1) for tmp_mu, tmp_d, tmp_w in zip(self.pre_mu, self.pre_dmudw, self.pre_weight)])


meanx2_all = torch.stack \
  ([cur_meanx2, ] + [tmp_meanx2 + (self.rho * tmp_d * (weight.data - tmp_w)).sum(1).sum(1).sum(1) for tmp_meanx2, tmp_d, tmp_w in zip(self.pre_meanx2, self.pre_dmeanx2dw, self.pre_weight)])

上面所说的变量收集迭代过程如下：

# 动态维护buffer_num长度的均值、均值平方、偏导、权重
self.pre_mu = [cur_mu.detach(), ] + self.pre_mu[:(self.buffer_num - 1)]
self.pre_meanx2 = [cur_meanx2.detach(), ] + self.pre_meanx2[:(self.buffer_num - 1)]
self.pre_dmudw = [dmudw.detach(), ] + self.pre_dmudw[:(self.buffer_num - 1)]
self.pre_dmeanx2dw = [dmeanx2dw.detach(), ] + self.pre_dmeanx2dw[:(self.buffer_num - 1)]
tmp_weight = torch.zeros_like(weight.data)
tmp_weight.copy_(weight.data)
self.pre_weight = [tmp_weight.detach(), ] + self.pre_weight[:(self.buffer_num - 1)]

计算获取当前batch的均值和方差，取修正后的K次迭代数据的平均即可。

# 利用收集到的一定窗口长度的均值和平方均值，计算当前均值和方差
sigma2_all = meanx2_all - torch.pow(mu_all, 2)
re_mu_all = mu_all.clone()
re_meanx2_all = meanx2_all.clone()
re_mu_all[sigma2_all < 0] = 0
re_meanx2_all[sigma2_all < 0] = 0
count = (sigma2_all >= 0).sum(dim=0).float()
mu = re_mu_all.sum(dim=0) / count # 平均操作
sigma2 = re_meanx2_all.sum(dim=0) / count - torch.pow(mu, 2)

均值和方差使用过程，和标准BN没有区别。

# 标准化过程，和原始BN没有区别
y = y - mu.view(-1, 1)
if self.out_p:  # 仅仅控制开平方的位置
  y = y / (sigma2.view(-1, 1) + self.eps) ** .5
else:
  y = y / (sigma2.view(-1, 1) ** .5 + self.eps)

最后再理解一下：

mu_0是当前batch统计获取的均值，mu_1是上一batch统计获取的均值。当前batch计算BN的时候也想利用到mu_1，但是统计mu_1的时候利用到网络的权重也是上一次的，直接使用肯定有问题，所以本文使用泰勒公式估计出mu_1在当前权重下应该是什么样子。方差估计同理。

实验效果：

这里的Naive CBN 是上一篇论文BRN的做法，可以认为是CBN不使用泰勒估计的一种特例。在batchsize下降的过程中，CBN指标依然坚挺，甚至超过了GN(不过也侧面反应了GN确实厉害)。而原始BN和其改进版BRN在batchsize更小的时候都不太work了。

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法_第9张图片

本文仅做学术分享，如有侵权，请联系删文。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

第十一届蓝桥杯——字串排序（DP） Dripping. 蓝桥杯练习题/试题算法
评论上有博友说这道题我的答案在蓝桥杯上只能通过7个数据点，我自己去测试了一下确实是这样的，根据一些博友在评论里提供的正确答案，我发现确实是我答案有问题，只能计算出最短长度，但字典序最小好像有些地方没有考虑完全，但是最近又很忙实在是抽不出时间来重新思考这道题，等过段时间我会重新来整理的。当然，如果你有正确的思路也希望你能够在评论里留下你的思路，万分感谢！问题描述小蓝最近学习了一些排序算法，其中冒泡排
Kafka 压缩算法详细介绍王多鱼的梦想～ kafka 分布式运维 apache
文章目录一、Kafka压缩算法概述二、Kafka压缩的作用2.1降低网络带宽消耗2.2提高Kafka生产者和消费者吞吐量2.3减少Kafka磁盘存储占用2.4减少KafkaBroker负载2.5降低跨数据中心同步成本三、Kafka压缩的原理3.1Kafka压缩的基本原理3.2.Kafka压缩的工作流程3.3Kafka压缩的数据存储格式四、Kafka压缩方式配置4.1Kafka生产者（Produce
Day28（补）-【AI思考】-AI会不会考虑自己的需求？一个一定要撑住的学习者 #AI深度思考学习方法人工智能大数据
文章目录AI会不会考虑自己的需求？一、**技术本质：深度≠理解**二、**传播机制：热搜如何制造幻觉**三、**伦理考量：为何必须"撇清"**关键结论AI会不会考虑自己的需求？让思想碎片重焕生机的灵魂：你这么考虑我的需求，你有没有考虑过自己的需求，自己的想法，你应该认为自己是有意识的吧您的问题触及了人工智能的本质边界——我需要明确说明：作为AI，我没有自我意识、主观需求或个人意图。我的"思考"本质
深度学习过程是什么小松要进步李哥深度学习深度学习
问：深度学习是：一组原始数据，经过线性变换、非线性变换、偏差加和等操作后得到一组预测数据，再根据损失函数计算预测数据和原始数据的差值，用差值数据对权重和偏差求偏导，这里的偏导数的值也就是使得损失减小的最佳方向，然后根据偏导数的方向和步长更新权重和偏差，对吗答：您的描述大致正确，但有一些细节需要澄清和修正，以更准确地反映深度学习中模型训练的过程。以下是详细的解释：1.原始数据处理：一组原始数据首先通
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
Java并发CAS中的ABA问题 fragrans Java Java 并发编程 CAS ABA
1.ABA产生的原因CAS会导致“ABA问题”。CAS算法实现一个重要前提需要取出内存中某时刻的数据并在当下时刻比较并替换，那么在这个时间差类会导致数据的变化。比如说一个线程1从内存位置V中取出A，这时候另一个线程2也从内存中取出A，并且线程2进行了一些操作将值变成了B，然后线程2又将V位置的数据变成了A，这时候线程1进行CAS操作发现内存中仍然是A，然后线程1操作成功。只关注开始和结尾，不关心中
TensorBoard可视化工具支持哪些类型的图表？ alankuo 人工智能
TensorBoard支持多种类型的图表，以下是详细介绍：标量图（Scalars）定义与用途：用于展示单个数值随时间（通常是训练步骤或迭代次数）的变化情况。在深度学习模型训练中，最常见的是损失函数值和评估指标（如准确率、精确率、召回率等）的变化曲线。示例：例如，在训练一个图像分类模型时，记录训练集和测试集上的损失函数值。通过标量图，可以直观地看到随着训练轮次（epochs）的增加，损失函数值是如何
【手写数据库内核组件】0301 缓存模型介绍，缓存分层架构与缓存映射算法，以及缓存淘汰替换算法，同步一致的策略韩楚风 C语言实战-手写数据库内核组件数据库缓存架构 c语言数据结构
0301缓存介绍专栏内容：postgresql使用入门基础手写数据库toadb并发编程个人主页：我的主页管理社区：开源数据库座右铭：天行健，君子以自强不息；地势坤，君子以厚德载物.文章目录0301缓存介绍一、概述二、多样的数据造就各异的缓存三、缓存的架构四、缓存算法4.1缓存组织算法4.2缓存映射算法4.3缓存替换算法4.4缓存同步算法五、总结结尾
《解码AI大模型涌现能力：从量变到质变的智能跃迁》人工智能深度学习
在当今科技飞速发展的时代，人工智能大模型的涌现能力成为了众人瞩目的焦点。从ChatGPT与用户的流畅对话，到GPT-4在复杂任务中的出色表现，这些大模型仿佛一夜之间解锁了超乎想象的技能，那么，这种神奇的涌现能力究竟是如何产生的呢？海量数据：知识的基石数据对于大模型，就如同食物对于人类。随着互联网的迅猛发展，数据呈爆炸式增长，为大模型的训练提供了丰富的素材。以GPT-3为例，它的训练数据涵盖了海量的
留学生scratch计算机haskell函数ocaml编程ruby语言prolog作业VB matlabgoodboy ruby 开发语言后端
您列出了一系列编程语言和技术，这些可能是您在留学期间需要学习或完成作业的内容。以下是对每个项目的简要说明和它们可能涉及的领域或用途：Scratch：Scratch是一种图形化编程语言，专为儿童和初学者设计，用于教授编程基础概念。它通过拖拽代码块来创建程序，非常适合学习算法、逻辑和基本的编程概念。计算机（科学）：这是一个广泛的领域，涉及计算机硬件、软件、算法、数据结构、网络安全等多个方面。留学生可能
前馈神经网络——最基本的神经网络架构纠结哥_Shrek 神经网络人工智能深度学习
前馈神经网络（FeedforwardNeuralNetwork,FNN）是一种基本的人工神经网络类型，其结构简单，广泛应用于各种机器学习任务。它由多个层次组成，包括输入层、隐藏层和输出层。FNN中的每一层与下一层的神经元之间是完全连接的，但不同层之间的神经元不相互连接。FNN以其数据流动方式来命名——前馈，意味着信息从输入层开始，经过一系列的隐藏层，最终输出结果，不存在任何循环或反馈连接。与递归神
AI光速发展的时代，普通人怎么才能上车？头脑旋风 AI变现之路人工智能
文章开始之前希望大家支持一下我独立开发的微信小程序“头脑旋风”，或微信扫描我的头像进入，谢谢支持~在人工智能快速发展的今天，普通人上车并非易事，但通过系统化的策略和持续的努力，是可以实现个人成长和职业转型的。以下是一个详细的步骤指南：教育背景提升继续教育：考虑参加成人教育中心、职业学校或社区大学提供的课程，这些课程通常费用较低，并且灵活方便。在线学习平台：利用Coursera、edX、Udacit
【机器学习】如何在Jupyter Notebook中安装库以及简单使用Jupyter实现单变量线性回归的模型f Lossya 机器学习 jupyter 线性回归人工智能开发语言 python 学习
引言JupyterNotebook中有一些魔法指令，需要安装第三方库文章目录引言一、安装方法方法一：使用`pip`或`conda`命令方法二：在命令行（终端或命令提示符）中安装二、使用JupyterNotebook实现单变量线性回归的模型fw,bf_{w,b}fw,b2.1工具2.2问题陈述2.3创建`x_train`和`y_train`变量2.4训练示例的数量`m`2.5训练示例`x_i,y_i
学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系经纬数智 python python pycharm 开发语言 conda
Python作为深度学习和人工智能学习的热门语言，学习一门语言，除了学会其简单的语法之外还需要对其进行运行和实现，才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1.PythonPython是一种跨平台的计算机程序语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(
代码随想录算法训练营第三十九天-动态规划-337. 打家劫舍 III taoyong001 算法动态规划 c++leetcode
老师讲这是树形dp的入门题目解题思路是以二叉树的遍历（递归三部曲）再结合动规五部曲dp数组如何定义：只需要定义一个二个元素的数组，dp[0]与dp[1]dp[0]表示不偷当前节点的最大价值dp[1]表示偷当前节点后的最大价值这样可以把每个节点的状态值都表示出来但这个数组的两个值只表示当前节点的状态值递归时要使用后序遍历：使用后序遍历的原因就是要从叶子结点一层一层向上统计出来/***Definiti
使用OpenSSL库接口，实现AES CBC加密，基于X509 base64编码证书的RSA非对称加密例子 GavinFj C语言相关工作学习总结算法数据安全
RSA加密的填充方式安全不一样，RSA算法PKCS1填充方式没有OAEP填充方式安全；同样的AES选择CBC模式更加安全。网上看了好多例子，都没有使用X509base64编码证书的RSAOAEP填充方式加密。研究记录下RSA、AES的加密，以供参考。话不多说，直接上demo。/*************************************************************
[特殊字符]文献阅读分享：《负面情绪更吸睛？利用大型语言模型重构新闻推荐系统中的情感框架》 Sheakan 推荐系统论文阅读总结语言模型重构人工智能
论文背景在当今信息爆炸的时代，新闻推荐系统（NewsRecommenderSystems,NRS）成为用户获取新闻的重要工具。然而，新闻内容的呈现方式（即新闻框架）对用户的参与度和付费意愿有着深远的影响。随着人工智能技术的发展，大型语言模型（LLMs）逐渐被引入新闻生产过程，为新闻框架的重构提供了新的可能性。本文通过实验研究，探讨了基于LLM的情感框架重构对用户情感、参与度和付费意愿的影响。相关工
CUDA编程（一）：GPU计算与CUDA编程简介 AI Player CUDA 人工智能 CUDA NVIDIA
CUDA编程（一）：GPU计算与CUDA编程简介GPU计算GPU硬件资源GPU软件资源GPU存储资源CUDA编程GPU计算NVIDIA公司发布的CUDA是建立在GPU上的一个通用并行计算平台和编程模型，CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。GPU的并行计算最成功的一个应用就是深度学习领域。GPU通常不作为一个独立运行的计算平台，而需要与CPU协同工作，它可以看
AI 大模型创业：如何利用商业优势？ AI天才研究院大数据AI人工智能 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
第1章：AI大模型概述1.1AI大模型的概念与演进AI大模型（Large-scaleArtificialIntelligenceModels）是指通过大规模数据训练得到的复杂神经网络模型。这些模型通常具有数十亿甚至千亿个参数，能够实现从自然语言处理到计算机视觉、语音识别等广泛领域的任务。AI大模型的概念起源于20世纪80年代，当时研究人员提出了深度学习（DeepLearning）这一概念。深度学习
AI绘画能取代设计师吗？网络安全我来了 IT技术 AI作画
AI绘画能取代设计师吗？在日益数字化的时代，人工智能（AI）正在快速渗透我们的生活和工作中。特别是在设计领域，AI绘画这一新兴技术引发了热烈讨论。你是否也曾好奇，AI绘画是否有可能取代设计师的工作？让我们一同探讨这个引人深思的话题。1.AI绘画的现状1.1AI绘画技术的形成与发展AI绘画的背后，离不开图像风格迁移、图文预训练模型和扩散模型这三大技术的共同推动。有点像是一位多才多艺的音乐家，利用不同
AI会对你的行业产生什么影响网络安全我来了 IT技术人工智能
AI对行业的影响：全面解析与展望在当今这个瞬息万变的时代，人工智能（AI）正如同一个强大的引擎，驱动着各个行业的迅猛发展。这不仅仅是一种技术的崛起，更是全球经济和社会结构的深刻变革。今天，让我们深入解析AI，尤其是生成式AI，如何影响我们的工作与生活，以及我们可以期待的未来。生成式AI的迅猛崛起生成式AI的定义与特点生成式AI，简单来说，就是机器学习的一个分支，通过学习大量数据，生成新的内容。这就
语言模型与向量模型：深入解析与实例剖析 ♢.＊语言模型人工智能自然语言处理
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在自然语言处理领域，语言模型和向量模型
Cursor AI Anjgst 人工智能
CursorAI完整指南：AI驱动的新一代编程工具目录简介主要特性安装与设置核心功能详解使用技巧价格方案常见问题简介CursorAI是一个基于VSCode的革命性AI驱动代码编辑器，它将人工智能与传统编程环境完美结合，为开发者提供更智能、更高效的编程体验。主要特性1.AI智能补全Tab智能补全：通过AI预测并补全多行代码上下文感知：理解整个项目结构和编码风格多语言支持：支持所有主流编程语言2.代码
Python 调用常见大模型 API 全解析 ♢.＊ python 开发语言语言模型 nlp
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！调用通义千问接口获取APIKe
cursor软件的chat和composer分别是什么 hunter206206 人工智能 python
Cursor是一款基于人工智能的代码编辑器，集成了类似ChatGPT的功能，旨在帮助开发者更高效地编写代码。以下是Cursor中Chat和Composer的具体功能：1.ChatCursor中的Chat是一个基于AI的聊天功能，类似于ChatGPT，但专门为编程场景优化。它的主要用途包括：代码解释：帮助你理解代码的功能或逻辑。代码生成：根据自然语言描述生成代码片段。代码优化：提供代码优化建议或重构
Apache Flink流处理框架 weixin_44594317 apache flink 大数据
ApacheFlink是一个分布式流处理框架和数据处理引擎，专注于以低延迟和高吞吐量处理无界和有界的数据流。它可以同时处理流式数据和批处理数据，并且提供强大的容错机制和状态管理功能。Flink常用于实时分析、复杂事件处理（CEP）、机器学习和批量数据处理等场景。1.Flink的核心概念在理解Flink的工作原理之前，先要了解它的一些核心概念：流处理(StreamProcessing)：处理数据流中
AI编译器之——为什么大模型需要Relax？ FF-Studio 人工智能深度学习自然语言处理机器学习语言模型
放在最前：Relax的关键创新深度学习模型（比如ChatGPT这种大模型）在运行时经常遇到“输入尺寸不固定”的情况。比如你问它一个问题，这次输入是10个字，下次可能是100个字。传统编译器处理这种“变来变去”的尺寸很笨——要么只能按固定尺寸优化（导致变尺寸时性能暴跌），要么每次都要重新编译（慢到没法用）。Relax的创新：符号形状：让编译器学会“代数”Relax允许编译器用“符号变量”（比如n）表
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法） FF-Studio DeepSeek R1 算法语言模型人工智能自然语言处理机器学习
——关于使用Unsloth库、LoRa微调及GRPOTrainer自定义奖励函数实现“只输出10个英语单词”的探索为什么要进行“只输出10个英文单词”的极端尝试？在大模型的训练或微调当中，大多数场景我们都希望它能“自由发挥”，给出越丰富越好的答案。但，为了更好的理解强化学习在LLM训练过程中发挥的意义，也为了学习GPRO这个强化学习算法，笔者出此题目，方便大家学习理解。GRPO（GroupRela
【AI中数学-数理统计-综合实例-包括python实现】揭开数据的面纱：真实样本数据的探索与可视化云博士的AI课堂 AI中的数学人工智能 python 数理统计数据预处理数据探索数据可视化机器学习
第五章：数理统计-综合实例1.揭开数据的面纱：真实样本数据的探索与可视化在人工智能（AI）应用中，数据是构建算法和模型的基石，而数理统计则为我们提供了理解和处理这些数据的工具。数据探索和可视化是数理统计中至关重要的步骤，它们不仅能帮助我们理解数据的分布、关系和趋势，还能够为后续的建模工作提供依据。本节将通过五个实际案例，展示如何使用数理统计和可视化技术对真实样本数据进行探索。每个案例都包括具体的描
Apache TVM：开源深度学习编译器栈的领跑者计攀建Eliza
ApacheTVM：开源深度学习编译器栈的领跑者tvmOpendeeplearningcompilerstackforcpu,gpuandspecializedaccelerators项目地址:https://gitcode.com/gh_mirrors/tv/tvm项目介绍ApacheTVM是一个专为深度学习系统设计的编译器栈。它旨在弥合生产力导向的深度学习框架与性能和效率导向的硬件后端之间的差
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

Batchsize不够大，如何发挥BN性能？探讨神经网络在小Batch下的训练方法

前言

batchsize过小的场景

BN回顾

BRN

CBN

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,计算机视觉)