东荷新绿

正则化与正则剪枝

写在前面：本博客仅作记录学习之用，部分图片来自网络，如需引用请注明出处，同时如有侵犯您的权益，请联系删除！

文章目录

引言
正则化
- 为什么会过拟合
- 拉格朗日与正则化
- 梯度衰减与正则化
应用
- 解决过拟合
- 网络剪枝
总结
致谢
参考

引言

在深度学习中，模型的复杂度通常是由模型参数的数量和取值范围来决定的。当模型太过复杂时，容易过拟合，即训练集上表现很好，测试集上表现较差，原因在于模型过于适应训练集数据或训练数据过少，从而导致泛化能力不足，如下图。

训练模型本质上是从子集推广到全集，不论是子集太少不足以近似描述全集的性质，还是过分信任子集，即把子集当作全集，在测试全集中的数据表现都不佳。

减少过拟合的方法和技术有很多，下面列举了一些常用的方法：

数据增强（Data Augmentation）： 通过对训练集中的数据进行随机变换、旋转、缩放等操作，生成更多的样本以拟合训练全集的数据分布，帮助模型更好地泛化。

正则化（Regularization）： 通过在损失函数中引入正则化项，控制模型的复杂度，防止模型过度拟合，常见的正则化方法有L1正则化和L2正则化。

Early Stopping： 在训练过程中，监控模型在验证集上的性能指标。当模型在验证集上的性能不再提升时，停止训练，以避免过拟合。

Dropout/DropBlock： 在训练过程中，随机丢弃一部分神经元的输出，以减少神经网络中神经元之间的依赖关系，从而降低过拟合风险。

权重衰减（Weight Decay）： 在优化算法中，对模型的权重进行衰减（即乘以一个小于1的因子），以限制权重的增长，减少模型的复杂度。

简化模型结构： 减少模型的参数量和复杂度，例如减少隐藏层的数量、减少神经元的数量，以降低过拟合的可能性。

以上方法基本上是通过扩大训练的子集、或使网络稀疏降低网络的拟合能力、约束网络参数，以提高网络泛化能力。正则化的意义不仅仅在于提高模型的泛化能力，使其在面对新数据时能够更好地表现，同时正则化在网络剪枝方面也有应用。

正则化

为什么会过拟合

对于卷积或者全连接之类的线性操作，可以简单表示为 $\times W + b$ ，w是权重，b是偏置。对于多层线性操作 $y = f (... f (x))$ ， $f(x_i) = x_i \times W_i + b_i$ ，不妨考虑极端情况所有偏置为0，多层线性操作 $\times W_1\times W_2\times...\times W_n$ ，对于一个特定的输出y，其参数的可能组合有无数种，更何况还有偏置以及非线性的激活函数，网络的拟合能力就更强。

因此对于有限的训练集，网络完全可以记住所有样本的对应的结果导致泛化性差。不难想到降低权重和偏置数量不就可以降低网络的拟合能力，确实是这样。简化网络结构或者使用drop操作，可以减少网络参数或者降低有效的参数的数量达到减少过拟合的情况。此外网络参数的数据类型多是float32，在不加约束的情况下，网络参数不仅组合多并且可能会很大，参数过大会放大输入中的噪声和错误信息进而导致错误结果，参数约束后可以减少输入的中一些干扰，确保泛化性。

拉格朗日与正则化

正则化就是约束网络参数的一种经典方法，通过在模型训练过程中引入惩罚项来控制模型的复杂度，从而避免过拟合现象。在正则化中，常见的惩罚项有L1正则化和L2正则化。L1正则化将模型参数的绝对值之和作为惩罚项，促使模型参数中的某些维度变为0，从而实现特征选择的效果；L2正则化将模型参数的平方和作为惩罚项，促使参数的值尽可能小，从而防止模型过于复杂，这里主要是指对参数W的正则化，过拟合的来源主要也是W，不考虑偏置是因为偏置只是平移的功能。

L1、L2正则化中的正则项主要利用L1、L2范数，其实是计算该位置和原点的位置，把勾股定理推理到高维即可。如下，计算高维参数和原点的曼哈顿距离和欧氏距离，相同的范数的点连接起来就是一个正方形和圆，在 $p$ 大于等于1 时，此时的可行域是凸集（凸集：该区域内任意两点的连线都在该区域内）。

不妨假设损失函数为 $L oss = J (W, b)$ ，上文说过b可不进一步约束，因此 $L oss = J (W)$ 。对于损失函数，不妨规定可行域，即 $||W||_1 - C \leq 0$ ，C是约束条件，让W都在该较小的范围内，进而损失函数的拉格朗日表达式可变为 $Loss(W,\lambda) = J(W)+\lambda(||W||_1 - C)$ ，其中 $\lambda\geq0$ 。同理当可行域为 $||W||_2 - C \leq 0$ ，进而损失函数可变为 $Loss(W,\lambda) = J(W)+\lambda(||W||_2 - C)$ ，图像的表达形式如下：

以二维示例或理解为高维空间在二维上的投影，越靠近等高线的中心，损失越小，其中在交点处就是所求的最值点，因为对于优化问题而言（因为 $W||_1|$ ， $W||_2|$ 的可行域是凸集（ $p\geq1$ ）不改变求解问题的凹凸性），最值点需要满足导数或梯度为0，因此只有在 $W||_1|$ 的顶点与 $W||_2$ 切点处，才能满足梯度为零的条件，如下图。

对于不同的C值，具有不同的可行域。可以看到， $W||_1$ 正则化取极值的点有些在坐标轴上，因此会使得网络部分参数是0，进而达到稀疏网络或者说特征选择的作用。相反 $W||_2$ 一般不会在坐标轴上，不具备稀疏网络的作用。举个不恰当的例子， $∣ W ∣$ 求导之后是+1或者-1，因此无论W在那个位置，梯度下降的速度是比较快的，因此总会有些W为0。 $W^2$ 求导之后是2W，W越接近0，梯度越来越小，越来越走不动。因此W只会密集的接近0而不会是0，因此没有稀疏作用。

梯度衰减与正则化

从求解过程来说，只要保证梯度为0即可，因此可去除常数C，会导致极值不一样，但是取得极值的w是一样的，即 $Loss(W,\lambda) = J(W)+\lambda\cdot||W||_1$ 或者 $Loss(W,\lambda) = J(W)+\lambda\cdot||W||_2$ ，这就是常见的对损失函数的约束， $\lambda$ 通常是保证在极值处梯度总和为0，因此定下来 $\lambda$ 就等于确定了极值点的位置。

再次的给出损失 $L = J (W)$ ，权重更新的方式： $W-\eta\cdot\nabla_w\cdot J(W)$ ， $\eta$ 为学习率；
正则化后 $\lambda \cdot ||W||_2$ ，对于实际的 $W||_2$ 计算，对于高维向量各项的平方和可表示为 $W^TW$ 并且开方运算计算量较大，开方运算不影响函数的单调性，因此使用 $W^TW$ 来等价 $W||_2$ 即可。因此可 $\hat{L }= J(W) + \frac {\alpha} {2} \cdot W^TW$ ，分母2为了抵消平方的求导的系数。

权重更新需要加上正则化项： $W-\eta \cdot \nabla_w \cdot J(W)-\eta \cdot \alpha \cdot W$ = $(1-\eta \cdot \alpha) W -\eta \cdot \nabla_w \cdot J(W)$ ，在 $(1-\eta \cdot \alpha)$ 在[0,1]之间时候，W在每次更新的时候都会衰减，这也是为什么L2正则化也叫做权重衰减，随着更新次数增多，W可改变的范围越来越小，也就是上文所提到的不恰当的例子中越来越走不动的原因。

不妨假设神经网络的函数为 $f (x)$ ，过拟合即是 $f (x)$ 可产生区分每个训练样本的分界线，分界线会多次转折或弯曲去区分，可参考第一个图中的黑色线。通过将 $f (x)$ 展开为泰勒公式则有： $f'(a_0)(x-a_0) + \frac {1} {2}f''(a_0)(x-a_0)^2 + \cdot \cdot\cdot + \frac {1} {2}f^{(n)}(a_0)(x-a_0)^n$ ，通过控制高次项的系数趋于0，就可降低 $f (x)$ 拟合能力（减少分界线的转折次数或程度），即控制W趋于0， $f^{(n)}(a_0)$ 也得趋于0，在 $f^{(n)}(a_0)$ 趋于0时，只惩罚大于1的高次项。

此外正则化去除常数C，会导致极值不一样，但是这个极值的误差到底有多大，这是需要关注的，在此不妨假设 $J(W^*)$ , $J(\hat{W})$ 分别是正则化前后的极值， $W^*$ , $\hat{W}$ 是其取得极值的权重，在这里直接截取了L1和L2正则化”直观理解(之二)的内容，对于L1一般Hessian矩阵无法得到清晰的表达式，此处略过，近似的方法参考该视频第24:00分钟的内容。

本质上，L1正则化、L2正则化就是在不同的 $\alpha$ 下对权重进行缩放，L1正则化的结果如下：

应用

解决过拟合

上文已经叙述了L1正则化，L2正则化对网络权重的约束，包括稀疏和权重衰减，此处简单示例如何使用L1正则化，L2正则化

import torch
import torch.nn as nn

# 定义模型
model = nn.Linear(10, 1)  # 以一个简单的线性模型为例

# 创建一些随机输入
input = torch.randn(5, 10)

# 获取模型的权重参数
parameters = model.parameters()
weights = [param for name, param in parameters]

# 计算L1正则化
l1_regularization = torch.tensor(0.)
for weight in weights:
    l1_regularization += torch.sum(torch.abs(weight))

# 计算L2正则化
l2_regularization = torch.tensor(0.)
for weight in weights:
    l2_regularization += torch.sum(weight**2)

# 设置正则化系数
l1_lambda = 0.01
l2_lambda = 0.01

# 将正则化项添加到损失函数中
criterion = nn.MSELoss()  # 以均方误差作为损失函数为例
loss = criterion(model(input), torch.randn(5, 1))
loss += l1_lambda * l1_regularization
# 或者
# loss += l2_lambda * l2_regularization

# 进行反向传播等其他训练步骤...

网络剪枝

除了对网络的参数进行正则化，其实也有一些应用在剪枝，其目的就是通过正则化后的权重来评估通道的贡献度，贡献度很小的通道（小的W就可以省略进行剪枝）。

Slimming： Learning Efficient Convolutional Networks through Network Slimming
论文速递： 点击转跳

利用BN层的比例因子： 为每个通道引入一个缩放因子γ，乘以该通道的输出。然后联合训练网络权值和这些比例因子，并对后者进行稀疏正则化。最后对这些小因子频道进行修剪，并对修剪后的网络进行微调。通常卷积和BN会一起使用，结合BN标准化激活的方式设计有效的方法来结合通道尺度因子。BN层使用小批量统计对内部激活进行规范化。设 $z_{in}和z_{out}$ 分别为BN层的输入和输出，B表示当前的mini-batch, BN层进行如下变换:

其中 $µ_B,σ_B$ 是B上输入激活的平均值和标准差值，γ和β是可训练的仿射变换参数(尺度和位移)。

具体来说，训练目标由损失函数和正则化项组成。

其中(x, y)表示训练输入和目标，W表示可训练权值，第一个求和项对应于网络的正常训练损失，g(·)是缩放因子上的稀疏性惩罚，λ平衡这两项。常见的使用L1/L2正则化，使得其中的缩放因子趋于0.

由于修剪通道本质上相当于删除该通道的所有传入和传出连接，比例因子作为渠道选择的代理。与网络权值共同优化，自动识别不重要的信道，可以在不影响泛化性能的情况下安全地去除不重要的信道。通过去除所有的进出连接和相应的权值来修剪比例因子接近于零的信道来更紧凑的网络，具有更少的参数和运行时内存，以及更少的计算操作。

当剪枝比较高时，剪枝可能会暂时导致一些精度损失。在很大程度上可以通过在修剪后的网络上进行随后的微调过程来补偿，如下图的虚线。

通过对批归一化层的比例因子施加稀疏性诱导的正则化，在训练过程中自动识别不重要的通道并进行修剪，能够显着降低最先进网络的计算成本(高达20倍)，而没有准确性损失。该方法同时减少了模型大小、运行时内存和计算操作，同时在训练过程中引入了最小的开销，并且所得到的模型不需要特殊的库/硬件来进行有效的推理。

总结

正则化是一种在机器学习中用于控制模型复杂度的技术，它通过在损失函数中添加一个额外项来对参数进行约束，从而避免过拟合。其中，L1正则化通过对参数的绝对值求和来实现，能够产生稀疏权重；L2正则化通过对参数的平方和求根号来实现，能够产生较为平滑的权重；实际上可以结合两者来共同约束参数。

在实际应用中，正则化可以帮助模型更好地泛化数据，提高模型的鲁棒性和可靠性。同时，正则化也需要根据具体问题进行调整，不同的正则化方法和系数可能会产生不同的效果。正则化的意义不仅仅在于提高模型的泛化能力，使其在面对新数据时能够更好地表现，同时正则化在网络剪枝方面也有应用。

致谢

欲尽善本文，因所视短浅，怎奈所书皆是瞽言蒭议。行文至此，诚向予助与余者致以谢意。

参考

[1]. L1和L2正则化”直观理解(之二)
[2]. Liu Z, Li J, Shen Z, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2736-2744.

postman请求接口时自动生成sign签名小牛_6666
当我们使用postman测试接口时，经常会遇到接口签名，由于签名随参数而变化，导致测试起来很头疼。通过查postman的使用文档，发现可以用Pre-requestScript来生成sign。Pre-requestScript的语法和js类似，可以在发起请求之前，对参数进行处理。下边以微信H5支付签名算法为例来自动生成sign签名1，签名规则第一步设所有发送或者接收到的数据为集合M，将集合M内非空参
【DW11月-深度学习】Task03前馈神经网络沫2021
参考链接：https://datawhalechina.github.io/unusual-deep-learning/#/4.%E5%89%8D%E9%A6%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C一、神经元模型2.1神经元1943年，美国神经生理学家沃伦·麦卡洛克(WarrenMcCulloch)和数学家沃尔特·皮茨(WalterPitts)对生物神经元进行
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
DAOS系统架构-JumpMap 付兄 daos DAOS 分布式存储
1.概述JumpPlacementMap是使用跳跃一致性哈希算法，以便在不同的故障域之间伪随机地分布对象。这样做是为了尽可能将他们分散到相互距离较远地故障域中，从而避免在当某个故障影响了整个故障域的情况下造成数据丢失。2.跳跃一致性哈希算法（JumpConsistentHashing）跳跃一致性哈希算法是一种一致性哈希算法，它能将keys均匀的分布在一定数量的buckets中。即使buckets的
DAOS系统架构-Placement
1.概述DAOS使用poolmap来创建一系列placementmaps，这些maps被用于计算对象布局的算法中。该算法是基于一致性哈希算法，使用对象的ID、对象的概要、以及其中一个placementmap来生成对象的布局。DAOS使用一种模块化方法，允许不同的对象使用不同的placementmap来获得应用程序所需的性能特征。2.PoolMap在DAOS中，poolmap被组织为一种树形结构，维
PTA数据结构与算法-第一章——褚论 ?Suki PTA习题算法数据结构 c++
文章目录第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树第六章——图第七章——排序第八章——检索判断题单选题程序填空题第一章——褚论第二章——线性表第三章——栈与队列第四章——字符串第五章——树与二叉树第六章——图第七章——排序第八章——检索判断题(neuDS)数据的物理结构是指数据在计算机中的实际存储形式。T(neuDS)数据的物理结构是指数据在计算机中的实际
排序算法之【归并排序】丶小鱼丶算法排序算法 java
目录实现归并排序【MergeSort】并提供升序和降序方法归并排序方法测试LeetCode-215题实现归并排序【MergeSort】并提供升序和降序方法/***归并排序*/publicclassMergeSort{//升序排列privatestaticfinalintUP_SORT_TYPE=1;//降序排列privatestaticfinalintDOWN_SORT_TYPE=-1;/***升
仓库货物检测：基于YOLOv5的深度学习应用与UI界面开发 YOLO实战营 YOLO 深度学习 ui 目标跟踪目标检测人工智能
一、引言随着电商和物流行业的快速发展，仓库货物管理已经成为企业运营中至关重要的环节。为了提高仓库管理的效率和准确性，越来越多的企业开始应用自动化技术来完成货物的盘点、分类、分拣等任务。传统的货物管理方式通常依赖人工检查，不仅效率低下，而且容易出现误差。为了克服这些问题，利用计算机视觉和深度学习技术来实现仓库货物的自动化检测成为了一种有效的解决方案。本博客将介绍如何使用YOLOv5进行仓库货物检测，
KL散度：信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
不对称性、计算本质与机器学习的普适应用本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与数学本质KL散度（Kullback-LeiblerDivergence）用于衡量两个概率分布PPP和QQQ的差异程度，定义为：DKL(P∥Q)=∑x∈XP(x)log⁡P(x)Q(x)(离散形式)D_
Transformer：自注意力驱动的神经网络革命引擎大千AI助手人工智能 Python #OTHER transformer 神经网络深度学习 google 人工智能机器学习大模型
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从语言理解到多模态智能的通用架构基石⚙️一、核心定义与历史意义Transformer是由Google团队在2017年论文《AttentionIsAllYouNeed》中提出的深度学习架构，其颠覆性创新在于：完全摒弃RNN/CNN：仅依赖自注意力机制（S
[特殊字符] LLM（大型语言模型）：智能时代的语言引擎与通用推理基座大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理 LLM 大模型 Transformer
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从千亿参数到人类认知的AI革命一、核心定义与核心特征LLM（LargeLanguageModel）是基于海量文本数据训练的深度学习模型，通过神经网络架构（尤其是Transformer）模拟人类语言的复杂规律，实现文本理解、生成与推理任务。其核心特征可概
HTML+CSS制作人物介绍网页 Kyra17 html5 css
*仅作个人学习记录用*网页效果视频演示代码实现HTML部分角色简介角色故事技能介绍艾尔海森「诲韬诤言」「文弱的学术分子」米哈游出品的游戏《原神》及其衍生作品中的角色，须弥教令院六大学派之一“知论派”的学者，现任教令院书记官兼任代理贤者，有过人的智慧与才能，生活得自由自在，一般人基本找不到他。在须弥的风波结束，虚空系统关闭之后，教令院还有很多亟待解决的难题。而艾尔海森身为代理贤者，又是当前教令院中非
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例你喜欢喝可乐吗？ deep learning deploy 深度学习 YOLO 目标检测
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例深度学习模型从开发到部署的完整流程包含需求分析、数据准备、模型训练、模型优化、模型测试和部署运行六大核心环节。YOLOv11作为新一代目标检测模型，不仅延续了YOLO系列的高效实时性能，还在检测精度和泛化能力上取得显著突破，使其成为工业质检、安防监控、自动驾驶等领域的理想选择。本文将详细阐述这一完整流程，并结合YOLOv11的具体实现，提
肉肉学习记录-想要改变的动力 F6 肉肉的天下
我是肉肉，坚信个人的力量能带给身边的人无穷的能量。励志坚持写作，将肉肉的成长和正向积极的价值人生分享给身边的朋友，赋能朋友圈。这是我的原创文章第6篇。阅读《不吼不叫》这本书中，收获了非常深刻的一句话：让你决定改变的时候，就已经是送给家人和自己最好的礼物了。图片发自App是的，我们曾经一直认为，我们应该维持自己原本的样子，不应该为了谁去改变我们自己，这样不值得，也不应该。所以，当我们试图改变孩子、家
预测导管原位癌浸润性复发的深度学习：利用组织病理学图像和临床特征浪漫的诗人论文深度学习人工智能
文章目录研究内容目的方法数据集模型开发模型训练与评估外部验证统计分析研究结果模型性能风险分层外部验证特征重要性原文链接原文献：Deeplearningforpredictinginvasiverecurrenceofductalcarcinomainsitu:leveraginghistopathologyimagesandclinicalfeatures研究背景【DCIS与IBC的关联】乳腺导管
day9｜学习前端打卡 universe_01 前端算法
时间复杂度，O（1）的时间复杂度没有for循环O（N）O（logN）并列循环，加起来N+N嵌套循环NlogN时间复杂度和运行时间是不一样的东西空间复杂度：算法存储空间和输入值之间的关系array数组：在连续的内存空间中，储存一组相同类型的元素访问：通过索引去取的index搜索：直接去找元素enumerate（index，element）函数，遍历索引和元素数组排序的时间复杂度是NlogN声明式渲染
读《原则》随笔-1 kavern
最近在看RayDlio的《原则》，受益颇多。作为对冲基金界神一样存在的人物，RayDlio通过本书讲述了他的成长历程，如何一手创办了桥水，如何取得了今天的成就。贯穿始终的，是所谓的“原则”，即做任何事情，都要有的标准、准则。这不禁让我想起了罗胖在2018跨年演讲上讲的“人生算法”（附上当时的感悟“算法”的力量）。无论是“原则”，还是“算法”，说白了，都是一系列可表达、可重复执行的指令。要想与众不同
深度学习：让 AI 拥有 “思考” 能力的核心技术田园Coder 人工智能科普人工智能科普
1.深度学习：突破传统的AI“进阶版”1.1什么是深度学习？深度学习是机器学习的一个分支，它通过模拟人脑神经网络的多层结构，让AI能够自动学习数据中的复杂特征，从而完成更高级的认知任务。例如，传统机器学习需要人类手动提取“猫有尖耳朵、胡须”等特征，而深度学习能直接从原始图片中，自主学习从像素到轮廓、再到整体形态的多层特征，最终实现更精准的识别。这种“自主提取特征”的能力，让深度学习突破了传统AI的
关于uniapp中的拖拽图片排序，类似发布朋友圈功能的组件学习一路向前的月光 js uniapp uni-app 学习
仅供学习记录和帮作者shm***@163.com推广一下他的插件如果侵权请联系我进行文章删除图片拖拽排序-DCloud插件市场GitHub-shmilyany/shmily-drag-image:uni-app图片拖拽排序插件一、项目背景在uniapp中编写类似发布朋友圈功能时候需要用户可以自己决定上传图片的顺序二、基本功能组件movable-area可拖动区域由于app和小程序的架构是逻辑层与视
C++数据结构————二叉树 Гений.大天才 C++语言入门以及基础算法 c++数据结构开发语言
【前言】在数据结构与算法的世界里，二叉树（BinaryTree）始终占据着核心地位。它既是众多高级树形结构（B+树、红黑树、线段树、字典树……）的“基因”，又是面试、竞赛与工程实战中绕不开的考点。本文将用大约2万字的篇幅，从“零”开始，把C++二叉树的所有常见形态、常见算法、常见坑点与常见优化一次性讲透。全文配套可编译运行的C++17/20代码2000余行，所有示例均在GCC13/Clang17/
PyTorch torch.no_grad() 指南（笔记）拉拉拉拉拉拉拉马 pytorch 人工智能 python 笔记深度学习
PyTorchtorch.no_grad()权威在PyTorch深度学习框架中，高效的显存管理对于训练复杂模型和执行大规模推理任务至关重要。显存不足（OutOfMemory,OOM）错误是开发者经常面临的挑战之一。torch.no_grad()作为PyTorch提供的一个核心工具，能够在推理（inference）和验证（validation）阶段显著优化显存使用并提升计算速度。本报告旨在全面、深入
React--Fiber 架构前端_学习之路 React.js react.js 架构前端
React的Fiber架构是React16.x版本引入的核心更新，旨在解决大型应用中渲染性能瓶颈的问题。它重新设计了协调算法（Reconciliation），使渲染过程更加可控和高效。核心设计目标1.可中断渲染：将渲染工作拆分成多个小任务，允许浏览器中断渲染进程，优先处理高优先级事件（如用户输入、动画）。2.优先级调度：为不同类型的更新分配不同优先级，紧急更新（如动画）可以插队执行。3.增量渲染：
【深度学习基础】PyTorch中model.eval()与with torch.no_grad()以及detach的区别与联系？
目录1.核心功能对比2.使用场景对比3.区别与联系4.典型代码示例(1)模型评估阶段(2)GAN训练中的判别器更新(3)提取中间特征5.关键区别总结6.常见问题与解决方案(1)问题：推理阶段显存爆掉(2)问题：Dropout/BatchNorm行为异常(3)问题：中间张量意外参与梯度计算7.最佳实践8.总结以下是PyTorch中model.eval()、withtorch.no_grad()和.d
数据结构错题收录（十）程序员丶星霖
1、下列关于广度优先算法的说法中，正确的是（）。Ⅰ.当各边的权值相等时，广度优先算法可以解决单源最短路径问题Ⅱ.当个边的权值不等时，广度优先算法可用来解决单源最短路径问题Ⅲ.广度优先遍历算法类似于树中的后序遍历算法Ⅳ.实现图的广度优先算法时，使用的数据结构是队列•A：Ⅰ、Ⅳ•B：Ⅱ、Ⅲ、Ⅳ•C：Ⅱ、Ⅳ•D：Ⅰ、Ⅲ、Ⅳ解析广度优先搜索以起始结点为中心，一层一层地向外层扩展遍历图的顶点，因此无法考虑到
React Native iOS 全栈开发：跨平台开发的最佳实践 AI天才研究院 ChatGPT 计算 AI人工智能与大数据 react native ios react.js ai
ReactNativeiOS全栈开发：跨平台开发的最佳实践关键词：ReactNative、iOS开发、跨平台开发、全栈开发、最佳实践摘要：本文围绕ReactNativeiOS全栈开发展开，详细探讨了跨平台开发的最佳实践。从核心概念入手，介绍了ReactNative和iOS开发相关知识，阐述它们之间的联系。深入讲解核心算法原理和具体操作步骤，通过数学模型和公式进一步剖析。提供项目实战案例，包含开发环
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
【LeetCode 3136. 有效单词】解析
目录LeetCode中国站原文原始题目题目描述示例1：示例2：示例3：提示：讲解化繁为简：如何优雅地“盘”逻辑判断题第一部分：算法思想——“清单核对”与“一票否决”第二部分：代码实现——清晰的逻辑翻译实现一：常规判断逻辑实现二：使用正则表达式（一行代码的“炫技”）第三部分：总结LeetCode中国站原文https://leetcode.cn/problems/valid-word/原始题目题目描述
CVE-2005-4900：TLS SHA-1 安全漏洞修复详解 Nova_CaoFc 运维日常技术博文分享安全 linux 服务器运维
前言在信息安全日益重要的当下，任何微小的加密弱点都可能被攻击者利用，从而导致数据泄露、流量劫持或更严重的业务中断。本文将结合实际环境中常见的Nginx配置示例，深入剖析CVE-2005-4900（TLS中使用SHA-1哈希算法）的危害，并提供完整、可操作的修复流程。一、什么是CVE-2005-4900漏洞CVE-2005-4900定位于TLS协议中使用SHA-1作为消息认证和签名哈希算法的安全漏洞
内存受限编程：从原理到实践的全面指南景彡先生 C++进阶 c++缓存
在嵌入式系统、物联网设备、移动应用等场景中，内存资源往往极为有限。如何在内存受限的环境中设计高效、稳定的程序，是每个开发者都可能面临的挑战。本文将从硬件原理、操作系统机制、算法优化到代码实现技巧，全面解析内存受限编程的核心技术。一、内存受限环境概述1.1典型内存受限场景场景可用内存范围典型应用8位单片机几KB-64KB传感器节点、简单控制器32位嵌入式系统64KB-512MB智能家居设备、工业控制
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的